インフラ設計入門｜少人数チームが運用負荷を最小化する構成の考え方

少人数チームでのインフラ運用は、機能の多さより「回せること」が最重要です。高機能でも運用できなければ障害復旧が遅れ、結果としてビジネス影響が大きくなります。設計段階から運用負荷を織り込むことで、少ない人員でも安定したサービス運営が可能になります。

本記事では、実際に5名のスタートアップで月間コスト8万円・稼働率99.5%を実現したインフラ構成をもとに、推奨構成の3段階とセキュリティ最低ラインを解説します。

なぜ少人数チームのインフラ設計は難しいのか

中小企業やスタートアップでは、以下のような制約があります。

専任の運用担当者がいない: 開発者が片手間で運用を兼務
- 開発業務に80%の時間を使い、運用は20%以下の工数で回す必要があります。
- 障害発生時も、すぐに対応できる体制が取れないことがあります。
予算が限られている: 大企業向けの高額な監視ツールやサポート契約は現実的でない
- エンタープライズ向けツールは月額数十万円〜数百万円かかります。
- フルマネージドサービスを使いたくても、コストが合わないケースが多いです。
急成長に対応する必要がある: 最初は小規模でも、ユーザーが急増する可能性
- スケールアウト（サーバー台数を増やす）の設計が不十分だと、成長時に大規模なリプレースが必要になります。
- 逆に、過剰にスケーラブルな設計をすると、初期段階では無駄なコストがかかります。
ナレッジが属人化しやすい: 担当者が1〜2名しかいない
- 担当者が退職・休暇で不在になると、誰も障害対応できないリスクがあります。
- マニュアルや手順書が整備されていないことが多いです。

これらの制約を前提に、「シンプルで回せる」インフラ設計が求められます。

ケーススタディ：5名スタートアップのインフラ構成

企業プロフィール

業種：SaaS（業務管理ツール）
従業員数：5名（エンジニア3名、営業1名、経営者1名）
インフラ担当：1名（兼務、運用工数20%）
ユーザー数：500社（月間アクティブユーザー約3,000名）

要件

稼働率目標: 99.5%以上（月間ダウンタイム3.6時間以内）
予算上限: 月間10万円以内
復旧時間目標: 障害発生から1時間以内に復旧
セキュリティ基準: ISO 27001相当のセキュリティ対策

インフラ構成

サービス構成（AWS利用）

アプリケーション: AWS Fargate（コンテナ）
- サーバー管理不要、オートスケーリング対応
- CPU/メモリ使用率に応じて自動でコンテナ数を増減
データベース: Amazon RDS（PostgreSQL）
- マネージドサービスで、バックアップ・パッチ適用が自動
- Multi-AZ構成で可用性を確保
ストレージ: Amazon S3（ファイル保存）
- 高耐久性（99.999999999%）
- 静的ファイル（画像、PDF）の配信
CDN: CloudFront（コンテンツ配信）
- 世界中からの高速アクセスを実現
- SSL/TLS証明書も自動更新
監視: AWS CloudWatch + PagerDuty
- メトリクス監視、ログ監視、アラート通知
- PagerDutyで担当者への電話・SMS通知

開発・デプロイ

CI/CD: GitHub Actions
- コード変更時に自動でテスト・デプロイ
- 手動デプロイのミスを防ぐ
- 詳細はCI/CD入門を参照
インフラコード管理: Terraform
- インフラ構成をコードで管理し、再現可能に
- 変更履歴をGitで管理

月間コスト内訳

項目	月額費用	備考
AWS Fargate	2.5万円	コンテナ実行（2vCPU、4GB RAM × 2台）
Amazon RDS	2万円	PostgreSQL（db.t3.medium、Multi-AZ）
Amazon S3	0.3万円	ファイルストレージ（100GB）
CloudFront	0.5万円	CDN配信（月間10TB転送）
AWS CloudWatch	0.3万円	ログ保存、メトリクス監視
PagerDuty	0.8万円	アラート通知（Essential Plan）
GitHub	0.5万円	Team Plan（5名）
SSL証明書	0円	AWS Certificate Manager（無料）
合計	6.9万円	予算内に収まる

運用体制

日常運用（週5時間程度）

毎朝10分：ダッシュボード確認（エラー率、応答速度）
週1回1時間：パッチ適用、セキュリティアップデート確認
月1回2時間：バックアップ復元テスト

障害対応

PagerDutyからアラート受信（Slack + 電話）
担当者が1時間以内に初動対応
復旧後、インシデントレポートを作成（再発防止策を含む）

導入後の成果（1年間）

指標	目標	実績	達成度
稼働率	99.5%以上	99.7%	◎
月間コスト	10万円以内	6.9万円	◎
平均復旧時間（MTTR）	1時間以内	35分	◎
障害件数	月1回以下	0.5回/月（年間6件）	◎
担当者稼働率	20%以内	18%	◎

成功要因

フルマネージドサービス（Fargate、RDS）で運用工数を削減
自動化（CI/CD、オートスケーリング）で手動作業を最小化
監視・アラートを初期構築時に組み込み、障害の早期検知

設計で優先すべき3原則

少人数チームで安定運用を実現するための設計原則です。

1. 構成はできるだけシンプルに保つ

シンプル構成のメリット

障害発生時の原因特定が早い
担当者が変わっても理解しやすい
ドキュメント作成・更新の手間が少ない

シンプル化のポイント

管理対象コンポーネントを最小化する
- サーバーの台数を減らす（1台で済むなら1台にする）
- 同じ目的のツールを複数使わない（例：監視ツールを1つに統一）
- マネージドサービスを優先（サーバー管理不要、パッチ適用自動）
同じ役割のサービスを乱立させない
- 悪い例：開発環境にServerA、ステージング環境にServerB、本番環境にServerC（それぞれ設定が異なる）
- 良い例：すべて同じ構成・同じツールで統一（環境変数のみ変更）
例外的な設定を減らし標準構成へ寄せる
- 「このサーバーだけ特別な設定」を作らない
- 標準テンプレートを作り、すべてのサーバーで同じ設定を適用
- 例外が必要な場合は、必ずドキュメントに記載

将来の拡張を意識しすぎて初期から複雑化すると、少人数チームでは運用しきれません。まずは単純で観測しやすい構成を優先してください。

2. 監視・通知を最初に組み込む

監視設計の落とし穴

「システム構築が終わったら監視を追加しよう」→ 後回しになり、結局導入されない
障害が発生してから監視の重要性に気づく

成功パターン

システム構築と同時に監視を設計
初回リリース時点で、最低限の監視は稼働している状態

監視対象の優先順位

死活監視（最優先）: サービスが稼働しているか
エラー率: 異常なエラーが頻発していないか
応答速度: レスポンスタイムが遅延していないか
リソース使用率: CPU/メモリ/ディスクが逼迫していないか
バックアップ成功可否: 毎日のバックアップが成功しているか

通知設計のポイント

通知先を明確にする: Slack、メール、電話（PagerDuty）など
エスカレーションルールを決める: 一次対応者が応答しない場合、誰に通知するか
通知の粒度を調整する: すべてのアラートを通知すると「オオカミ少年」化するため、重要度で絞る

3. 復旧手順を文書化し訓練する

復旧手順の重要性

障害発生時は焦りやすく、冷静な判断が難しい
手順書があれば、誰でも同じ初動を取れる
新人でも手順書を見ながら復旧作業ができる

手順書に含めるべき内容

障害の症状別の対応手順（例：「DBに接続できない」→「1. RDSのステータス確認、2. ネットワーク確認、3. 再起動」）
よくあるエラーメッセージと対処法
エスカレーション先（社内の誰に連絡するか、外部サポートの連絡先）
ロールバック手順（最新版に問題がある場合、前バージョンに戻す）

復旧訓練の実施

四半期に1回、障害シミュレーション訓練を実施
「DBサーバーが停止した」と仮定し、手順書通りに復旧できるか確認
訓練で見つかった問題点を手順書に反映

この3つを守るだけで、障害時の初動速度と再現性が大きく改善します。

シンプル構成を実現する考え方

少人数チームでは、「最小構成で最大効果」を狙います。

マネージドサービスを優先する

マネージドサービスとは

クラウド事業者が運用管理を代行するサービス
サーバー管理、パッチ適用、バックアップなどを自動実行
例：AWS RDS（データベース）、AWS Fargate（コンテナ）、Google Cloud Run、Azure App Service

メリット

運用工数が大幅に削減（サーバー保守が不要）
高可用性が標準で提供される（Multi-AZ、自動フェイルオーバー）
セキュリティパッチが自動適用される

デメリット

自前でサーバーを立てるより割高（ただし、運用工数を考慮すると安い）
カスタマイズ性が制限される（特殊な設定が必要な場合は不向き）

選定基準

標準的な要件であればマネージドサービスを選択
特殊な要件がある場合のみ、自前構築を検討

オートスケーリングを活用する

オートスケーリングとは

負荷に応じてサーバー台数を自動増減
トラフィックが増えたら自動でサーバー追加、減ったら削減

メリット

ピーク時の負荷に対応できる（手動でサーバー追加する必要なし）
平時はサーバー台数を減らしてコスト削減

設定例（AWS Fargateの場合）

平時：2台稼働
CPU使用率70%を超えたら自動で4台に増加
CPU使用率30%を下回ったら2台に減少

インフラをコードで管理する（IaC: Infrastructure as Code）

IaCとは

サーバー構成をコード（Terraform、CloudFormationなど）で記述
手動でポチポチと設定するのではなく、コードを実行してインフラを構築

メリット

同じ構成を何度でも再現可能（開発環境と本番環境を同一構成にできる）
変更履歴がGitで管理される（誰が・いつ・何を変更したか追跡可能）
災害時に別リージョンで即座に復旧可能

推奨ツール

Terraform（クラウド事業者に依存しない、AWS/GCP/Azure対応）
AWS CloudFormation（AWS専用、AWSとの統合が深い）
Pulumi（プログラミング言語でインフラ記述、TypeScript/Python対応）

監視設計のポイント

監視は「全部監視」ではなく、重要指標に絞るのが実務的です。

監視すべき重要指標（5つ）

サービス稼働状況（死活監視）
- Webサイトが正常に応答するか（HTTP 200 OKが返ってくるか）
- 外形監視ツール（UptimeRobot、StatusCake、AWS Route 53 Health Check）を使用
- 1分間隔で監視し、3回連続で応答がない場合にアラート
- 監視設計の詳細は監視・アラート設計ガイドを参照
応答速度・エラー率
- レスポンスタイムが通常より50%以上遅延した場合にアラート
- エラー率（5xx系エラー）が1%を超えた場合にアラート
- APM（Application Performance Monitoring）ツール（New Relic、Datadog、AWS X-Ray）を使用
CPU / メモリ / ディスク使用率
- CPU使用率が80%を超えたらアラート（スケールアウトの準備）
- メモリ使用率が90%を超えたら緊急アラート（メモリリーク・スワップ発生のリスク）
- ディスク使用率が80%を超えたら警告、90%を超えたら緊急アラート
バックアップ成功可否
- 毎日のバックアップが成功しているか監視
- バックアップが1回でも失敗したら即座にアラート
- 定期的に復元テストを実施（四半期に1回）
証明書期限やジョブ失敗
- SSL証明書の有効期限が30日を切ったらアラート
- バッチジョブ（データ集計、レポート生成など）の失敗を監視
- 定期実行ジョブが3回連続で失敗した場合にアラート

さらに、通知先とエスカレーションルールを明確にしておくことで、夜間や休日の混乱を減らせます。

アラート通知の設計

通知レベルの定義

レベル	説明	通知方法	対応期限
Critical（緊急）	サービス停止、データ損失リスク	電話 + SMS + Slack	即時（15分以内）
High（高）	一部機能の停止、パフォーマンス低下	Slack + メール	1時間以内
Medium（中）	軽微なエラー、リソース逼迫の予兆	Slack	営業時間内
Low（低）	情報通知、ログの記録	ログのみ	対応不要

エスカレーションルールの例

アラート発生 → 一次対応者に通知（Slack + メール）
15分以内に応答なし → 二次対応者に電話通知
30分以内に応答なし → 責任者に電話通知

誤検知（False Positive）を減らす

アラート閾値を適切に設定（厳しすぎると頻繁にアラートが発生）
一時的なスパイクではアラートを出さない（3回連続で閾値超過した場合のみ）
定期メンテナンス中はアラートを停止

バックアップと復旧設計

バックアップは取得するだけでは不十分で、復元できることを定期検証する必要があります。

バックアップ戦略

取得頻度と保持期間を業務要件で決める
- データベース：毎日バックアップ、30日間保持
- ファイルストレージ：週1回バックアップ、90日間保持
- 重要データ（顧客情報、取引記録）：毎日バックアップ、1年間保持
- 災害復旧の包括的な設計は災害復旧計画入門を参照
復元手順を手順書化する
- バックアップファイルの保存場所
- 復元コマンド（ステップバイステップで記載）
- 復元後の確認項目（データ整合性チェック）
四半期ごとに復元テストを行う
- 本番環境とは別の環境で復元テスト
- 復元にかかる時間を計測（RTO: Recovery Time Objectiveの確認）
- 復元後のデータが正常か確認
重要データは別リージョン/別環境へ退避する
- 同一リージョン内のバックアップだけでは、リージョン全体の障害時に復旧できない
- S3クロスリージョンレプリケーション、別クラウド事業者へのバックアップも検討

復元テストをしていないバックアップは、障害時に使えないリスクがあります。

具体的なバックアップ設定例（AWS）

RDS（データベース）

自動バックアップ有効化（毎日深夜2時に実行）
バックアップ保持期間：30日
スナップショット手動取得：重要な変更前（リリース前など）

S3（ファイルストレージ）

バージョニング有効化（誤削除時に復元可能）
クロスリージョンレプリケーション（別リージョンにコピー）
ライフサイクルポリシー：90日経過したファイルはGlacier（低コストストレージ）へ移動

EC2（仮想サーバー）

AMI（Amazon Machine Image）を週1回取得
保持期間：4世代（4週間分）

障害対応フロー具体例

障害発生時の初動を標準化することで、復旧時間を短縮できます。

障害対応フロー（5ステップ）

Step 1: 検知・通知（0〜5分）

監視ツールがアラート検知
PagerDutyから担当者に電話 + SMS + Slack通知
担当者がアラートを確認し、「対応開始」をシステムに通知

Step 2: 初動対応（5〜15分）

ダッシュボードで状況確認（エラー率、応答速度、リソース使用率）
ログを確認し、エラーメッセージを特定
影響範囲を確認（全ユーザーか、特定機能のみか）
ステークホルダーに一次報告（「現在調査中、15分後に状況報告」）

Step 3: 原因特定・暫定対応（15〜30分）

エラーログ、システムログから原因を特定
手順書に従って暫定対応（例：問題のあるサーバーを再起動、ロードバランサーから切り離し）
ユーザーへ告知（ステータスページ、SNSで障害発生を通知）

Step 4: 恒久対応（30分〜数時間）

根本原因を解消（コード修正、設定変更、リソース追加など）
テスト環境で動作確認
本番環境にデプロイ
復旧確認（正常動作、エラー率が通常レベルに戻ったか）

Step 5: 事後対応（障害収束後）

インシデントレポート作成（発生時刻、原因、対応内容、再発防止策）
ポストモーテム（振り返り）実施（チーム全体で共有）
再発防止策を実装（監視追加、アラート閾値調整、コード改善など）

障害対応フロー図

[アラート検知]
    ↓
[担当者に通知（電話・Slack）]
    ↓
[ダッシュボード確認] → エラー率、応答速度、リソース使用率
    ↓
[ログ確認] → エラーメッセージ特定
    ↓
[影響範囲確認] → 全体 or 一部
    ↓
[一次報告] → ステークホルダーに状況共有
    ↓
[原因特定] → 手順書参照
    ↓
[暫定対応] → 再起動、ロールバック、リソース追加
    ↓
[ユーザー告知] → ステータスページ更新
    ↓
[恒久対応] → コード修正、設定変更
    ↓
[復旧確認] → 正常動作確認
    ↓
[ユーザー告知] → 復旧完了通知
    ↓
[インシデントレポート作成] → 再発防止策記載
    ↓
[ポストモーテム実施] → チームで振り返り

障害対応を早くする工夫

担当者依存を減らすには、誰が見ても同じ初動を取れる状態を作ることが重要です。

構成図を常に最新状態で維持する
- システム構成図、ネットワーク図を最新化（変更のたびに更新）
- 図はWikiやConfluenceで共有し、全員がアクセスできるようにする
- 図には「最終更新日」を記載
変更履歴をチケットで残す
- サーバー設定変更、コードデプロイはすべてチケット（Jira、GitHub Issue）で記録
- 障害発生時に「最近何を変更したか」を即座に確認できる
- 変更ログは最低1年間保持
原因切り分け手順をテンプレート化する
- 「サービスが応答しない」→ チェックリスト（サーバー稼働、ネットワーク、DB接続、アプリログ）
- よくある障害パターンごとに手順書を作成
- 新人でもチェックリストに従えば初動対応できる
インシデント後レビューで再発防止策を実装する
- 障害が発生したら、必ずポストモーテム（振り返り）を実施
- 「犯人探し」ではなく「システム改善」にフォーカス
- 再発防止策を実装するまでがインシデント対応

推奨構成の3段階

事業規模に応じて、インフラ構成を段階的に進化させます。

Phase 1: スタートアップ初期（月間コスト3〜8万円）

対象

ユーザー数100〜1,000名
従業員5名以下
インフラ担当1名（兼務）

構成

アプリケーション：AWS Fargate（2コンテナ）またはHeroku
データベース：Amazon RDS（Single-AZ、db.t3.small）
ストレージ：Amazon S3
監視：AWS CloudWatch + UptimeRobot（無料）
バックアップ：RDS自動バックアップ（7日保持）

特徴

シンプル・最小構成
可用性は99%程度（年間ダウンタイム約3.5日）
コスト重視

Phase 2: 成長期（月間コスト8〜20万円）

対象

ユーザー数1,000〜10,000名
従業員10〜30名
インフラ担当1〜2名

構成

アプリケーション：AWS Fargate（オートスケーリング、3〜10コンテナ）
データベース：Amazon RDS（Multi-AZ、db.t3.medium）
キャッシュ：Amazon ElastiCache（Redis）
CDN：CloudFront
監視：AWS CloudWatch + PagerDuty + New Relic
バックアップ：RDS自動バックアップ（30日保持） + S3クロスリージョンレプリケーション
ネットワーク：VPN構築でセキュアなリモートアクセス

特徴

高可用性（Multi-AZ、オートスケーリング）
稼働率99.5%以上
パフォーマンス監視強化
コスト最適化はクラウドコスト最適化を参照

Phase 3: 拡大期（月間コスト20〜50万円）

対象

ユーザー数10,000名以上
従業員30名以上
インフラチーム2〜5名

構成

アプリケーション：AWS ECS/EKS（Kubernetes、10〜100コンテナ）
データベース：Amazon RDS（Multi-AZ、リードレプリカ複数）またはAmazon Aurora
キャッシュ：Amazon ElastiCache（クラスター構成）
CDN：CloudFront + WAF（セキュリティ強化）
監視：Datadog / New Relic（フルスタック監視）
バックアップ：複数リージョン、DR（災害復旧）サイト構築

特徴

エンタープライズレベルの可用性（99.9%以上）
グローバル展開対応
セキュリティ・コンプライアンス強化

セキュリティ最低ライン

少人数チームでも、最低限のセキュリティ対策は必須です。

必須対策（5項目）

1. アクセス制御

IAM（Identity and Access Management）: ユーザーごとに最小権限を付与
多要素認証（MFA）: 管理画面へのアクセスは必ずMFA必須
IP制限: 管理画面は特定IPからのみアクセス可能にする
詳細はアクセス制御の基本を参照

2. データ暗号化

通信暗号化: SSL/TLS証明書を使用（Let’s Encryptで無料取得可能）
保存データ暗号化: RDS、S3は暗号化を有効化
機密情報の環境変数化: パスワード、APIキーはコードに直書きせず、環境変数で管理
ドメインとSSL設定はドメイン・DNS・SSLガイドで解説

3. ログ監視

ログ保存: すべてのアクセスログ、エラーログを保存（最低90日間）
異常検知: 不正アクセス、大量エラーを自動検知
監査ログ: 誰がいつ何を変更したか記録

4. パッチ適用

OS・ミドルウェアの定期更新: 月1回の定期メンテナンス
セキュリティパッチの即時適用: 重大な脆弱性が発見されたら24時間以内に対応
依存ライブラリの更新: npm、pip、bundlerなどの依存関係を定期的に更新

5. バックアップとDR（災害復旧）

定期バックアップ: 毎日実施、複数世代保持
復元テスト: 四半期に1回実施
別リージョンへの退避: 同一リージョン障害に備える
詳細は災害復旧計画入門を参照

クラウド移行を検討中の方は、サーバー移行とクラウド移行も合わせてご覧ください。

少人数チーム向け運用KPI

運用品質を可視化し、継続的に改善します。

月間障害件数
- 目標：2件以下
- Critical（サービス停止）は0件を目指す
平均復旧時間（MTTR: Mean Time To Recovery）
- 目標：1時間以内
- Critical障害は15分以内の初動対応
アラート誤検知率
- 目標：20%以下
- 誤検知が多いとアラート疲れで重要な通知を見逃す
バックアップ成功率
- 目標：100%
- 1回でも失敗したら即座に対応
変更起因障害率
- 目標：10%以下
- 変更（デプロイ、設定変更）が原因の障害を減らす
稼働率（Uptime）
- 目標：99.5%以上（月間ダウンタイム3.6時間以内）
- Phase 2以降は99.9%を目指す

KPIを可視化すると、改善優先順位が明確になり、限られた工数を効果的に配分できます。

よくある失敗パターンと対策

失敗パターン1: 過剰な冗長化で運用が複雑化

症状

「万が一に備えて」と、Multi-AZ、リードレプリカ、複数リージョン展開を初期から実装
構成が複雑になり、障害時の原因特定に時間がかかる
月間コストが予算を大幅に超過

対策

Phase 1では最小構成から開始（Single-AZ、1リージョン）
ユーザー数・売上が増えてからPhase 2へ移行
過剰な冗長化より、シンプルで確実に復旧できる設計を優先

失敗パターン2: 監視を後回しにして障害に気づかない

症状

システム構築を優先し、監視は「後で追加しよう」と後回し
障害が発生しても気づかず、ユーザーからの問い合わせで初めて発覚
原因特定に時間がかかり、復旧が遅れる

対策

システム構築と同時に監視を設計
最低限の死活監視は初日から稼働
監視ツールの導入費用を初期予算に組み込む

失敗パターン3: 復元テストをせずバックアップが使えない

症状

毎日バックアップを取得しているが、復元テストは未実施
障害時に復元しようとしたら、バックアップファイルが破損していた
復元手順が不明で、復旧に半日以上かかる

対策

四半期に1回、復元テストを実施
復元手順を文書化し、誰でも実行できるようにする
復元にかかる時間を計測し、RTO（目標復旧時間）を設定

まとめ

少人数チームのインフラ設計では「高機能」より「継続運用」が優先です。最小構成で始め、監視・バックアップ・復旧手順を軸に改善することで、運用品質とコスト効率を両立できます。

成功の3原則

シンプル構成: マネージドサービスを優先し、管理対象を最小化
監視最優先: システム構築と同時に監視を組み込み、早期検知
復旧訓練: 手順書を整備し、四半期ごとに復元テストを実施

5名のスタートアップ事例では、月間コスト6.9万円で稼働率99.7%を実現しました。あなたの会社でも、まずはPhase 1の最小構成から始め、事業成長に合わせて段階的に進化させてください。

インフラ設計入門｜少人数チームが運用負荷を最小化する構成の考え方

なぜ少人数チームのインフラ設計は難しいのか

ケーススタディ：5名スタートアップのインフラ構成

企業プロフィール

要件

インフラ構成

月間コスト内訳

運用体制

導入後の成果（1年間）

設計で優先すべき3原則

1. 構成はできるだけシンプルに保つ

2. 監視・通知を最初に組み込む

3. 復旧手順を文書化し訓練する

シンプル構成を実現する考え方

マネージドサービスを優先する

オートスケーリングを活用する

インフラをコードで管理する（IaC: Infrastructure as Code）

監視設計のポイント

監視すべき重要指標（5つ）

アラート通知の設計

バックアップと復旧設計

バックアップ戦略

具体的なバックアップ設定例（AWS）

障害対応フロー具体例

障害対応フロー（5ステップ）

障害対応フロー図

障害対応を早くする工夫

推奨構成の3段階

Phase 1: スタートアップ初期（月間コスト3〜8万円）

Phase 2: 成長期（月間コスト8〜20万円）

Phase 3: 拡大期（月間コスト20〜50万円）

セキュリティ最低ライン

必須対策（5項目）

少人数チーム向け運用KPI

よくある失敗パターンと対策

失敗パターン1: 過剰な冗長化で運用が複雑化

失敗パターン2: 監視を後回しにして障害に気づかない

失敗パターン3: 復元テストをせずバックアップが使えない

まとめ

関連記事