障害対応ガイド 〜パニックにならないために〜
何かが壊れたとき、人間は案外冷静でいられます。事前に「こうなったらこうする」を知っているだけで、ずいぶん違います。このドキュメントは、そのための「転ばぬ先の杖」です。
⚠️ 大前提
障害対応中に最もやってはいけないことは、**「焦って原因不明のまま手を動かし続けること」**です。まず状況を把握してから動きましょう。
障害発生時のフロー
1. 検知(気づく)
↓
2. 状況把握(何が・どこで・どの程度)
↓
3. チームへの共有(一人で抱えない)
↓
4. 影響範囲の特定(どのユーザーが・何ができない)
↓
5. 暫定対応(まずサービスを止血する)
↓
6. 恒久対応(根本原因を修正する)
↓
7. 振り返り(再発を防ぐ)
ステップ別の行動指針
Step 1-2:検知・状況把握
まず「何が起きているか」を把握します。慌てて触る前に、ログを見ましょう。
確認すべき項目:
- エラーログに何が出ているか
- いつから発生しているか
- デプロイや変更のタイミングと一致しているか
- 特定のユーザー・ブラウザ・地域だけか、全体的か
Step 3:チームへの共有
発生を把握したら、すぐにSlackの障害対応チャンネルへ報告します。
第一報の例:
【障害発生】
- 発生時刻:XX:XX頃
- 症状:ログイン画面が500エラーで返ってくる
- 影響範囲:全ユーザー(推定)
- 現在の対応:ログ確認中
「完全に理解してから報告しよう」は禁物です。不完全な情報でも共有することで、助けてくれる人が現れます。
Step 5:暫定対応
原因が分からなくても、できることはあります。
| 状況 | 暫定対応候補 |
|---|---|
| 直前のデプロイ後から発生 | ロールバックを検討 |
| 特定の処理に負荷が集中 | 該当機能を一時的に無効化 |
| 外部サービス障害 | 依存機能の切り離し・メンテページ表示 |
振り返り(ポストモーテム)
障害が解決したあと、必ず振り返りをします。
目的は「犯人探し」ではなく「同じことを繰り返さないこと」です。
振り返りに書くこと:
- タイムライン(何時に何が起きたか)
- 原因(技術的な根本原因)
- 対応内容
- 良かった対応
- 改善できること
- 次のアクション(誰が・何を・いつまでに)
よくある障害パターンと対処法
| パターン | まず確認すること |
|---|---|
| ページが表示されない | サーバーのステータス、DNSの設定 |
| データが更新されない | APIのレスポンス、キャッシュの状態 |
| 特定ユーザーだけエラー | ユーザーデータの異常、権限設定 |
| デプロイ後に壊れた | 変更差分の確認、ロールバック検討 |
| 外部API絡みのエラー | 外部サービスのステータスページを確認 |
障害対応後の心ケア
重大な障害対応は、精神的に消耗します。
- 対応が終わったら、まず休みましょう
- チームで「お疲れさまでした」を言い合いましょう
- 何か学べたことがあれば、それは失敗ではなく成長です
🛡️ チームの文化として
障害を「隠す」のではなく「共有する」文化が、結果的にシステムを強くします。
一人で抱え込まないこと。それが最大の障害対応スキルです。