障害対応ガイド〜パニックにならないために〜

何かが壊れたとき、人間は案外冷静でいられます。事前に「こうなったらこうする」を知っているだけで、ずいぶん違います。このドキュメントは、そのための「転ばぬ先の杖」です。

⚠️ 大前提
障害対応中に最もやってはいけないことは、**「焦って原因不明のまま手を動かし続けること」**です。まず状況を把握してから動きましょう。

障害発生時のフロー

1. 検知（気づく）
    ↓
2. 状況把握（何が・どこで・どの程度）
    ↓
3. チームへの共有（一人で抱えない）
    ↓
4. 影響範囲の特定（どのユーザーが・何ができない）
    ↓
5. 暫定対応（まずサービスを止血する）
    ↓
6. 恒久対応（根本原因を修正する）
    ↓
7. 振り返り（再発を防ぐ）

ステップ別の行動指針

Step 1-2：検知・状況把握

まず「何が起きているか」を把握します。慌てて触る前に、ログを見ましょう。

確認すべき項目：

エラーログに何が出ているか
いつから発生しているか
デプロイや変更のタイミングと一致しているか
特定のユーザー・ブラウザ・地域だけか、全体的か

Step 3：チームへの共有

発生を把握したら、すぐにSlackの障害対応チャンネルへ報告します。

第一報の例：

【障害発生】
- 発生時刻：XX:XX頃
- 症状：ログイン画面が500エラーで返ってくる
- 影響範囲：全ユーザー（推定）
- 現在の対応：ログ確認中

「完全に理解してから報告しよう」は禁物です。不完全な情報でも共有することで、助けてくれる人が現れます。

Step 5：暫定対応

原因が分からなくても、できることはあります。

状況	暫定対応候補
直前のデプロイ後から発生	ロールバックを検討
特定の処理に負荷が集中	該当機能を一時的に無効化
外部サービス障害	依存機能の切り離し・メンテページ表示

振り返り（ポストモーテム）

障害が解決したあと、必ず振り返りをします。
目的は「犯人探し」ではなく「同じことを繰り返さないこと」です。

振り返りに書くこと：

タイムライン（何時に何が起きたか）
原因（技術的な根本原因）
対応内容
良かった対応
改善できること
次のアクション（誰が・何を・いつまでに）

よくある障害パターンと対処法

パターン	まず確認すること
ページが表示されない	サーバーのステータス、DNSの設定
データが更新されない	APIのレスポンス、キャッシュの状態
特定ユーザーだけエラー	ユーザーデータの異常、権限設定
デプロイ後に壊れた	変更差分の確認、ロールバック検討
外部API絡みのエラー	外部サービスのステータスページを確認

障害対応後の心ケア

重大な障害対応は、精神的に消耗します。

対応が終わったら、まず休みましょう
チームで「お疲れさまでした」を言い合いましょう
何か学べたことがあれば、それは失敗ではなく成長です

🛡️ チームの文化として
障害を「隠す」のではなく「共有する」文化が、結果的にシステムを強くします。
一人で抱え込まないこと。それが最大の障害対応スキルです。

障害発生時のフロー​

ステップ別の行動指針​

Step 1-2：検知・状況把握​

Step 3：チームへの共有​

Step 5：暫定対応​

振り返り（ポストモーテム）​

よくある障害パターンと対処法​

障害対応後の心ケア​