メインコンテンツまでスキップ

障害対応ガイド 〜パニックにならないために〜

何かが壊れたとき、人間は案外冷静でいられます。事前に「こうなったらこうする」を知っているだけで、ずいぶん違います。このドキュメントは、そのための「転ばぬ先の杖」です。

⚠️ 大前提
障害対応中に最もやってはいけないことは、**「焦って原因不明のまま手を動かし続けること」**です。まず状況を把握してから動きましょう。


障害発生時のフロー

1. 検知(気づく)

2. 状況把握(何が・どこで・どの程度)

3. チームへの共有(一人で抱えない)

4. 影響範囲の特定(どのユーザーが・何ができない)

5. 暫定対応(まずサービスを止血する)

6. 恒久対応(根本原因を修正する)

7. 振り返り(再発を防ぐ)

ステップ別の行動指針

Step 1-2:検知・状況把握

まず「何が起きているか」を把握します。慌てて触る前に、ログを見ましょう。

確認すべき項目:

  • エラーログに何が出ているか
  • いつから発生しているか
  • デプロイや変更のタイミングと一致しているか
  • 特定のユーザー・ブラウザ・地域だけか、全体的か

Step 3:チームへの共有

発生を把握したら、すぐにSlackの障害対応チャンネルへ報告します。

第一報の例:

【障害発生】
- 発生時刻:XX:XX頃
- 症状:ログイン画面が500エラーで返ってくる
- 影響範囲:全ユーザー(推定)
- 現在の対応:ログ確認中

「完全に理解してから報告しよう」は禁物です。不完全な情報でも共有することで、助けてくれる人が現れます。

Step 5:暫定対応

原因が分からなくても、できることはあります。

状況暫定対応候補
直前のデプロイ後から発生ロールバックを検討
特定の処理に負荷が集中該当機能を一時的に無効化
外部サービス障害依存機能の切り離し・メンテページ表示

振り返り(ポストモーテム)

障害が解決したあと、必ず振り返りをします。
目的は「犯人探し」ではなく「同じことを繰り返さないこと」です。

振り返りに書くこと:

  • タイムライン(何時に何が起きたか)
  • 原因(技術的な根本原因)
  • 対応内容
  • 良かった対応
  • 改善できること
  • 次のアクション(誰が・何を・いつまでに)

よくある障害パターンと対処法

パターンまず確認すること
ページが表示されないサーバーのステータス、DNSの設定
データが更新されないAPIのレスポンス、キャッシュの状態
特定ユーザーだけエラーユーザーデータの異常、権限設定
デプロイ後に壊れた変更差分の確認、ロールバック検討
外部API絡みのエラー外部サービスのステータスページを確認

障害対応後の心ケア

重大な障害対応は、精神的に消耗します。

  • 対応が終わったら、まず休みましょう
  • チームで「お疲れさまでした」を言い合いましょう
  • 何か学べたことがあれば、それは失敗ではなく成長です

🛡️ チームの文化として
障害を「隠す」のではなく「共有する」文化が、結果的にシステムを強くします。
一人で抱え込まないこと。それが最大の障害対応スキルです。