こんにちは。M&Aクラウドのつばき(@cacaca_came)です。
以前、弊社のブログで以下の記事を出しました。 tech.macloud.jp
前回の記事では、システム障害の再発防止策を検討する際のロジカルシンキングや弊社の障害再発防止を考えるテンプレートであるロジカルツリーを用いることで、どのように効果的な対策を立てられるかを紹介しました。
今回は、ロジカルツリーを取り入れた再発防止策の検討がどのように機能しているのかを検証し、実際の運用状況をお伝えします。
ロジカルツリー導入の効果
導入前の課題
弊社では週に一度、システム障害の再発防止策を検討する定例会を開催しています。ロジカルツリー導入以前は、以下のような流れで議論を進めていました。
- 障害報告書をもとに、障害の原因を分析して報告書に追記
- 「なぜ障害が起きたのか」「どうすれば同様の事象の発生を防げるのか」を議論
しかし、この方法にはいくつかの課題がありました。
- 議論が感覚的になりやすい:報告書というドキュメントベースの議論のためか、一部の情報にフォーカスしがちで経験や直感に頼った議論になりがちでした。
- 議論が長引く:明確なフレームワークがなかったため、方向性が定まらず議論がまとまりにくいことがありました。
- 対策の有効性が低い:根本的な原因にアプローチできていない対策が採用されることがありました。
ロジカルツリー導入後の変化
ロジカルツリーを導入したことで、以下の3つの変化がありました。
- 事実を整理しやすくなった
- 障害の要因や事実を「空(現象)」「雨(解釈)」「傘(対策)」というフレームワークで整理できるようになりました。また、視覚的にまとめることができるようになり情報の視認性が高まりました。
- 複数の解釈を組み合わせて議論できるようになった
- 異なる事実や解釈を統合し、より精度の高い再発防止策を立案できるようになりました。
- 意思決定がスムーズになった
- 重要なポイントが可視化されるため、判断基準が明確になりました。再発防止策の承認者に対しての説明もし易くなりました。
実際に議論したロジカルツリーの中から社外に出せるものがなかなか見当たらなかったので、使われ方のイメージを載せておきます。
具体的な活用事例
ロジカルツリーを活用することで、以下のような場面で効果を発揮しました。
- 類似障害の横展開:過去の障害事例をもとに、異なるシステムに対しても適用可能な再発防止策を検討。
- 未然防止策の強化:障害発生前に潜在的なリスクを洗い出し、予防的な対策を講じることが可能に。
- チーム全体での共通認識の向上:議論の進め方が統一され、メンバー間の理解が深まった。
チームメンバーの反応
ロジカルツリーの導入に対して、チームメンバーからは以下のようなポジティブな声が上がっています。
- 「議論の軸が明確になったことで、検討がスムーズになった」
- 「今まで曖昧だった原因分析が体系的に整理できるようになった」
- 「以前よりも建設的な議論が増え、納得感のある対策が決まりやすくなった」
今後の課題と改善点
ロジカルツリーを活用する中で、いくつかの課題も見えてきました。
再発防止策が思いつかないケースがある
- どれだけ障害の原因を分析しても実施するに値する再発防止策が思いつかないケースがあります。そのような場合にどうすべきかの答えがチームとして固められていない状態です。
運用が特定のメンバーに依存しがち
- こちらはロジカルツリーの課題というよりはチームの課題になります。現在は再発防止策を検討するメンバーが固定されています。そのメンバーで長らく再発防止策の検討を行っていたためロジカルツリーをうまく運用できている可能性があります。今後はチーム内でのノウハウ共有を強化し、新しいメンバーや再発防止策の検討に不慣れなメンバーでもスムーズに参加できる仕組みが必要そうです。
障害報告書との統合
- 現在は報告書とロジカルツリーが別々に管理されています。ロジカルツリーの運用がうまく行っていることから報告書のフォーマットにロジカルツリーの要素を組み込み、一元化することで効率よく管理できるようにしたいです。また、ロジカルツリー自体がMiro上に独立していることとドキュメントは障害報告書しか存在していないためポストモーテムとしてまとめられるようになると良いかもしれません。
さらなる改善の余地
- 弊社の開発チームでは開発においてAIの活用を行っています。しかしロジカルツリーにおける再発防止策検討にはAIを活用できていません。1年間の運用実績を踏まえ、次のステップとしてAIを活用した再発防止策の検討を検討しています。
まとめ
ロジカルツリーの導入により、障害再発防止策の検討がより体系的かつ効果的になりました。導入前の課題であった感覚的な議論や議論の長期化が改善され、より実践的な対策が生まれています。
今後は、運用の定着とさらなる改善に向けて、メンバーの流動性や障害報告書との統合、AIの活用などを進めていきたいと考えています。