アラートメールフィルタ(AMF)では、障害一次対応の自動化ができますが、それだけでなく、障害対応の事後作業が必要な場合にリマインドを通知させることもできます。
例えば、障害対応のためのコマンドを実行したり、負荷を下げるために一時的にプロセスを停止したりするなどの対応をすることがあると思います。
数分で対応が完了する場合は目視で進捗を確認できますが、時には数時間後の確認が必要になるケースが出てきますが、ずっと張り付いてばかりもいられません。かといって、他のことをしていると進捗確認を失念する可能性も出てきます。
今回はそんなときに役立つ使い方のご紹介をさせていただきます。
まず、AMFの障害一次対応の仕組みを簡単にご説明すると、AMFはアラートメールを受信するとインシデントとして起票し、インシデントの件名や本文などにマッチしたフィルタに紐づくアクションを行うことで、自動で障害一次対応を行います。
アクションはNo.1から2、3と順番に自動処理を行います。
「インターバル機能」を活用したアクショングループ設定例
この例では、No.3に待ち時間を「1時間」で設定していますので、AMFは対象となるアラートを検知した後に担当者にメール通知と電話エスカレーションをしてから、1時間後に再度担当者にメール通知と電話エスカレーションを行います。
つまり、担当者が最初のエスカレーションを受けて対応を行った後に、進捗確認をするために1時間後にリマインドを通知する運用を想定した作りになっています。
No.4のメール通知の本文やNo.5の電話発信のメッセージにリマインドの通知であることを設定することで、エスカレーションを受けた担当者が後続対応のエスカレーションであることがすぐに分かります。
さらに、インターバル機能にはインシデントのステータスによって後続のアクションを行うかどうかを設定することができるので、障害対応が想定より早く終わりインシデントを”完了”で更新した場合は、リマインドの通知を行わないようにできます。
余計なエスカレーションを受けることを防ぐことができるので、とっても便利です。
その他の活用法
このインターバルの機能ですが1番目に持ってくることでアラート発生から数時間後に状況を確認するという使い方もできます。
例えば、RAIDコントローラーの一時的な放電のように発生から段階を経て一連の通知が数件通知される場合に、最初の発生から24時間後にエスカレーションして発生から通常に戻るまでの一連の通知を確認するという使い方もできます。
組合せや設定次第で色々な使い方ができるアクションです。
ぜひご利用ください。