そのネットワーク障害対応のお悩み 「自動化」で解決しませんか?

運用

エンジニアの悩みのタネとなるネットワークの障害対応―。

障害対応は業務負荷が高く、一度障害が発生すると、復旧対応に追われ予期せぬ工数がかかります。とはいえ、障害予防のために日頃から大量のログを監視し、細かな傾向分析・障害予測を行うことは困難です。

そこで今、障害対応の負荷を軽減するために「自動化」が注目されています。

このページでは、よくある障害対応のお悩みに自動化がどう役立つのか、活用のヒントを紹介します。

ネットワーク運用課題のイラスト

ネットワーク運用課題チェックシート

●課題1 障害切り分け・原因特定・復旧

□手動切り分けのため問題特定に時間がかかる
□ログ取得頻度が低く、取得情報が少ない
□障害時は全て手作業のためエンジニアの工数負荷が高い

●課題2 エンジニア個人のスキルレベルで、障害対応の精度や速度が異なる

□エンジニアの経験則によって、対応レベルや解決までの時間にバラつきがある
□担当者で解決不可の場合、組織内エスカレーションにより時間と工数が必要になる
□問題が複雑化すると人海戦術に陥りがち

●課題3 障害予兆を知る方法がない

□突発的な障害によってサービス利用者に迷惑をかける
□障害予測アラートを設定するも、エラーログが頻発
□老朽化した機材をリプレースするタイミングが判断できない

手作業の運用と自動化の運用の違い

チェックシートの項目はいくつ当てはまりましたか?次に手作業の運用が「自動化」によってどのように変わるか見てみましょう。

自動化の導入でネットワーク運用に違いが出てくることを説明するイラスト

課題を解決するポイント

ここでは、チェックした課題の解決方法について詳しく解説します。
それぞれチェックした課題が「自動化」でどのように解決できるか、見ていきましょう。

チェック1 障害切り分け・原因特定・復旧についての解説

できる部分から、徐々に自動化を進めていくのが導入のコツです。

❶ 構成要素を可視化
障害により影響を受けた構成要素を、GUI のダッシュボードで可視化。見るべき情報を絞り込み、障害の根本原因の特定を迅速・容易に行えます。

❷ ネットワークをリアルタイム可視化
Telemetry に対応しているため、ネットワーク機器に大きな負荷をかけることなく、短い間隔でより精度の高い情報を取得できます。

❸ 定期データ取得で稼働工数を削減
定期的なデータ取得により、障害時に手動でログを取得する作業が不要に。エンジニア稼働工数を削減できます。

チェック2 障害対応の精度・速度のばらつきについての解説

PlaybookはGithubでも公開されており、サンプルの入手が可能です。

❶ Playbook により障害切り分けプロセスを定義
障害切り分けのプロセスをPlaybook であらかじめ定義し、「どのような時に何をするか」をプログラム処理として平準化。

❷軽度の障害は自動で対応
軽度の障害なら切り分け、復旧、正常性確認までを自動対応が可能。エンジニアの稼働工数を削減します。

❸エンジニアを障害対応業務から解放
エンジニアの業務を直接の障害対応から解放し、Playbook 作成・調整に注力。自動化の対象範囲がますます拡大できます。

チェック3 障害予兆を知る方法がないことへの解説

ログに基づく障害予測の判断をAIに任せてしまいましょう。

❶機器の劣化を察知し予防タイミングを把握

トランシーバーの光レベル劣化状況や、インターフェースのキュードロップの傾向を自動的に収集・分析。障害が発生する前に予防交換すべきタイミングを把握できます。

❷本当に必要なアラートのみ通知

一定期間のログをもとに、動的にしきい値を設定。正常値・異常値の範囲を自動的に定義し、不必要なアラート発信を防止。本当に対処すべきアラートに絞り込むことで、障害予測の精度を向上。

❸設備投資の予測に有効活用

機器更改のタイミングを事前に認識することで、将来的な設備投資の予測にも寄与。

ネットワーク障害対応の自動化成功のポイント

自動化は「一度作成したら終わり」というものではありません。また、一度に全体を作成することも容易ではありません。改善のサイクルを繰り返しながら、少しずつ自動化の範囲を広げていくことが自動化成功のための重要なポイントになります。

少しずつ範囲を増やすのがポイントのイラスト

ネットワーク障害対応への自動化の導入について資料にて詳しくご紹介しております。

関連記事