インサイトとリサーチ

Comcastの月曜病:ISPの機能停止中、私たちが生産性を維持した方法

機能停止地域を示した地図

「Comcastを使っているならスマートフォンのホットスポットに切り替えてください」とSlackのメッセージが告げてきました。11月8日月曜日、午後9:45でした。

最初は幼稚ないたずらのように思えましたが、それは信頼できる情報源、私たちのITチームからのものでした。私たちは、火曜日の朝に予定されていた 「No Interruptions」製品発表イベントの詳細を最後に微調整する重要なZoom会議をしていました。 

「北カリフォルニアのComcastユーザに連鎖的な機能停止が発生しており、まもなく影響が出る可能性があります」とメッセージがさらに警告してきました。

仕事が中断すること、そのせいで仕事を完了させるための調整をすることが、不必要な頭痛の種になるところでした。私たちは、このアラートを受けて、ホットスポットへの切り替えを行い、北カリフォルニアで機能停止が発生している間も、楽しく会議を順調に進めることができました。 

予定外の数時間に及ぶISPの機能停止は最近では珍しいことですが、もし発生すると、私たちの多くが在宅勤務をしている時は特に生産性への影響が大きくなります。 

今回のComcastの機能停止は、不測の事態に備えて計画を立てることを思い出させてくれました。しかし、ランダムに生じる機能停止にはどのように備えるべきでしょうか。  

デジタルエクスペリエンスモニタリング(DEM)の世界では、予測に基づく事前モニタリングは、予期せぬ機能停止や混乱に先手を打つための最良のアプローチです。しかし、トラブルの兆候を継続的に探すという約束は、 実際に見てみないと信じられることではありませんでした。 

Comcastの機能停止は、まさに翌日モニタリングソリューションの アップグレードの発表に向けて最終調整を行っていたチームにとって不思議なチャンスでした。ITチームはこれをどのように行ったのでしょうか?クラウドネイティブなプロアクティブモニタリングの活用により、機能停止時の生産性をどのように維持したのか見てみましょう。

Zscalerでは、社内でZscaler Digital Experience(ZDX)を使用し、従業員が使用するアプリのパフォーマンスを追跡して診断しています。11月8日の夜、パフォーマンスが著しく低下し始め、従業員が使用する複数の重要なアプリケーションに影響が出ました。ZDXは、全国各地で問題が発生しているものの、サンフランシスコ・ベイエリアで顕著なクラスターが見られることを示しました。当社の従業員が集結していることもあり、私たちは調査することにしました。これらの重要なアプリケーションのZDXスコアは、通常はグリーンですが、このときは急激に「OK/不良」カテゴリーに低下し、ページロード時間も急増しました。図1を参照。

図1:ZDXスコアとページ読み込み時間は、午後9時(太平洋標準時)(東部標準時では午前12時)頃に大きく低下

ZDXは、Zscalerの従業員一人ひとりの体験をモニタリングし、彼らを「目」や「耳」として利用しアプリケーションの劣化をモニタリングします。このケースでは、ベイエリア全体のComcastの利用率が高い地域から、変則的挙動が見られました。図2と図3から、機能停止前と停止中のZscaler従業員の体験がわかります。 

図2:ベイエリアのZscalerの従業員は、通常の状況下で良好なパフォーマンスを発揮している
 

図3:2021年11月8日の夜、Comcastの機能停止による負担が生じているベイエリアのZscalerの従業員

集中した地域において相当数の従業員が問題を抱えていることを確認した後、次のステップは問題の原因を特定することでした。ZDXは、当社のクラウドセキュリティソリューションであるZscaler Internet Access(ZIA)を動かす同じエージェントを使用しているため、宝の山にアクセスして従業員全体からほぼリアルタイムのデータを分析することができました。ZDXは、アプリケーション、ネットワーク、ユーザのエンドポイントという3つの異なる視点から測定します。迅速な分析により、アプリケーションとユーザのエンドポイントが除外され、ネットワークの問題をさらに診断する必要がありました。

ユーザのエンドポイントとアプリケーション間のホップごとの遅延とパケットロスを測定するZDX CloudPathのデータを調べることで、ISPの問題はすぐに特定されました。CloudPathにより、Wi-Fiの問題、Zscalerのクラウドの問題、インターネットのバックボーンの問題などを除外することができました。さらに、影響を受けたユーザはすべてComcastの顧客であり、劣化はすべてユーザのゲートウェイとComcastの間で発生したことがわかりました。 

図4から、CloudPathがユーザのゲートウェイとComcastの間のホップに障害があると示していることがわかります。そこに過度な遅延と損失が表示されています(まったく接続がない場合もありました)。また、これはWi-Fiは健全(最小遅延)であることを示し、ComcastからZscalerクラウドへのダウンストリーム接続ができないことを強調しています。


 

図4:この従業員はComcastへの接続を確立できましたが、過度な遅延と損失がありました。

私たちはインターネットを当たり前のように利用していますが、それは、特にほとんどのISPが高速ブロードバンド接続を家庭に届けるために高い回復力のあるネットワークを構築しているためです。しかし、他の複雑なシステムと同様、一度障害が発生するとインターネットのパフォーマンスは予測不可能となり悪化します。プロアクティブなモニタリングと、すべてのユーザからのモニタリングによるネットワーク効果を組み合わせることで、コントロールや予測可能性の基準が提供されます。 

Zscaler Digital Experienceについてご覧いただき、分散した従業員の生産性をどのように維持できるのかをご確認ください。

最新のデジタルトランスフォーメーションのヒントやニュースをご覧ください。