Cloudflareで大規模障害発生、広範なサービスに影響が出る

Cloudflareの画像

日本時間11月18日午後8時ごろより、「Cloudflare」において大規模な障害が発生し、多くのWebサービスが利用しづらい、あるいは接続が出来ないという状態となった。それから4時間後の日本時間19日0時前後で回復の兆しが見えており、同日午前2時前後に障害が解決し、復旧が完了したとのPostがCTOのデーン・クネヒト氏より出されている。

 Cloudflareとは、CDN(Content Delivery Network)や各種セキュリティ機能を提供しているサービスだ。CDNという言葉を聞き慣れないユーザー向けの話となるが、同サービスはWebサイト上のコンテンツを多数のキャッシュサーバーに一時保存し、最適な経路でユーザーに対して配信するネットワーク技術を指している。クラウドが活用される前まではWebサイトは単一の存在であり、従ってそこにユーザーが集中的にアクセスを行えばサーバーがダウンするリスクが存在したり、コンテンツの読み込みが遅延するというトラブルが起きていた。これを解決する存在がCDNという技術であり、Webサイトやアクセス先の多数の「コピー」をクラウド上に展開。元となるWebサイト側の負荷を軽減すると共に、ユーザー向けにはページの読み込みや画像や動画といったコンテンツの表示を高速化する事が可能となったのだ。やや強引な論ではあるが、様々なチェーン店における本店と同規模の支店の関係に近いものである。

 今回起きた障害に対してデーン氏は「すべてが完全に機能していることを確認し続けています。改めて、本日発生した障害の詳細と、今後このような事態が発生しないようにするための計画について、数時間以内に詳細をお伝えする予定です。」と発表しており、Cloudflare側からはこのページで詳細な報告がなされている。それによると、Cloudflare側のBot管理システムに使用される特殊なファイルの容量がバグにより2倍程に増大、かつセキュリティ側はそのファイルを通過させる容量が元サイズの2倍未満と規定されていた為に一斉にネットワークが止まったものとの事である。いわゆるDDoS攻撃やクラッキングなどではなく、システム上のバグの為外部からの攻撃や情報の漏洩などは発生していないという。

今回のトラブルの影響範囲

 先に挙げたCDNについて、あまりその影響をイメージ出来ないユーザーはいるだろう。日本においては午後8時から午前0時という夜間帯に発生したトラブルであるため、あまり影響が可視化されなかった事も今回の被害がそこまで大事とならなかった一因と言える。

 今回発生した障害で主に影響を受けたのは大手SNSの「X(旧名称:Twitter)」やOpenAIの提供する対話型AIの「ChatGPT」、音楽配信サービスの「Spotify」やコミュニケーションサービスソフトウェアの「Discord」が挙げられる。更にゲーム配信サービスの「Steam」や対戦などの通信に対しサーバーを利用している「League of Legend」や「Among Us」、「Mecha Break」といったタイトルにおいては対戦が中断されたり接続が切断されてしまったといった報告も寄せられた。

 そしてクリエイターにとってはこの時間は最も頭の痛い時間となっただろう。クリエイション向け総合ソフトウェアとして提供されるAdobeの「Illustrator」「InDesign」「Premiere Pro」など複数のアドビ製品で、MacOS版に限りアプリが起動不能となるトラブルが発生したのである。一部のユーザーからは認証サービスがトラブルを起こしているとの情報もあり、これまでCS6などに搭載されていたローカル環境での認証ではなくCC以降の完全オンライン認証に切り替わった結果、オンラインにおける回線不調がソフトの起動自体を阻む事になってしまったと見られている。

オンライン対応ゲームのあり方

 以前Amazon Web Serviceのトラブルが広範なネットワーク障害を引き起こしたのは記憶に新しいだろうが、今回もその障害に対する規模は大きい。Xに関してはシステムから一時的にCloudflareを除外した事で暫定的にサービスを再開する事が可能となったが、それでもそういった「機転の効く」対応が出来るのはイレギュラーなケースであり、結局の所このトラブルが解消するまではほとんどすべてのサービスが扱えないという状況であった。オンライン対応のゲームは非常に多く、前回のAWSの障害でも見受けられたがオンライン要素を盛り込んだ結果としてゲームそのものが遊べなくなる、というのは何とも痛し痒しである。こういう時にも問題なく遊べるオフライン専用モードが欲しい所ではあるが、いかんせん最近のタイトルは認証から通信環境があることを前提とした設計となっている物が多い。

 今回のエラー自体は早々に解決したものの、今後また同様のエラーが起きないとは限らない。陳腐な解決法だが、そういう状況でも変わらず遊べる一本を用意しておくのも良いかもしれない。とはいえ、こういった事態を早期に解決しなければならない現場のエンジニアには頭の下がる思いである。

1995年名古屋生まれ。Eスポーツニュースエディター。Eスポーツ専門雑誌の記者として5年勤務後、独立。国内外のEスポーツ業界の最新ニュースや特集記事をお届け。