ITとビジネスの専門家によるコラム。経営、業種・業界、さまざまな切り口で、現場に生きる情報をお届けします。
第59回 AWSで大規模障害が発生! あらためて考える、「オンプレミス」か「クラウド」か
自社でサーバーを導入して運用する「オンプレミス」か、インターネット経由でデータセンターを利用する「クラウド」か。AWSの大規模障害から見えてきたシステム運用の課題や、今後の対策についてお伝えします。
AWSで大規模障害が発生! あらためて考える、「オンプレミス」か「クラウド」か
2019年8月23日、米アマゾン・ドット・コムが運営するクラウドサービス「AWS(Amazon Web Service)」の日本のデータセンターで、大規模なシステム障害が発生し、その影響は広範囲に及びました。近年、自社でサーバーを導入して運用する「オンプレミス」から、インターネット経由でデータセンターを利用する「クラウド」にシフトしている企業も少なくありません。
今回は、AWSの大規模障害から見えてきたシステム運用の課題や、今後の対策についてお伝えします。
大規模障害はなぜ「発生」し、どのような「影響」を及ぼしたのか?
今回、障害が発生したのは東京リージョン(注)AWSの報告によれば、直接の原因は東京リージョンのデータセンターで使用されている冷却制御システムにバグがあったこと。これにより、緊急時の手動操作にも冷却制御システムの一部が反応しないことでサーバーが過熱し、障害に至ったと説明されています。
この影響により、国内の複数のサービスが一時利用できない状態が続きました。モバイル決済サービス「PayPay」では、支払いやチャージ、送受金が利用不能に。シェアサイクル「ドコモ・バイクシェア」では、自転車の貸し出しや返却ができない状態になりました。そのほか、AWSでゲームデータなどを配信しているオンラインゲームも影響を受けました。
AWSはクラウドの世界最大手。日本では数十万の契約数があり、多くの企業がネット通販や決済、ゲームなどで利用しています。ネット事業が拡大する中、障害は日常生活に大きな影響を与えました。
- (注)リージョンとはデータセンターが設置されている独立したエリアのこと。
オンプレ? クラウド? それとも……
クラウドは、IT企業がシステム基盤を提供するので、利用企業は自社で投資する必要はありません。そのため、データの処理量に応じてシステム拡張ができ、中堅・中小企業でも導入しやすいという特長があります。また、クラウドで使うデータセンターは免震などの災害対策が充実しており、複数の拠点に分けてシステムを運用すれば、一つの拠点で障害が起きてもサービスを継続できます。一方、今回の障害により、「クラウドのもろさが露呈した」という見方があったのも事実です。複数の企業がサーバーを共同利用するため、サーバーに不具合が発生すると大規模なシステム障害へとつながりやすく、利用する企業は復旧を待つしかない状況となります。
では、オンプレミスではどうなのでしょうか。オンプレミスは社内ネットワークで収まるため、インターネット回線の性能による処理速度への影響がなく、レスポンスが早いことが大きな利点です。さらには、カスタマイズや増強、連携が自由であり、月額は固定費で予算化しやすいのも利点です。反面、災害復旧の対応(ディザスタリカバリー)については、サーバーなどのIT機器を設置する場所を、遠隔地に手配するところから始めなければなりません。クラウドでは、その対策用に「東日本」「西日本」と機器が設置されてある場所が分散されているサービスがあります。
そこで、最適なITインフラを実現するうえで、最近になって注目されているのが「ハイブリッドクラウド」です。ハイブリッドクラウドとは、オンプレミスの自社システムとプライベートクラウド、およびパブリッククラウドを適宜うまく組み合わせて利用していこうとする方法です。導入・利用する企業の環境や要件に合わせて、柔軟な組み合わせが可能である点は大きな魅力となります。
自社の目的や用途を明確にし、導入・運用の形態をご検討ください。