データレイク

読み方 : でーたれいく

データレイクとは

米ゼネラル・エレクトリック(GE)などが提唱するビッグデータ処理のアーキテクチャー。非構造化データの管理・分析に適し、IoT(モノのインターネット)のニーズが高まる製造業で特に注目を集める。

航空機エンジンや発電設備、MRI(磁気共鳴画像装置)などからネットワーク経由で稼働データを収集し、運用や保守に生かす「インダストリアル・インターネット」を提唱するGE。同社は2014年8月、自らが出資する米Pivotalと共同で、インダストリアル・インターネットに適したデータ処理の新しいアーキテクチャー「データレイク」を打ち出した。既にGEは、テラバイト(TB)規模に達する航空機の飛行データの管理や分析にデータレイクを採用している。

特徴:非構造データをOSSで管理

データレイクはセンサーのログやGPS(全地球測位システム)、ソーシャルメディア、画像・映像、音声といった非構造化データを管理するのに適したアーキテクチャーだ。具体的には、あらゆるデータをネットワーク経由で収集し、オープンソースソフト(OSS)の分散処理基盤である「Hadoop(ハドゥープ)」に蓄積する。

非定型分析はデータサイエンティストなどの専門家がHadoop上で実行する一方で、定型分析については一般の利用者が使いやすいデータウエアハウス(DWH)を別途用意する。使用頻度の高いデータはDWHのメモリー上に展開し、データの「アクセシビリティー(使いやすさ)」を確保しているのだ。

従来のDWHは分析の目的をはっきりさせたうえで、収集するデータを必要なものだけに絞り込んでいた。あらゆるデータをアクセシビリティーが確保された状態で保存しようとすると、コストがかかり過ぎるためである。

だが、後から「こんな分析がしたい」と多様なニーズが出てきても、データがない場合があった。データレイクはあらゆるデータを最初から収集しておくため、専門家らの分析ニーズに対応できる。

Pivotalジャパンの仲田聰技術統括部テクニカルディレクターは「データレイクには様々なデータがそろっている。何か分析しようと思い立ったとき、すぐに実行できることが特徴だ」と話す。

事例:LCCが燃料費を1%削減

GEの航空機部門は2013年に、航空会社25社から収集した1万5000回分の飛行データをデータレイクで管理・分析した。GEによれば、LCC(格安航空会社)であるマレーシアのエアアジアは飛行データの分析結果を活用し、年間燃料コストを1%削減した。GEは2015年までに1500TB(1000万回分の飛行データに相当)をデータレイクで管理し、航空会社に対するサービス提供に生かす考えだ。

ある欧州の通信事業者もデータレイクで携帯情報端末のGPSデータなどを管理・分析し、顧客サービスの向上に活用している。例えば、利用者の位置情報をリアルタイムで特定し、顧客にクーポンを発行している。製造業を中心にIoTに対するニーズが飛躍的に高まっている日本でも、データレイクを採用する企業が増えそうだ。

出典:ITpro「今日のキーワード」(C)日経BP社

[2015年 8月 7日 公開]

お役立ち情報満載!「資料ダウンロードまとめサイト」のご案内