音響指紋技術

読み方 : おんきょうしもんぎじゅつ

音響指紋技術とは

音声データや楽曲データの特徴を分析する技術。指紋のように音声ごとに異なる特徴を抽出し、比較することで、大量の音声/楽曲ファイルから同じものを検出したり、似た雰囲気の楽曲を探し出したりできる。

米アマゾン・ドット・コムは音響指紋技術を応用し、スマートスピーカーが、テレビやラジオから流れる音声コマンドに反応しないようにした。米国では2017年、大手ハンバーガーチェーンがコマンド音声を使い、商品の詳細を視聴者のスマートスピーカーに話させるコマーシャルが話題となった。一方でスマートスピーカーは自宅の鍵の開閉や冷暖房などのコントローラーとして利用したり、通販サービスで商品を注文したりする使い方もできる。そのためテレビの音声コマンドで勝手に動作することを懸念する声が出ていた。

今回アマゾンが対応した仕組みはシンプルだ。(1)スマートスピーカーが放送で流れたコマンドを受け取ると、放送地域の複数端末からほぼ同じタイミングで同じ音声コマンドがクラウド上に集まる(2)このときクラウド上で複数の端末からの音声ファイルを音響指紋技術で比較する(3)一致するコマンドが多い場合に放送によるコマンドとして判定し、スマートスピーカーが反応しないよう処理する。音響指紋の比較が終わる前にコマンドに反応した一部の端末ではそのままコマンドが実行される欠点があるが、およそ80~90%の端末で放送経由のコマンドを無効にできるという。

出典:日経クロステック「キーワード」、日経コンピュータ「情報システムハンドブック」(C)日経BP社

[2018年 4月23日 公開]

大塚商会の法人向け通販サイト(たのめーる)のご紹介