コラム
column
音声認識の導入で進む働き方改革
2018年11月14日(水)から16日(金)までの3日間、幕張メッセで開催された「Inter BEE 2018」(国際放送機器展)には、最新の映像・放送・通信・音響・照明・メディアビジネスのイノベーションが集まりました。
出展者数は過去最多の1,152社・団体(うち海外34カ国・地域から646社/団体)、3日間の来場者数は4万名強で、過去最高の盛況ぶりでした。
4K・8Kや5Gといった近未来の技術も多数展示されており、NHKは、8K映像と22.2chサラウンド音響を体感できる8Kリビングシアターを展示。ドコモが用意した5Gを体験できるデモバスには長蛇の列ができ、IPライブ伝送、AIなどの新技術への関心の高さうかがえました。
目次
技術の高度化で音声認識の精度が格段にアップ
会議の議事録や日報や電子カルテの入力、コールセンターの応答記録などの作成に導入等に幅広く導入されている音声認識エンジン「AmiVoice」。発話された声をテキストに変換して文書化する技術が高度化し、認識率も飛躍的に向上。事前に話し方のクセを学習させる必要がなく、強力なノイズ排除技術も搭載しているため、誰の声でも簡単に音声認識を行うことができるようになったのだそうです。
「Inter BEE 2018」には、主に報道機関向けの音声テキスト化ソリューションを提案するため、「AmiVoice」を開発したアドバンスト・メディアも出展。記者会見やインタビューの音声を音声認識機能で自動的にテキスト化し、タイムコードや、気になる箇所をマークできるマーク機能なども実装したソリューションを展示していました。
担当者によれば、過去のニュース原稿やスポーツ用語の単語を辞書登録することで、より専門に特化した音声認識エンジンを作成することが可能になるとのことでした。
100台1年間の実証実験を終え、本格導入するテレビ現場
TBSテレビのブースで行われていたトークセッション「音声認識で働き方改革 できる子『もじこ』が変える未来」では、動画素材のキャプション作成や記者会見のリアルタイム音声のテキスト化、録音データからの議事録作成に利用できる文字起こし専用エディタ「もじこ」のエンジンとして、「AmiVoice」が紹介されていました。
なんでもTBSテレビでは、1本の番組を制作過程で、取材、収録、放送のそれぞれで文字起こしを行っており、これまで膨大な時間が「起こし」だけに割かれていたのだそうです。
しかし、近年の働き方改革の流れもあって、労働時間の大幅削減のために音声認識の導入を決定。社内に100台を用意し、1年間の実証実験を行ったといいます。さまざまな音声認識エンジンを試してみたところ、どれも一長一短があるものの、他社エンジンで起こした原稿と「AmiVoice」で起こした原稿を比較して「AmiVoice」の正確さを紹介していました。
「もじこ」の外部へのサービス開始は2019年を予定しているとのことです。
スポーツ中継のリアルタイム字幕制作に「AmiVoice」は最適
株式会社フジミックのブースで紹介されていた、WOWOWで放送されるスポーツ番組のリアルタイム字幕の制作にも、「AmiVoice」が使われていました。フジミックの担当者によれば、「AmiVoice」は特にスポーツ用語の認識率に安定感があるとのこと。WOWOWではテニスやサッカーのゲーム中継で利用されているのだそうです。
スポーツ中継の生放送時に、瞬時に字幕をつける環境を整えるため、フジミックでは、音声認識・リスピーク方式を採用。実況中継を聞きながら発話するリスピーカー、リスピーカーの声を認識したテキストの修正者、最終的に確認し画面へ送出するディレクターの3人で、スポーツ中継の字幕制作を行っています。
字幕制作のデモンストレーションでは、通常の会話とは少し違う、訓練された発話方法でリスピーカーが話すことにより、より精度の高い音声認識効果を発揮し、リスピーカーの話したとおりの正確なテキストが、デモ画面に映し出されました。
さまざまな現場で導入され、業務の効率化に寄与する音声認識
ほかにも、「AmiVoice」を導入したソリューションの展示がいくつもありました。日本経済新聞社・テレビ東京・ソニーの3社で共同開発している次世代・動画解析ツールでは、日本経済新聞の記事データやテレビ東京の番組コンテンツを学習させ、認識の精度を上げているのだと説明を受けました。担当者は、「AmiVoiceを通したテキストは、日本語としても優れている」と話してくれました。
エル・エス・アイ ジャパン株式会社が大きく展開していたリアルタイム字幕制作システムは、NHK、日本テレビ、テレビ朝日、名古屋テレビ、北海道放送など、全国の放送局でも導入されているのだとか。
パナソニックが提案する番組制作トータルソリューション「MAM(メディアアセットマネージメント)システム」でも、音声認識エンジンに「AmiVoice」が使われているということでした。
おわりに
アドバンスト・メディアは、音声認識エンジンに特化して、ソリューションを提供しています。しかし、その利用法は千差万別で、業務効率改善、また働き方改革の一助として、さまざまな現場で「AmiVoice」が利用されていることが分かりました。
とくに、最新の映像・放送・通信・音響・照明等のソリューションが集まる「Inter BEE 2018」で、いくつもの企業が導入を公表し、その安定性と正確性をアピールしている様子を目の当たりにし、音声認識が業務に欠かせない技術となりつつあることを実感しました。