コラム

column

「話し言葉」から「書き言葉」へ

2016年09月07日

テープ起こしから音声認識へ

近年、コンピューターの音声認識技術が発達し、さまざまな場面で役立っています。インタビューや会議などの音声データを文字に起こす場合、以前ならば録音した音を人間が耳で聞いて文字に書き起こすという「テープ起こし」の方法が主流でした。しかし、音声認識システムが発達し、音から文字への自動変換がある程度可能になった現在では、文字起こし作業者の負担は軽減しつつあります。では、コンピューターの音声認識精度がさらに向上して認識率がほぼ100%になった場合、人間が文章に手を加える必要はなくなってしまうのでしょうか?

人間による修正が必要かどうかは、音声を書き起こした後、その文字となったデータをどんな目的で使用するのかによって異なります。この点について、話し言葉と書き言葉の比較を交えて説明しましょう。

 

言いたいことを文章で伝えるのは難しい

誰かに何かを伝えたい場合、一番楽なのは相手と対面して喋る方法です。なぜなら、言葉の使い方や文法に誤りがあったとしても、表情や仕草、声のトーン、その場の雰囲気などで足りない部分をカバーできるからです。「自分はきちんと正しい言葉と文法で喋っているだろうか?」と強く意識せずとも、言いたいことは大体相手に伝わっているでしょう。

一方、文章で伝えたいことを表現する場合は難易度が上がります。文章を書いている人の表情やしぐさや声のトーンなどが、読んでいる人には分からないからです。文字だけですべてが伝わるようさまざまな工夫をしなければならないため、非常に労力を要します。会話ならばそれほど気にならないであろう単語の間違いや文法を無視した適当な表現も、文章の場合はそれが原因で間違った意味に解釈されてしまう恐れもあるでしょう。

 

言葉や文法の使い分け

私たちは普段、無意識のうちに「話し言葉」と「書き言葉」を区別しています。伝えようとする内容がまったく同じであっても、会話をする場合と文章として記述する場合とでは、言葉づかいや文法が変化するケースがほとんどでしょう。そのため、会話のセンスが優れている人が必ずしも上手な文章を書けるということはなく、その逆もまたしかりなのです。

誰かが喋っている内容を話し言葉のまま文章にすると、多くの場合は非常に読みにくく、意図が伝わりにくい仕上がりとなるでしょう。逆に、会話の際に書き言葉のような型にはまった話し方をすれば、相手に不自然な印象を与えてしまいます。

話すことと書くことは全く異なるため、話す場合と書く場合、それぞれに適した表現方法を用いる必要があるのです。

 

「話し言葉(口語)」と「書き言葉(文語)」

日常の会話で用いられている話し言葉は「口語」とも呼ばれています。一方、文章を書く時に用いられている書き言葉は「文語」とも呼ばれています。口語と文語で表現が変わらない語もあれば、大きく異なる語もあります。

話し言葉は、倒置、中断、省略などが発生しやすい傾向があり、文法として不完全なケースが多いです。一方、書き言葉はきちんと文法に沿った表現をしており、語句の乱れもありません。そのため、二つを比較した場合、文章としては書き言葉のほうが美しいと言えます。ただ、書き言葉は文章が整い過ぎて固い表現になりやすいため、会話の際には話し言葉のほうが柔らかく親しみやすい印象を与えるでしょう。

下記は、話し言葉(左)と書き言葉(右)の一例です。

 

・あんまり⇒あまり

・やっぱり⇒やはり

・だから⇒したがって

・じゃない⇒ではない

・ちょっと⇒少し/多少

・いっぱい⇒多く/数多く

・でも⇒けれども/だが/しかし

・とっても/すごく⇒非常に/極めて

・なのに/それなのに⇒それにもかかわらず

 

素起こしと整文

音声を文字に起こす場合、話し言葉(口語)と書き言葉(文語)を意識すべきケースと意識しなくても構わないケースがあります。

文字起こしの仕上げ方にはいくつか種類がありますが、その中に「素起こし」というものがあります。これは聞こえた音の通りに文字を書き起こす方法であり、文法などへの修正をほとんど行いません。つまり話し言葉のままで良いのです。実際に素起こしをやったことがある方ならば分かると思いますが、音声を耳で聞いている時には意味がすんなり理解できるけれど、書き起こした文章をあらためて目で見ると「文が乱れていて読みにくい」と感じるケースが多いです。しかし、カウンセリングや裁判証拠など、話者が喋った言葉を一字一句記録したいという場合ならば、たとえ文章として不完全であっても喋っている通りに書き起こす必要があります。

その一方で、会議の録音データを元に議事録を作成する場合など、ある程度体裁を整えなければならないケースもあります。議事録には、どんなテーマで会議が行われ、誰がどんな発言をし、どういう決定が下されたのか、などを記します。どんな喋り方をしたのかは関係なく、喋った内容が重要ですから、議事録を読む人が理解しやすいように書き言葉で作成する必要があります。そこで、この場合は文章の読みやすさに重点を置いた「整文」という方法で仕上げます。整文の場合、話し言葉の倒置、中断、省略などは修正されるため、美しく読みやすい文章が出来上がります。

 

おわりに

音声認識システムの精度がほぼ完璧と言えるレベルに達しても、話し言葉と書き言葉のギャップがある限り、人間によるチェックと修正が欠かせないでしょう。しかし、システムにさらなる改良が加えられて話し言葉から書き言葉へ自動変換できるようになった場合は、人間が目を通したり手を加えたりする必要がなくなるかもしれません。

未来を見据えてどんどん進化していく音声認識技術に、今後ますます注目が集まるでしょう。