グーグル音声入力(Google Voice Typing)で、音声書き起こし(transcription)を試してみた。
通常、これまでの「音声からテキストへの変換」アプリは、音声認識するためのスピーチする前に「マイク/開始」ボタンをクリック(タップ)し、一文または一語/数語を話し終わったら再度「マイク/終了」ボタンをクリックすると、文章がテキストに変換されました。
ところが、いつからか知らないけど、最新のGoogle Voice Typingでは、文章の終わりを勝手に認識してくれて、「マイク/終了」ボタンをクリックする必要無く、音声をテキストに変換してくれます。
ということは、「長い文章や複数のセンテンスでも、自動的に音声をテキストに変えてくれるのかな?」と思って、検証してみることにしました。
検証は、新Nexus 7(2013)、アンドロイド4.4 タブレット端末で行いましたが、4.xだと同じように出来るようです。しかし、どこまで古いバージョンまでこのGoogle Voice Typingでの「音声書き起こし(transcription)」が可能なのかまでは、調べていません。
まず、入力には、Google Keyboardを使用します。
使用した録画(録音)素材は、筆者が仕事で引き受けた、ある会社の社内教育用ビデオで、社長が社内業績と業界の状況について英語で語っている、約30分のビデオ教材です。
筆者は、これを日本語に音声ダビングする作業を依頼されたのですが、
● 英語ビデオ ⇒ 英語音声の音声書き起こし(transcription) ⇒ 会話の日本語訳 ⇒ 日本語音声ダビング ⇒ 二言語音声を同期させるための録音編集
の過程で、最初に英語の「音声⇒テキスト変換」を行う必要があったので、ついでに試してみたものです。
もちろん、「音声⇒テキスト変換」の言語は、英語・日本語も含め、多数の言語が選択できます。(デフォルト設定は「自動」ですが、実際に行うときには、どれかの言語にフィックスしたほうが正確さが増すのかもしれません。)
ステップ1:
何でも良いので、自分の良く使っているテキスト・エディター・アプリを起動します。
筆者は、「AK Notepad」と「920 Text Editor」で検証してみました。
テキスト画面をタップして、Goodle (default) Keyboardを画面に出します。
キーボードのマイク・アイコンをタップします。
ステップ2:
マイク(Google Voice Type)が表示されていることを確認し、この端末のマイクに向かって音声を連続的に流すか、端末のマイク/イヤホン・ジャックに、PCやその他の録音媒体のイヤホンジャックからミニ・ジャック・ケーブルで繋ぎ、録音した音を流します。
ステップ3:
音声が自動的に、録音にあわせて、テキストに変換されます。途中で一切、マイク・アイコンをタップする必要はありません! これは、良い!
ただし、
(1)カンマやピリオド(punctuation)は表示されません。
(2)また、「ワード(言葉)」をスペルに変換するのに、インターネットでGoogleサーバーに接続し、スペルチェックを常時しているため、スピーチの速度が速すぎると、途中のワードがミスったりもします。
(3)そして、端末のバッファー・メモリーのせいでしょうか、3-5分くらいでテキスト変換が完全に止まってしまいました。
(4)バックグラウンドに音楽や高音のノイズが入っていると、「音声⇒テキスト変換」がまったく出来ません。
「音声⇒テキスト変換」が止まったら、そのファイルはそこで閉じ、新しいテキストファイルを開き、止まったところから「音声書き起こし(transcription)」を継続します。
時には新しいテキストファイルを開いても、「音声⇒テキスト変換」がまったく始まらないことがありました。
最初は理由がわからなかったのですが、その場合には、端末を電源オフ/オン(再起動)すると、また「音声⇒テキスト変換」が可能になるようでした。このため、「音声⇒テキスト変換」が止まるのは、バッファー・メモリーのせいかと思っています。・・・が、間違っているかもしれません。
長い音声ファイルを、制限無く「音声⇒テキスト変換」出来る方法を知っている人がいたら、教えてください。
ステップ4:
作成したテキストファイルは、アプリにもよりますが、PCへEメールで送るとか、クラウドを介して保存するとか、して、PCへ送り、PC側で編集やマージをします。
完璧な「音声書き起こし(transcription)」ではありませんが、やりようによってはかなり「音声書き起こし(transcription)」のプレ作業として、役に立つと思います。
また、「設定(Settings)⇒言語と入力(Language & input)⇒ Google音声入力(Google voice typing)」でいくつかの設定変更可能項目があります。
たとえば、
● 音声入力言語の変更(デフォルトは、「自動(Automatic)」)
● 不適切な語句をブロック(Block offensive word)(デフォルトは、オン)
● オフラインの音声認識(Offline Speech Recognition)のための追加言語用辞書のダウンロード
まだまだ多くの実験を行って、色々なケースを試して見ないといけませんが、音声ファイルの翻訳のプレ作業や、同時・逐次通訳にも、このGoogle Voice Typingの機能が役に立つかもしれません。また、バージョンアップしたら、精度も機能も増すでしょう。
Google Voice Typing(グーグル音声入力)を「音声書き起こし(transcription)」作業に使っている人がいたら、意見を交換しましょう。
設定 日本語メニュー:
設定 英語メニュー: