ATOK vs iPhoneの音声認識

私の仕事では、インタビューとか講演会とかの内容をICレコーダーで録音することが多いので、後日、それをテキストに起こす作業がある。


いわゆるテープ起こしってやつね。テープじゃないけど。okoshiyasu2というソフトを使って、キーボードの操作で一時停止や再生をできるようにしてるおかげで、かなり効率的にできるとはいえ、やはり面倒な作業。肩も凝るし!

キータイプは結構速い方だと思うけど、どうしても追い着かない最大の理由は誤変換。Windows付属のMS IMEではなく、お金を払ってATOKを買って使っているし、頻繁に出てくる単語は短縮で入力できるように単語登録したり、いろいろ工夫はしているのだけれど、ときどき、え?って思うようなアッと驚く変換をしてくれることも。

一方のスマホの音声認識機能は最近すごく進化してる。一度聞き取った言葉、とりあえずヘンな変換をしても後に続く言葉を聞いて、ああ、それが言いたかったのねといわんばかりに、前に戻って変換し直してくれたりして、かなりのお利口さん。おそらく変換用の辞書もどんどんブラッシュアップされてるんだろう。

後発の音声認識がこんなに進化してるのに、キー入力のATOKの方はあまり変化が感じられない(バージョンごとに、進化はしているのだけれど)。と思うと、よけいにキーっ!となる。

だったら、録音した音声をそのままiPhoneに認識させてみたらどうだろう?

ちょっと調べてみると、同じことを考えてる人は多いようで、それようのアプリなども出ているようだ。

ちょうど今聞いていた音声が、かなり明瞭に話されているものだったので、これならいけるかも?と、とりあえずiPhoneのデフォルト機能だけでトライ。

まずはPCのスピーカー近くにiPhoneを置いて認識させてみると、惨敗。何も認識されない。録音されている反響音などが邪魔するのかな。

次に試してみたのは、音読法。これは、あの『超整理法』の野口悠紀夫さんが実践してるらしいのだけれど、音声をヘッドフォンで聴きながら、自分でそれを復唱する。その自分の声をiPhoneに認識させるのだ。

結果は。
音声認識機能自体はスバラシイ。自分がちゃんとかまずに正しく発音できている限りは、ほぼ100%正確にテキスト化してくれた。(使ったのはiPhoneのメモアプリで、これをエクスポート機能を使ってEvernoteに書き出してPCに同期)。

ただ。問題は、喉が疲れる。。。。ほんの10分ぐらいやったところで、ギブアップ。話者の人は1時間とかぶっつづけでしゃべってるのって、改めてスゴイな。あと、自分の声に邪魔されて音声が聞き取りにくかったり。ちょっと遅れてついていく形になるので、覚えてられないとか。これ、つまりは外国語習得法で良く出てくるシャドーイングと同じことなので、日本語でもこんなにむずかしいなら、外国語でうまくできないのは仕方無いかとヘンなところで納得したり。

結局、今日のところは、音声認識導入したら、楽々~とまではいかなかったけど、もうちょっとやり方を工夫したら、かなり改善できるのかも、という予感。

また良い方法見つけたら、レポートしまーす。





2017.07.04 | | コメント(0) | トラックバック(0) | デジタルネタ



コメント

コメントの投稿


管理者にだけ表示を許可する

«  | ホーム |  »

カレンダー(月別)

10 ≪│2017/11│≫ 12
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 - -

全ての記事を表示する

全ての記事を表示する

メールフォーム

名前:
メール:
件名:
本文: