YouTube自動生成字幕の精度 - ドラマの中の英語

YouTube自動生成字幕の精度2 - ドラマの中の英語

以前から当Blogでは、YouTubeが自動的に生成する字幕こと”自動字幕起こし”(以前使っていた”自動生成字幕”でなく、YouTubeの公式名称に倣います) の精度に並々ならぬ関心を寄せていたのは、上記リンク先を見れば分かるかと思います。本当にスゴイんです。数年前までは精度がひどくて使えたもんではなかったのですが、いつの間にか英語を第二言語として学習してる人なんか超えてしまって、ネイティブにかなり接近しつつあるようです。多分これは、YouTubeに動画を上げることが一般人にも浸透して、大量にデータが入手できたこと、しかもボランティアが付けた字幕で正解が何か分かるようになったこと、などが影響して学習をより効率にできるようになり、その結果精度が向上したんではと個人的に想像しています。そんな状況下、自分が以前から是非ともやりたかったことは、英語試験のリスニングの内容をこの機能がどれくらい把握できるかでした。しかし、自分のチャンネルもないし動画なんて作る技術もないで、諦めていたんですが、今回一念発起し、Adobe Premiereを購入。春分の日を利用し、頑張って初動画を作成。早速アップロードすると、自動字幕起こしまでちゃんとやってくれました。すごすぎる

早速、自動字幕起こしの精度を検証したいと思います。英検1級リスニングは4つのセクションから成り立っていますので、それぞれで記事を分割し、不一致の箇所のみを見ていきます。レギュレーションは、自動字幕起こしの仕様上、大文字小文字の区別、固有名詞の綴り、ハイフネイトされた単語、カンマ・ピリオドの有無、数字の表現、縮約形とその展開、の違いは無視します。それでは、結果どうなるでしょうか?

比較は今回は前回と違って、上段が正解文で、下段が自動字幕となります。

Q.2

a quarter of my salary’s already gone.

a quarter of my salaries already gone

縮約形の salary’s=salary has とsalaryの複数形を間違える。ここは文法的に当てて欲しいところ。

Q.3

Robert, TopDown Communications just called.

down communications just called

会話開始時の呼びかけRobertと、会社名のTopが欠落。このように呼びかけが混じる前後で、分析に混乱が生じるっぽい。

Q.4

I’m sorry, but that’s our store’s policy.

I'm sorry but that's our stores policy

所有格のミス。我々の店のポリシー、とsを付けて所有格にするのが正しい。発音は同じだけど。

Q.6

Are you voting on Tuesday, Amy?

are you voting on tuesday.a me

エイミーの呼びかけで混乱。やはり呼びかけが鬼門。普通は付かないピリオドが付いて、一つのmeとおそ松くんのイヤミみたくなっている。この後に出てくるセリフのエイミーは正しく把握していたので勿体無い感じだ。前後の文章の内容も考慮に入れられれば改善できるか。

Q.7

Her doctor said she won’t be able to play volleyball this year.

the doctor said she won't be able to play volleyball this year

代名詞と冠詞の間違い。聞けば分かるけど、これはどっちにも取れるのでAIが能力向上しても難しい。

以下ミスなし。

まとめ

とりあえずPart 1の10問ですけど、全体的には、99%正解と言って過言でない。恐るべき正確さ。間違った箇所を見ると、アポストロフィーと固有名詞が苦手なのが分かりますね。アポストロフィーは発音が全く同じなので、文法を正しく理解する必要があるので難易度が高いっぽい。あと、固有名詞、特にそれを呼びかける時に混乱するようです。