YouTubeロゴ

(追記)続編で別の動画も調査しました。

YouTube自動生成字幕の精度2 - ドラマの中の英語

(追記)続編で英検1級のリスニングの字幕をYouTube先生に作ってもらいました(笑)

YouTube自動字幕起こしの精度3.1 〜 vs. 英検1級リスニング - ドラマの中の英語

ここ一年くらいYouTubeの英語動画をコンスタントに見てる人なら同意して頂けるかと思いますが、昨今のAIの進歩のおかげかは分かりませんが、自動生成される英語字幕の精度が飛躍的に向上している、と個人的に感じていました。自信あるところはテキストが濃かったりして、そういった改良も以前には見られなかった点です。今回はどれくらい向上しているのか数例を比較して調査したいと思います。

TED-ED

まずはTED-EDで比較してみましょう。題材はThe world’s most mysterious bookで、ヴォイニッチ写本の話です。 女性の声でスピードは普通。感情は入っておらず、バックに音楽が入っています。 上が自動字幕起こしで下が英語です。比較場所は30秒から1分くらいまで。さてどうなるでしょうか?? なお、字幕は全て2017/7/10時点のものです。

and Suns and moons with faces accompany the text
and suns and moons with faces accompany the text.

驚くべきことに、フルストップがないだけでほぼ同じです。

this 24 by 16 centimeter book is called the Voynich manuscript
This 24x16 centimeter book is called the Voynich manuscript,

ここもサイズのbyを英語ではxで書いているだけで同じです。Voynichの綴りもバッチリです。

and it's one of history's biggest unsolved mysteries
and its one of history's biggest unsolved mysteries.

ここで驚嘆に値する事実に直面します。なんと自動生成の文法の方が正しいのです。it is one of ...ですからね。

the reason why no one can figure out what it says
The reason why? No one can figure out what it says.

クエスチョンマークが無いだけで同じです。

the name comes from Wilfrid Voynich a Polish bookseller who came across the document at a Jesuit College in Italy in 1912
The name comes from Wilfrid Voynich, a Polish bookseller who came across the document at a Jesuit college in Italy in 1912.

ここまで来ると恐ろしいレベルです。

he was puzzled who wrote it where was it me what do these bizarre words and vibrant drawings represent
He was puzzled. Who wrote it? Where was it made? What do these bizarre words and vibrant drawings represent?

最後に自動生成のミスがようやく見つかりました。where was it me?だとそれが私だったのはどこで?になるのでおかしいですね。ここは人類の勝利です。と思うでしょ? 実際その箇所を聞いてみると、meに聞こえるんだよなー。 分かったことは、かなり正確であることと、フルストップ、パンクチュエーションマーク、クエスチョンマークなど文の区切り文字は入れられないところと、文頭というのがないので、全部小文字ですね。それでも固有名詞の正確さ等は恐るべきです。

RealLifeLore

これだけではいいとこ取りしたと思われますので、次は男性の声のものを探しました。What's the Deepest Hole We Can Possibly Dig?の6分前後です。英語字幕に間違いがあっても修正される可能性が高そうな視聴者数が多いチャンネルを選んでいます。ここでも、上が自動字幕起こしで下が英語です。

if you dropped a quarter down the shaft though it would take about 50 seconds before it hit the bottom
If you dropped a quarter down the shaft though, it would take about 50 seconds before it hit the bottom.

まさに生き別れた双子状態、生き写しですね。

recently however this depth has been surpassed by the Z 44 sha vo oil and gas well which has drilled down to a depth of twelve thousand three hundred seventy-six meters
Recently, however, this depth has been surpassed by the Z44-Chavyo oil and gas well which has drilled down to a depth of 12,376 meters

ここにきて間違い来たーと思ったら、特定ガスの固有名詞であまり勝利した気分はしませんね。深さも英単語で表現してくれています。

that's the equivalent of stacking 15 Burj Khalifa's on top of each other and currently represents the deepest hole that humanity has ever dug
that's the equivalent of stacking 15 Burj Khalifas on top of each other and currently represents the deepest hole that humanity has ever dug.

所有格のミスだけ。恐ろしい子・・・

the crust however can extend down to 70 thousand meters below the Earth's surface and the planets centre is located 6,371 kilometers
The crust, however, can extend down to 70,000 meters below the Earth's surface and the planets center is located 6,731 kilooometers

ついに明確な間違い来たぞ、数字がIELTSのリスニング的な間違いじゃん、と思ったあなた、残念ながら自動字幕が正解です(><。映像上も6371mになっているのに、どうして間違った英語版字幕者。それでも kilooometersみたいな伸ばす表現は字幕はできないようですね。そこまでは来てなかったとほっとするべきなのか、それとも・・・

まとめ

いやー、薄々分かっていたとは言え、実際比較するとその正確さに愕然としますね。このままだと英語を学ぶ価値があるのかと。自分はドラマ自分で見るのが重要なので関係ないですが、AIに仕事奪われる系に外国語教師なんかも入ってきそうですね。 本当はもっとアメリカ片田舎のおっさんの訛がすごい英語とか学術的な内容や感情あふるる会話等々で実験したいのですが、そういうのには英語の字幕がついていないというのがあって大御所のでしか試せませんでしたが、AIに勝てそうなこれはという動画を見つけたらまたやってみようと思います。