f:id:insaneway:20190615193729p:plain:w150

当ブログは字幕ファイルに(拡張子ass, srt)に大いに依存してるんですが、字幕ファイルの中にたまにアイの大文字Iがエルの小文字lになっているパターンがあります。見た目では区別付かないし、検索する時ヒットしなくなるので本当にどうにかして欲しい感じですが、ようやくその原因が分かりました。

字幕ファイルを公開しているsubsceneのコメ欄にOCR'd from DVD sub/idxと言う文字があってヒントになりました。このOCRがポイントで、optical character recognition,(光学式文字認識)の略、つまりシーンを字幕入りの画像として一旦取り込んで、その画像から文字を判別し抽出しているんですね。だからフォントによってはIとl(アイとエル)が区別付かない。

でも、DVDって字幕用のデータが別に用意されていてそこから生データを読み取れば良い気がするんですが、暗号化などされていて難しいんでしょうか? 問題の箇所が分かってスッキリとした反面、これからOCRedされた字幕ファイルには注意が必要と感じました。

皆さんも、OCRedは注意してください。見る分には問題はほぼ無いですが、字幕を検索するとなると話は別になりますので。