自動キャプション:自動音声認識の限界
Media
生成的人工知能(GAI)の台頭は世界を席巻し、個人的な領域でも仕事上の領域でも同様に応用を見出しています。キャプション業界では、GAIは、話し言葉を書き言葉に変換する自動音声認識(ASR)のプロセスで使用することができます。ASR技術の精度はかつてないほど向上していますが、当社の調査によると、最高のエンジンでも業界標準を下回る結果となっています。つまり、高品質でアクセシブルなキャプションを作成するには、依然として人間が主役なのです。
ASRエンジンの精度
キャプション関連の世界では、正解率はキャプションファイルやトランスクリプトの正確さと品質を測るために使用されます。ろう者や難聴者に真に公平な配慮を提供するためには、正確さが極めて重要であるため、業界標準の最低許容キャプション精度は99%です。
ASRエンジンの精度を測定する場合、考慮すべきさまざまな要素があります。FCCが概説しているように、「正確なクローズド・キャプションは、話し手の声のトーンとコンテンツの意図を伝えなければなりません」。適切なスペル、間隔、大文字、句読点は、効果音や話者の識別のような音声以外の要素と同様に、正確な字幕の重要な要素です。
ASRエンジンは人工知能によって動くため、その能力はプログラミングによって教え込まれたものに限られます。進歩は続いているものの、AIテクノロジーには、論理的思考や文脈を理解する能力は人間には及びません。このため、ASRのトランスクリプトは、スペルや文法に一貫性がなく、音声以外の関連要素が完全に省略されていることがよくあります。
しかし、すべてのASRエンジンが同じように作られているわけではありません。ASRの現状に関する3Play Mediaのレポートでは、録音済みコンテンツの字幕付けと文字起こしにおける10 種類のエンジンの性能と精度を評価しました。その結果、特定のコンテンツに適したエンジンもあることが判明し、ASRで生成された字幕の使用ケースにニュアンスが加わりました。10個のエンジンのうち2個だけが95%以上の精度の出力を生成し、これは印象的でありますが、わかりやすい字幕を生成するにはまだ十分ではありません。
ASRの不正確さがもたらす影響
不正確な字幕がもたらす影響は、あなたが考えている以上に大きいかもしれません。障害者とその家族は、数十億の消費力を行使しますが、オンライン体験が良いものでない場合、彼らの消費意欲は著しく低下します。2023年のWebAIM Million Reportでは、ウェブサイトのホームページの96%以上でアクセシビリティに問題があることが判明しており、これは潜在的な収入源における実質的なギャップを意味します。
低品質の字幕は、コンテンツにアクセスできないだけでなく、ユーザーエクスペリエンス全体にも悪影響を及ぼします。ASRの限界により、トランスクリプトは置換エラー、ハルシネーション(音声ベースのないテキスト)、フォーマットエラーの影響を受けやすくなり、視聴者とアルゴリズムを混乱させる可能性があります。さらに、動画トランスクリプトは、多くのブランドマーケティング戦略に不可欠な SEO にも影響を及ぼします。
検索エンジンは、動画コンテンツに関連するテキストに依存して、インデックスを作成し、結果を適切にランク付けします。そのため、トランスクリプトやキャプションファイルは、サイトのキーワード密度や関連する検索ランキングに最も貢献するものとなります。ブランドが自動生成されたトランスクリプトのみに依存している場合、エラーが検索戦略を停滞させる可能性があります。誤った長文クエリやキーワードは、貴社とターゲットオーディエンス、そして彼らのエンゲージメントの可能性との間に断絶を生み出します。
技術的なデメリットに加え、質の低い字幕を表示すると、ブランド全体に疑問符がつきます。英国では、消費者の59%が、スペルミスや悪い文法があれば、提供されるサービスの質を疑うと回答しています。つまり、不正確な字幕は、貴社のマーケティング努力を台無しにし、視聴者の信頼を損なうのです。
ASRを賢く使う方法
ASRは、クローズドキャプションを効率的に作成するために不可欠なツールです。ASRが生成したトランスクリプトは、人間の編集者がレビューするための基礎となる最初のステップを提供することで、字幕作成を合理化します。これにより、字幕制作で最も時間のかかる部分である、手作業によるタイムコードの関連付けが不要になります。このように、プロの人間のトランスクリプション担当者とテクノロジーを組み合わせることで、より効率的な品質保証プロセスを実現し、同時に顧客のコストを低く抑えることができます。
3Playの特許取得済みプロセスは、両方の長所を組み合わせ、精度の高いトランスクリプトとメディア・アクセシビリティ・サービスを作成します。当社のトランスクリプション担当者は、厳格な認定プロセスを受けており、レビューと品質保証が万全であることを保証しています。最高級のASRテクノロジーと組み合わせることで、平均99.6%の測定精度を保証することができます。
動画アクセシビリティを容易にするため、3PlayとBrightcoveなどの一般的な動画プラットフォームと統合し、すでに使用している場所で使用できるようにします。コンテンツをアクセシブルにし、コンプライアンスを維持するだけでなく、3PlayとBrightcove の統合により、ワンクリックで動画への投資価値を高めることができます。