時間依存メディアのガイドライン

1.2.1 音声のみ及び映像のみ (収録済) (レベル A)

作成日: 2024.4.10 / 最終修正日: 2026.1.12

収録済みの音声や映像コンテンツに代替コンテンツを提供する

この達成基準は、ポッドキャストなど収録済みの音声や音声なしの解説動画などを、すべての利用者が理解できるようにすることを目的としています。代替テキストや書き起こしを提供することで、画面を見ずに利用する人、音を聞き取りにくい人、または周囲がうるさかったり音を出せなかったりする状況の利用者も情報を得ることができます。

実践すべきこと

代替コンテンツの提供
  • ラジオ番組、ポッドキャストなど音声のみのコンテンツには、話している内容を書き起こしたテキストを提供する。
  • 映像のみのコンテンツには、映像で何が起きているかを説明するテキストを提供する。

運用者への注意

書き起こしテキストの掲載
  • 音声や映像ファイルの近くに、内容を書き起こしたテキストを掲載するか、テキストページへのリンクを設置する。
情報の網羅性
  • 単なる「要約」ではなく、意味のある情報(誰が話しているか、重要な環境音など)がテキストに含まれているかを確認する。

開発者への注意

HTMLでのマークアップ
  • 音声や映像を埋め込む際は、その周辺に代替テキストを表示できるエリアを確保しておく。
  • 音声・映像プレイヤー自体が、キーボード操作やスクリーンリーダーに対応しているもの(標準のvideo/audio要素など)を選定する。

今のWeb環境で気をつけたい点

  • YouTube 等動画プラットフォームの自動字幕や自動文字起こし機能は便利ですが、専門用語や固有名詞で誤変換が起きやすいため、公開前に内容をチェックして修正するとよいです。

参考リンク

解説書 達成基準 1.2.1: 音声のみ及び映像のみ (収録済) (レベル A)

1.2.2 キャプション (収録済) (レベル A)

作成日: 2024.4.10 / 最終修正日: 2026.1.13

収録済み音声を含む映像コンテンツに字幕を提供する

この達成基準は、収録済みの音声を含む映像コンテンツをすべての利用者がアクセス可能にすることを目的としています。字幕(キャプション)を提供することにより、音声を聞き取りにくい利用者だけでなく、騒がしい場所や音を出せない環境で視聴する利用者も、コンテンツの内容を正確に理解できます。

実践すべきこと

字幕(キャプション)の追加
  • 収録済みの音声を含む映像には、音声と同期した字幕を提供する。
  • 話し手のセリフだけでなく、内容を理解するために重要な「効果音」や「音楽の雰囲気」なども文字で表現する。(例:[激しい爆発音]、[静かなピアノ曲]など)
  • 複数の人が話している場合は、誰が話しているかがわかるように記述する。

運用者への注意

自動生成字幕の修正
  • YouTube などの自動字幕機能を使用する場合、誤字脱字やタイミングのズレがしばしば発生するため、公開前に内容を確認するようにする。
オープンキャプションとクローズドキャプションの検討
  • 常に表示される字幕(オープンキャプション)か、利用者がオン・オフを切り替えられる字幕(クローズドキャプション)か、配信プラットフォームや想定する利用状況に合わせて選択する。

開発者への注意

標準的なマークアップとプレイヤーの選定
  • HTMLのvideo要素を使用する場合、track要素を用いて字幕を提供する。
  • YouTube埋め込みなど外部プレイヤーを使用する場合は、プレイヤーの操作パネルから字幕設定にアクセスできることを確認する。

今のWeb環境で気をつけたい点

  • SNSに投稿する動画もこの基準の対象と考える。動画内に直接テキストを焼き付ける手法は、多くの利用者にとって有益だが、スクリーンリーダーでは読み上げられないことがあるため、必要に応じて投稿本文に内容の補足を記載する。
  • 映像の中の重要な文字情報と字幕が重なって見えなくならないよう、表示位置やコントラストに配慮する。

参考リンク

解説書 達成基準 1.2.2: キャプション (収録済) (レベル A)

1.2.3音声解説、又はメディアに対する代替 (収録済) (レベル A)

作成日: 2024.4.10 / 最終修正日: 2026.1.15

映像コンテンツの内容を説明するテキストや音声ガイドを提供する

この達成基準は、セリフ以外の視覚情報(登場人物の動作、背景の変化、画面上のテキストなど)を、映像を見ずに利用する人も把握できるようにすることを目的としています。映像の内容をすべて書き起こしたテキスト、または映像を補足する音声ガイドを提供することで、情報の格差を減らします。

実践すべきこと

代替コンテンツの提供
  • 映像の中の重要な動き、場面転換、画面上に表示されている文字情報を説明する「音声解説」を動画に追加する。
  • または、音声の内容と視覚的な情報を網羅した「書き起こしテキスト」を動画の近くに掲載する。

運用者への注意

書き起こしテキストの網羅性
  • テキスト版を提供する場合、セリフだけでなく「(ここでグラフが表示される)」「(驚いて立ち上がる)」といった、状況を理解するために必要な視覚情報の記述が含まれているかを確認する。
制作コストの検討
  • 専用の音声解説を作るのはコストがかかるため、「書き起こしテキスト」を掲載する方法が導入しやすい。

開発者への注意

テキストエリアの確保
  • 動画プレイヤーの近くに、書き起こしテキストを流し込むためのアコーディオンや、別ページへのリンクを配置できる設計にする。

今のWeb環境で気をつけたい点

  • 動画によるマニュアルやeラーニングが増えている。映像を見ないと操作方法がわからないコンテンツ(例:「ここを押します」と指し示すだけ)は、この基準を満たさない可能性が高いため、言葉での補足やテキスト版を用意する。
  • 書き起こしテキストを用意することは、検索エンジンが動画の内容を正確に理解できるようになるため、検索エンジン最適化にも有効。

参考リンク

解説書 達成基準 1.2.3: 音声解説、又はメディアに対する代替 (収録済) (レベル A)

1.2.4キャプション (ライブ) (レベル AA)

作成日: 2024.4.10 / 最終修正日: 2026.1.16

ライブ配信(生放送)の音声コンテンツに字幕を提供する

この達成基準は、リアルタイムで配信される映像や音声の内容を、音声を聞き取りにくい利用者や音を出せない環境の利用者も同時に把握できるようにすることを目的としています。誰が話しているか、重要な効果音は何かといった情報をリアルタイムで提供します。

実践すべきこと

リアルタイム字幕の提供
  • ウェビナーやライブ配信を行う際、音声と同期した字幕をリアルタイムで表示させる。

運用者への注意

字幕の品質とスピードの両立
  • 誤変換を最小限にするため、専門の字幕作成者または、UDトーク、YouTube/Zoomの自動字幕など自動音声認識技術を活用し、必要に応じて修正スタッフを配置する。

開発者への注意

配信プラットフォームの選定
  • 字幕機能に対応している配信プラットフォームや、外部の字幕送信ツールと連携可能なシステムを選定する。

今のWeb環境で気をつけたい点

  • Zoom、Microsoft Teams、YouTube Liveなど、主要なプラットフォームには自動字幕機能が備わっている。これらを有効にするだけで対応コストを下げられるが、専門用語が多い場合は事前に字幕作成者の準備を行うなどの工夫が求められる。

参考リンク

解説書 達成基準 1.2.4: キャプション(ライブ)

1.2.5 音声解説 (収録済) (レベル AA)

動画コンテンツに映像情報を伝える音声ガイド(副音声)を提供する

作成日: 2024.4.10 / 最終修正日: 2026.2.3

この達成基準は、映像を見ずに利用する人が動画の内容を十分に理解できるように、動作、場面の変化、画面上のテキストなど目に見える情報を「音声」で補完することを目的としています。レベルAの達成基準(1.2.3)では「書き起こしテキスト」でも代用できますが、レベルAAでは「音声による解説」が求められます。

実践すべきこと

音声解説の提供
  • 登場人物のセリフの合間に、その時の動作や表情、場面の状況などを説明するナレーションを追加する。
  • 主音声だけでは伝わらない「画面上の重要な文字情報」や「図解の内容」を声で説明する。

運用者への注意

企画・台本段階での配慮
  • 「こちらをご覧ください」といった指示代名詞を避け、「画面中央の赤い『送信』ボタンを押します」のように、出演者が言葉だけで状況を説明するように工夫することで、別途音声解説を作成する手間を省ける場合がある。
音声解説付きバージョンの並置
  • 通常の動画とは別に、音声解説を入れた「音声解説版」の動画を用意し、利用者が選択できるように提供する。

開発者への注意

複数音声トラックの検討
  • ひとつの動画ファイル内で副音声を切り替えられるプレイヤーを使用するか、音声解説あり・なしの動画をそれぞれ適切にマークアップして配置する。

今のWeb環境で気をつけたい点

  • SNS向けの短いプロモーション動画やマニュアル動画であっても、テロップのみでセリフがないシーンなど映像だけで情報を伝えている箇所は、画面を見ずに利用する人には伝わりにくい。重要なメッセージは映像と音声の両方で届くように設計する。

参考リンク

解説書 達成基準 1.2.5: 音声解説 (収録済) (レベル AA)

1.2.6 手話 (収録済) (レベル AAA)

収録済みの映像コンテンツ(音声を含むもの)に、手話通訳を提供する

作成日: 2024.4.10 / 最終修正日: 2026.5.12

この達成基準は、音声を含む映像コンテンツに対して、手話通訳を提供することを目的としています。手話を主な言語として使う人にとって、手話は重要な情報取得の手段です。「字幕があれば手話はいらないのでは?」と誤解されがちですが、手話は日本語とは異なる独自の文法を持っているため、手話話者にとって日本語の字幕を読むことは「外国語の文章を読む」ような負担がかかる場合があります。

実践すべきこと

手話通訳映像の提供
  • 音声と映像が同期した一般的なビデオ動画に含まれるすべての音声情報に対して、手話通訳を提供する。

運用者への注意

手話言語の適切な選択
  • 手話は世界共通ではなく、国や地域によって異なります。日本の利用者向けであれば、対象となる利用者が理解しやすい手話を提供するよう、手話通訳者や専門機関と連携して制作する。
字幕(キャプション)との役割の違いの理解
  • 字幕は「日本語を文字で読むことができる人」や「音を出せない環境にいる人」に有効ですが、手話を主な言語として使う人への情報提供としては不十分なケースがあることをチーム全体で理解しておく。

開発者への注意

ピクチャー・イン・ピクチャー等の視認性の高いレイアウト
  • 手話通訳者の映像をメイン映像の隅に配置するピクチャー・イン・ピクチャーか、手話通訳版の映像を別ストリームとして用意し、ビデオプレーヤーの機能で利用者が切り替えられるように実装する。
通訳者映像のサイズと解像度の確保
  • 手話は手の動きだけでなく、顔の表情や口の動き、体の傾きなども重要な文法要素となります。そのため、通訳者の映像は画面全体の1/6〜1/4程度の十分なサイズを確保し、表情が読み取れる画質を維持する。

今のWeb環境で気をつけたい点

  • レベルAAAの難易度と優先度: すべてのWeb動画に手話通訳をつけることは、制作コストや手配の手間の面からハードルが高いため、この基準は「レベルAAA」に設定されています。まずは 1.2.2(キャプション)を満たすことが優先ですが、官公庁の重要な発表や、生命・財産に関わる緊急情報、あるいは手話を主な言語として使う人が多く含まれるコンテンツにおいては、この手話通訳の提供が重要になります。

参考リンク

解説書 達成基準 1.2.6: 手話 (収録済)

1.2.7 拡張音声解説 (収録済) (レベル AAA)

セリフの合間だけでは状況を説明しきれない映像に、一時停止を挟んで音声解説を追加する

作成日: 2024.4.10 / 最終修正日: 2026.5.12

この達成基準は、映像を見ずに利用する人が映像の内容を理解できるようにするための「音声解説(1.2.5)」をさらに拡張したものです。登場人物のセリフや重要な効果音が絶え間なく続いており、状況を説明するための音声解説を挿入する「間」が足りない映像に対して、映像を一時停止して十分な長さの解説を挿入することを目的としています。

実践すべきこと

拡張音声解説の提供
  • 映像の元のセリフや音声の合間だけでは、場面転換、人物の行動、画面上の文字など視覚的な状況を説明する音声解説を入れきれない場合、映像の再生を一時停止して解説を挿入した拡張音声解説を提供する。

運用者への注意

対象コンテンツの選定と優先度
  • 動きが激しくかつセリフが多い教材ビデオなど、視覚情報が不可欠で解説の隙間がないコンテンツを提供する際に検討する。ただし、これは「レベルAAA」の基準であるため、まずはレベルAAの通常の「1.2.5 音声解説 (収録済)」を満たすことを優先し、それで情報提供が不十分な場合の追加措置として検討する。

開発者への注意

別バージョンの動画の用意
  • あらかじめ映像の部分を静止させ、長い解説の音声を合成して十分に説明しきった後に再び動き出すように編集した「拡張音声解説版」の動画ファイルを別途作成し、提供する。
プレーヤーによる動的制御
  • または、映像の特定のタイムスタンプに達した際に自動で動画を一時停止し、別トラックの音声解説を再生し終えてから動画の再生を再開するような、高度な制御が可能なビデオプレーヤーを実装する。

今のWeb環境で気をつけたい点

  • レベルAAAの難易度と優先度: 拡張音声解説は、映像を一時停止して追加の解説を挿入するため、通常の音声解説よりも制作・編集・配信の負担が大きく、この基準は「レベルAAA」に設定されています。まずは 1.2.5(音声解説)を満たすことが優先ですが、視覚情報が理解に不可欠で、通常の音声解説だけでは内容を十分に伝えきれない教材動画や操作説明動画では、この拡張音声解説の提供が重要になります。
  • 映像のリズムと作品性への影響: 映像を一時停止して解説を入れるため、映画やドラマなど「映像のテンポや間」そのものが重要な表現となっている作品に適用すると、本来の芸術性に影響することがあります。そのため、学習用のチュートリアルビデオや、操作手順の解説動画など、「情報の正確な伝達」が優先される実用的なコンテンツに適した手法です。
  • 配信プラットフォームでの現実的な対応: Web上で動的に動画を一時停止させて別音声を差し込むような複雑なプレーヤーの実装はコストが高いため、YouTubeなどの標準的な動画プラットフォーム上に「拡張音声解説を焼き付けた別バージョンの動画」をアップロードしてリンクを張るのも良い方法です。

参考リンク

解説書 達成基準 1.2.7: 拡張音声解説 (収録済)

1.2.8 メディアに対する代替 (収録済) (レベル AAA)

映像と音声のすべての情報を網羅した、台本のようなテキストを提供する

作成日: 2024.4.10 / 最終修正日: 2026.5.27

この達成基準は、音声と映像が同期した一般的なビデオ動画に対して、すべての情報を網羅した「テキストによる代替」を提供することを目的としています。点字ディスプレイで情報を読む利用者や、動画を再生するよりも自分のペースでテキストを読みたい利用者にとって、この完全なテキスト版が唯一の確実な情報源となります。

実践すべきこと

完全なテキスト代替の提供
  • 収録済みの映像コンテンツに対して、セリフだけでなく、重要なアクション、場面転換、登場人物の表情、背景音など、映像と音声の「すべての情報」をテキスト化した文書を提供する。

運用者への注意

「台本」や「小説」のような詳細な記述
  • 単なる「セリフの書き起こし」では不十分です。映像が見えなくても、音が聞こえなくても、そのストーリーや内容が正確に伝わるように、誰が話しているかや、状況を補足する説明を含めた詳細なテキストを作成する必要があります。

開発者への注意

テキストへのアクセス経路の確保
  • 作成したテキスト代替は、動画プレーヤーのすぐ下などに直接表示するか、わかりやすいリンク(例:<a href="#transcript">動画のテキスト版を読む</a>)を配置して、利用者が容易にアクセスできるように実装する。

今のWeb環境で気をつけたい点

  • レベルAAAの難易度と優先度: 映像と音声のすべての情報を網羅したテキスト代替を作成するには、セリフの書き起こしだけでなく、場面や動作、表情、重要な音まで文章化する必要があるため、制作には時間と専門的な確認が必要です。まずは 1.2.3(音声解説、又はメディアに対する代替)や 1.2.5(音声解説)などの基本的な情報保障を満たすことが優先ですが、教育コンテンツ、行政情報、手続き案内など、動画の内容を正確に読み返せることが重要な場合は、この完全なテキスト代替の提供が非常に有効です。
  • 1.2.3(レベルA)との違い: レベルAの「1.2.3 音声解説、又はメディアに対する代替」では、音声解説かテキスト代替の「どちらか」を提供すれば合格でした。しかし、レベルAAAの基準では、他の情報保障の有無にかかわらず「完全なテキスト代替」の提供が必須となります。

参考リンク

解説書 達成基準 1.2.8: メディアに対する代替 (収録済)

1.2.9 音声のみ (ライブ) (レベル AAA)

生放送のインターネットラジオや音声ライブ配信に、リアルタイムでテキスト(字幕)を提供する

作成日: 2024.4.10 / 最終修正日: 2026.5.27

この達成基準は、映像を伴わない「リアルタイムの音声配信」に対して、文字起こしやキャプションを同時に提供することを目的としています。音声を聞き取りにくい利用者が、音声メディアの生放送でも同じタイミングで情報を受け取り、ライブの臨場感や議論に参加できるようにするための基準です。

実践すべきこと

リアルタイムでのテキスト代替の提供
  • インターネットラジオの生放送、音声のみのライブセミナー、記者会見の音声中継などに対して、話している内容や重要な環境音をリアルタイムでテキスト化して配信する。

運用者への注意

文字起こしの体制構築と品質管理
  • ライブ配信を行う際は、リアルタイムでテキスト入力を行う専門の速記者を手配するか、精度の高い音声認識システムを導入する。
  • ライブ配信の性質上、多少の遅延や誤変換が発生することは許容されますが、配信終了後には修正した完全なテキストアーカイブ(1.2.1 音声のみ (収録済) の対応)を提供することが望ましいです。

開発者への注意

テキスト表示領域と支援技術への配慮
  • 音声プレーヤーの近くに、リアルタイムでテキストが更新される専用の表示エリアを設ける。
  • テキストが次々と追加・更新される領域には、aria-live="polite" などのWAI-ARIA属性を適切に設定し、点字ディスプレイなどで情報を読む人が更新内容を追えるように実装する。

今のWeb環境で気をつけたい点

  • レベルAAAの難易度と優先度: 音声のみのライブ配信にリアルタイムでテキストを提供するには、速記者や音声認識システム、配信画面への組み込み、誤変換への対応など、事前の体制づくりが必要になるため、この基準は「レベルAAA」に設定されています。まずは収録後に正確なテキストアーカイブを提供することが現実的な出発点ですが、官公庁の会見、災害・緊急情報、参加者がその場で判断や行動を求められる音声ライブでは、リアルタイムテキストの提供がとくに重要になります。
  • AI音声認識技術の進化と普及: 現在ではAIによる自動文字起こし技術が進化し、導入ハードルが下がっています。完全ではなくとも、AIを活用してリアルタイムテキストを提供するアプローチは非常に有効です。
  • 音声SNSやライブポッドキャストの台頭: X(旧Twitter)のスペース機能や音声配信アプリなど、映像を持たない「音声ライブ」の文化が一般化しています。これらのプラットフォームの多くは標準で自動字幕機能を提供し始めており、「ライブ音声にもテキストがつく」のが当たり前になりつつあるという背景を理解しておく必要があります。

参考リンク

解説書 達成基準 1.2.9: 音声のみ (ライブ)

目次へ戻る

公開・販売・運用のことで困ったら、まずは「ましじめ」へ

ウェブサイトの制作や改善、AI活用、アクセシビリティ、
商品やサービスの見せ方まで、何から手をつければよいか分からない段階でもご相談ください。
自社事業の経験と専門的な技術力を活かし、無理なく続けられる形をご提案します。