メインコンテンツまでスキップ

YouTube データ保存に関する法的リスク分析

エグゼクティブサマリー

subseek は youtube-transcript-plus(非公式 Innertube API を利用する OSS ライブラリ)で YouTube の字幕を取得し、Turso / Meilisearch に保存して検索サービスを提供する。YouTube Data API v3 は動画一覧の取得にのみ使用し、字幕取得には使用していない。ツール自体の公開は合法だが、ToS 違反や著作権侵害の法的責任はツールではなく**サービス運営者(subseek)**が負う。

リスク総合評価

リスク領域評価理由
YouTube ToS 違反スクレイピングは明示的に禁止されている
robots.txt 違反中〜高/watch が Disallow されている
著作権侵害(手動字幕)言語の著作物として認定される可能性あり
著作権侵害(自動生成字幕)低〜中機械生成物だが音声内容の著作権は残る
不正アクセス禁止法認証不要の公開データが対象
DMCA 対応不備指定代理人未登録ではセーフハーバーを失う

最優先対応事項

  1. DMCA テイクダウン対応フローの整備(セクション 7)
  2. 利用規約・免責事項の整備(セクション 6)
  3. チャンネルオーナーのオプトアウト機能の実装(セクション 6)

1. YouTube 利用規約の関連条項

1.1 YouTube ToS「許可と制限事項」

YouTube の利用規約は以下を明示的に禁止している。

禁止事項内容
自動化ツールによるアクセスロボット、ボットネット、スクレーパ等による本サービスへのアクセス
技術的保護手段の回避コンテンツのコピーまたはその他の利用を防止・制限する機能の回避
コンテンツの複製・保存YouTube の書面による許可なしの複製、ダウンロード、配信等

例外規定: 「公衆が利用可能な検索エンジンが robots.txt ファイルに従い、公開されている検索可能なインデックスを作成するためにスパイダーを使用すること」は許可される。ただしキャッシュやアーカイブ目的は除く。

youtube-transcript-plus の技術的実態

subseek が字幕取得に使用している youtube-transcript-plus(MIT ライセンスの OSS)は、厳密には「スクレイピング」ではなく、HTML 取得 + 非公式 API 呼び出しのハイブリッドである。

Step処理内容技術的分類
1GET /watch?v={id} で動画ページの HTML を取得し、INNERTUBE_API_KEY を正規表現で抽出HTML スクレイピング
2POST /youtubei/v1/player に ANDROID クライアントとして JSON を送信し、字幕トラック URL を取得非公式 Innertube API 呼び出し
3字幕トラック URL から字幕 XML を取得し、<text> タグをパースXML パース

これはブラウザが動画を再生する際に送信するリクエストと実質同一の処理であり、認証を回避したり技術的保護手段を突破したりするものではない。

パッケージ自体の合法性

youtube-transcript-plus の公開・配布自体は合法である。youtube-dl も 2020 年に RIAA から DMCA 削除要求を受けたが、EFF の支援で復元され、ツールの公開自体は問題ないという判断が示されている。

ただし「ツールが合法」であることと「ツールの使い方が合法」であることは別の問題である。ツールを使って字幕を取得・永続保存・商用利用する行為の法的責任は、ツールの開発者ではなくサービス運営者(subseek)が負う

subseek は検索エンジン例外に該当するか

YouTube ToS の検索エンジン例外規定について、subseek が該当するかを分析する。

要件subseek の状況判定
公衆が利用可能な検索エンジンであるYouTube 字幕の検索サービスとして公開されている
検索可能なインデックスを作成する目的字幕をインデックス化し検索結果を返すのが主機能
robots.txt に従っている/watch/youtubei/ が Disallow されているが、これらにアクセスしている×
キャッシュやアーカイブ目的ではない字幕の永続保存が「キャッシュ」に該当する可能性がある

結論: robots.txt に従っていないため、現状では例外規定の要件を完全には満たさない。Filmot.com も同様の立場にあるが、3 年以上運営が継続している事実は YouTube が字幕検索サービスに対して積極的に取り締まりを行っていないことを示唆する。ただしこれは将来の免責を保証するものではない。

1.2 YouTube API Services ToS との関係

subseek は YouTube Data API v3 を動画一覧の取得にのみ使用しており、字幕取得には使用していない。

API ToS の条項subseek への影響
Section III.E.4: API データは 30 日以内に削除・更新が必要動画メタデータ(タイトル、サムネイル等)に適用される
Section 5: 不正・非倫理的な方法での API 使用禁止API の正規利用自体は問題ないが、非公式 API との併用が問題視される可能性あり
Section 12: 第三者の知的財産権の侵害禁止字幕データの著作権問題と関連

重要: 字幕取得は youtube-transcript-plus を通じて YouTube の非公式 Innertube API にアクセスしており、YouTube API Services ToS の適用範囲外で行われている。これ自体が YouTube ToS の「自動化ツールによるアクセス禁止」に抵触する。

API ToS 抵触時の具体的リスクと対策

リスクシナリオ影響対策
YouTube が Data API v3 のキーを無効化する動画一覧取得・差分チェックが不能になるData API v3 の利用範囲を動画メタデータ取得に限定し、字幕取得とは完全に分離する(現在の設計で既にそうなっている)
API ToS 違反としてサービス全体への警告を受けるサービス継続の判断が必要になるAPI ToS の 30 日更新要件を遵守する仕組みを実装し、正規 API 利用部分の遵守を明確にする

subseek の設計上、Data API v3 は動画メタデータ取得のみに使用しており、字幕取得は youtube-transcript-plus で完全に分離されている。仮に API キーが無効化されても字幕検索機能自体は影響を受けない(ただし新規チャンネルの動画一覧取得と差分チェックは停止する)。

1.3 robots.txt のクローリング制限

YouTube の robots.txt は以下のパスを一般クローラーに対して Disallow している。

User-agent: *
Disallow: /watch
Disallow: /api/
Disallow: /youtubei/
Disallow: /channel
Disallow: /playlist

subseek への影響:

  • /watch(動画視聴ページ)が Disallow されており、youtube-transcript-plus が動画ページの HTML を GET する処理は robots.txt に違反する
  • /youtubei/(Innertube API)も Disallow されており、字幕トラック情報の取得も同様に違反する
  • robots.txt は法的拘束力のある「規約」ではないが、これを無視した場合は ToS 違反および著作権法 47 条の 5 の適法要件を満たさなくなる可能性がある

1.4 責任の所在: ツール vs サービス運営者

主体責任の範囲
youtube-transcript-plus(ツール)MIT ライセンスで公開されている OSS。ツールの公開・配布自体は合法(youtube-dl 判例参照)
subseek(サービス運営者)ツールを使って字幕を取得・永続保存し、商用サービスとして提供している。ToS 違反や著作権侵害の法的責任はサービス運営者が負う

YouTube ToS に違反する可能性があるのは「ツールの存在」ではなく「ツールを使って自動化アクセスを行い、コンテンツを保存・配信するサービスの運営」である。Filmot.com も同種のツール / 手法で字幕を取得しているが、法的責任は Filmot の運営者にある。


2. スクレイピングの法的状況

2.1 HiQ Labs v. LinkedIn 判決(米国)

項目内容
裁判所第 9 巡回区連邦控訴裁判所(2019 年、2022 年再確認)
争点LinkedIn の公開プロフィールのスクレイピングが CFAA(コンピュータ詐欺・乱用防止法)に違反するか
判示公開データへのアクセスは「不正アクセス」に該当しない
最終結果2022 年に和解。hiQ はスクレイピングを全面停止し、取得データを全て破棄

subseek への示唆:

  • YouTube の字幕は認証なしで閲覧可能な公開データであるため、CFAA の「不正アクセス」には該当しない可能性が高い
  • ただし、ToS 違反に基づく民事上の契約違反不当競争としての訴追は依然として可能
  • hiQ が最終的に和解でデータ破棄に合意した事実は、法的にグレーな立場の脆弱性を示している

2.2 日本法上の考え方

不正アクセス禁止法

成立要件: ネットワーク経由で、他人の認証情報の入力またはアクセス制御機能を回避する情報の入力により、アクセス制御機能によって制限されている機能を利用可能にすること。

subseek への適用: YouTube の字幕は認証不要で公開されているため、不正アクセス禁止法は原則として適用されない。ただし、YouTube がレート制限や IP ブロックを技術的保護手段として導入し、それを回避する場合は適用されるリスクがある。

著作権法第 47 条の 5(情報解析のための複製等)

検索サービスにおける著作物の軽微利用を適法化する規定(2018 年改正)。

適法要件:

  1. 利用する著作物が公表されたものであること
  2. 情報解析サービスの目的上必要と認められる限度であること
  3. 利用が軽微であること
  4. 政令が定める基準に従うこと:
    • robots.txt 等で情報収集禁止が指定されている場合は収集できない
    • 問い合わせ受付のための連絡先を明示すること
  5. 著作権者の利益を不当に害しないこと

subseek への適用上の問題: YouTube の robots.txt で /watch が Disallow されているため、要件 4 を満たさない可能性が高い

著作権法第 30 条の 4(非享受目的利用)

著作物の思想・感情を「享受」することを目的としない利用を適法化する規定。

subseek への適用上の注意: 字幕をインデックス化する行為は「情報解析目的」として適用範囲内だが、ユーザーが検索結果として字幕内容を直接読む(享受する)目的も兼ねているため、享受目的と非享受目的が混在する。2023〜2024 年の解釈では、享受目的が一部でも含まれると同条の保護を受けられなくなる可能性がある。


3. 著作権リスク

3.1 自動生成字幕 vs 手動字幕の著作権帰属

字幕の種類著作物性著作権の帰属subseek への影響
自動生成字幕低い(機械生成のため創作性がない)YouTube が管理するが、元の音声(発話)の著作権は動画制作者に帰属リスクは比較的低いが、音声内容の書き起こしとして元著作物の権利が及ぶ可能性あり
手動字幕高い(言語の著作物)字幕を作成した人(動画投稿者または字幕提供者)リスクが高い。大阪地裁 2022 年判決で字幕の著作物性が認定されている

3.2 大阪地裁 2022 年判決の概要

YouTube 動画のテロップ(字幕)をブログに無断転載した事案で、裁判所は字幕を「言語の著作物」(著作権法第 10 条第 1 項第 1 号)と認定した。著作物性の根拠:

  • 動画内容において「重要な役割」を担っている
  • 「推察される各主体の心情等を交えて叙述したもの」という創作的表現
  • 「構成や分量等を工夫して作成」されていること

3.3 検索インデックスとしての保存とフェアユース / 引用の範囲

日本著作権法上の引用(第 32 条)の要件:

  1. 既に公表された著作物であること
  2. 引用する必然性があること
  3. 質的・量的に主従関係があること(引用部分が「従」)
  4. 出所を明示すること
  5. 引用の範囲が正当な範囲内であること

subseek の設計への評価:

設計パターン引用の主従関係適法性の評価
字幕全文を DB に保存し全文表示字幕が「主」になり要件を満たさない不適法の可能性が高い
字幕全文を DB に保存し検索時にスニペット表示検索サービスが「主」、スニペットが「従」47 条の 5 の軽微利用として適法化の余地あり
字幕を都度 API から取得しスニペットのみ表示最も安全だが実用性に欠ける適法の可能性が高い

subseek の現在の設計: 字幕全文を Meilisearch に保存し、検索結果としてタイムスタンプ付きのスニペットを表示する方式。この設計は 47 条の 5 の「軽微利用」として正当化できる余地があるが、robots.txt の Disallow との関係で完全な適法性の保証は難しい。


4. 競合サービスの法的対応状況

4.1 Filmot.com

項目内容
運営開始2021 年 7 月(3 年以上運営継続)
規模16.3 億件のキャプション、14.3 億本の動画をインデックス
専用 ToS ページなし(About ページに簡易的な免責事項のみ)
DMCA ポリシーなし
免責事項情報は「一般的な情報提供目的のみ」。精度や信頼性に関して「いかなる表明や保証も行わない」
YouTube との関係動画再生には YouTube 公式の埋め込みプレイヤー / API を使用
既知の法的措置なし

Filmot のリスク軽減手法:

  1. 「検索エンジン」としての位置づけ(YouTube ToS の検索エンジン例外規定を暗黙的に根拠とする)
  2. コンテンツの再配信ではなくメタデータ検索に徹する
  3. 非営利・個人プロジェクトの立場(商業規模ではない)
  4. YouTube API を動画再生に使用(部分的に公式利用)

4.2 YouTube-Transcript.io

項目内容
拠点ベルギー
料金フリーミアム(月 25 トークン無料、Plus $9.99/月〜)
専用 ToS ページあり(準拠法はベルギー法、裁判管轄は Leuven 裁判所)
DMCA ポリシーなし
利用制限無料プランは非商用利用のみ。公開動画のみアクセス可能

YouTube-Transcript.io のリスク軽減手法:

  1. ベルギー法準拠により米国 DMCA の直接適用を一定回避
  2. 無料プランを非商用制限にすることで商業的著作権侵害リスクを軽減
  3. 公開コンテンツのみに制限(認証回避なし)

4.3 YouTube による法的措置の事例

調査した範囲では、YouTube が字幕検索 / 抽出サービスに対して C&D や訴訟を起こした公知の事例は確認されなかった

関連する重要な事例:

事例概要結果
youtube-dl DMCA2020RIAA が GitHub に対して技術的保護手段の回避を根拠に削除要求EFF の支援でコード復元。GitHub が $100 万の開発者防衛基金を設立
AI 学習データ訴訟2024YouTube 字幕が 17 万本以上の動画から AI 学習に使用Nvidia、Amazon 等に対する集団訴訟が進行中
Clearview AI2020Google / YouTube が顔認識 AI アプリに C&D を送付生体情報という特別なデータが対象

5. リスク評価マトリクス

発生確率 × 影響度

リスク発生確率影響度総合リスク備考
YouTube からの C&D / アカウント停止低〜中競合が 3 年以上運営継続。ただし商業サービスは標的になりやすい
YouTube API キーの無効化低〜中API の正規利用と非公式 API の併用が問題視される可能性
著作権者(動画投稿者)からの DMCA 通知手動字幕の著作権侵害として通知される可能性あり
IP BAN によるサービス停止中〜高非公式 API のスクレイピングが検出された場合
日本の著作権法違反低〜中47 条の 5 の要件を完全に満たさない可能性
不正アクセス禁止法違反認証不要の公開データが対象
DMCA 訴訟(米国ユーザーから)セーフハーバー要件を満たせばリスク軽減可能

リスク分類

           影響度 高

IP BAN │ YouTube C&D
──────────┼──────────────
著作権法 │ DMCA通知
違反 │

影響度 低
発生確率 低 ─────── 発生確率 高

6. リスク軽減策

6.1 利用規約・免責事項の整備

subseek の利用規約に以下を明記する。

項目内容
サービスの性質YouTube 字幕の検索インデックスサービスであり、コンテンツのホスティングサービスではない
データの出所字幕データは YouTube の公開情報から取得している
著作権の帰属字幕の著作権は各動画の著作権者に帰属する
免責事項字幕データの正確性・完全性について保証しない
禁止事項AI 学習目的でのデータ利用、大量のデータ取得・ダウンロード

6.2 チャンネルオーナーからのオプトアウト対応

動画投稿者が自分のチャンネル / 動画のインデックスを拒否できる仕組みを提供する。

対応フロー:

  1. オプトアウト申請を受付(メールまたは専用フォーム)
  2. チャンネル / 動画の所有権を確認(YouTube チャンネルの概要欄にメールアドレスが一致するか等)
  3. 確認後、Meilisearch からインデックスを削除し、channels テーブルにオプトアウトフラグを設定
  4. 以降の差分取得でもオプトアウト済みチャンネルをスキップ

6.3 データ保持期間ポリシー

データ保持期間根拠
字幕テキスト(Meilisearch)無期限(オプトアウト・DMCA 削除を除く)検索サービスの基本データ
動画メタデータ(Turso)無期限(YouTube 削除検出時に deleted に更新)YouTube API ToS の 30 日更新要件を考慮し、定期的にメタデータを更新
ユーザーデータアカウント削除時に即時物理削除GDPR 対応(データ保存戦略 参照)

6.4 検索結果の表示方法

著作権リスクを軽減するため、検索結果の表示を以下のように設計する。

  • 字幕テキストは**スニペット(短い抜粋)**として表示し、全文は表示しない
  • 必ず出典(動画タイトル、チャンネル名、YouTube URL)を明示する
  • YouTube の埋め込みプレイヤーで動画を再生できるようにし、元コンテンツへのトラフィックを促進する

7. DMCA テイクダウン対応フロー

7.1 セーフハーバー条項の要件(DMCA Section 512)

subseek が DMCA セーフハーバーの保護を受けるために必要な要件。

要件対応状況優先度
指定代理人(Designated Agent)の公開・登録未対応
リピート侵害者ポリシーの策定・公開未対応
通知・削除手続きの整備未対応
カウンターノーティフィケーション手続きの整備未対応

7.2 受付窓口

  • メールアドレス: dmca@subseek.app(推奨)
  • 利用規約ページおよびフッターに連絡先を明記する
  • 日本語・英語での対応を想定

7.3 対応フロー

受信 → 確認 → 削除 → 通知 → (カウンターノーティフィケーション)

Step 1: DMCA 通知の受信

著作権者からの通知に以下が含まれていることを確認する。

  1. 著作権者の署名(物理的または電子的)
  2. 侵害されたとする著作物の特定
  3. 削除を求めるコンテンツの特定(URL 等)
  4. 申告者の連絡先情報
  5. 「当該利用が権利者から許諾されていないと善意で信じる」旨の宣言
  6. 情報が正確であり、虚偽の申告は偽証罪の対象となる旨の宣言

Step 2: 通知の有効性確認

  • 上記 6 要素が全て含まれているか確認
  • 不備がある場合は申告者に補完を依頼(この間は「速やかな削除」義務は発生しない)

Step 3: コンテンツの削除

  • 有効な通知を受領後、速やかに(expeditiously)該当コンテンツを削除
  • Meilisearch から該当動画のインデックスを削除
  • Turso の videos.subtitle_statusdeleted に更新

Step 4: 通知

  • コンテンツが削除されたことを申告者に通知
  • 該当動画の投稿者(特定可能な場合)にも DMCA 通知を受けた旨を通知

Step 5: カウンターノーティフィケーション

  • 動画投稿者がコンテンツの復元を求める場合、カウンター通知を提出できる
  • カウンター通知受領後、10〜14 営業日以内にコンテンツを復元
  • この期間中に著作権者が訴訟を提起した場合は復元しない

7.4 リピート侵害者ポリシー

  • 同一チャンネルに対して複数回の有効な DMCA 通知を受けた場合、そのチャンネルの全インデックスを削除し、以降のインデックス作成を永久に停止する
  • ポリシーを利用規約に明記する

参考資料

法律・判例

競合サービス

内部ドキュメント