技術的実現性
YouTube チャンネルの動画内で話された言葉を検索し、曖昧検索(表記ゆれ対応)でタイムスタンプ付きリンクを返すサービスの技術調査。
主要コンポーネント
1. 動画一覧の取得
- YouTube Data API v3 でチャンネルの全動画リストを取得
- 1日10,000ユニットのクォータ制限あり
2. 字幕(文字起こし)の取得
- youtube-transcript-plus(TypeScript)で自動生成字幕を取得可能(タイムスタンプ付き)
- YouTube の自動字幕は精度がそこそこだが、ほとんどの動画で利用可能
- 字幕がない動画は Whisper(OpenAI の音声認識)で自前で文字起こしも可能
- YouTube Data API v3 のクォータを消費しない非公式ライブラリ(YouTube の Innertube API を使用するため)
3. 曖昧検索(日本語の表記ゆれ対応)
- pykakasi で漢字→ひらがな/カタカナ変換
- 例:「最高」→「さいこう」
- 長音変換:「さいこう」↔「さいこー」
- 検索語とテキストの両方を正規化して比較