GitNation のTalk動画の文字起こしを取得できないかを調べた。
自分でブラウザの開発者ツールを開いてページを解析してみるが、上手い方法が見つからない。
これは難しいか?と感じながらも、Codex Appのブラウザである動画ページを開いた。 「このページの文字起こしを取得する方法を考えて」と指示を出したところ、ページ HTML の中に Vimeo の埋め込み URL があることを発見してくれた。
そこからはCodexの提案に乗り、yt-dlpを使うことで字幕を取得することができた。
(yt-dlpは便利なことにYoutube以外のプラットフォームもサポートしている)
スクリプトはtools に gitnation-subs.py として置いた。
手元に uv が入っていれば、uv run で URL から直接実行できる。
uv run https://kj-9.github.io/tools/python/gitnation-subs.py --help
字幕一覧だけ確認する場合。
uv run https://kj-9.github.io/tools/python/gitnation-subs.py \
--list \
'<GitNation page URL>'
英語字幕を保存する場合。
uv run https://kj-9.github.io/tools/python/gitnation-subs.py \
-l en \
-P ~/Downloads \
'<GitNation page URL>'