このリポジトリについて

Youtube で自動生成された英語字幕データを取得して、Nvidia/Nemoの句読点復元モデルと Google Translation API を用いてより高精度な日本語字幕を生成します

Install

Python と Go の実行環境を用意する
Nvidia/Nemoをインストール
GCP でプロジェクトを作成して YouTube Data API を登録する
作成した GCP プロジェクト内で API キーを生成する
ルートディレクトリに.envファイルを生成して、生成した API キーを貼り付ける YOUTUBE_DATA_API_KEY="XXXXXXXXXXXXXXXXXXXXXXXXXXXXX"

和訳したい Youtube 動画の ID を取得します

ID は例えばhttps://www.youtube.com/watch?v=446E-r0rXHI の場合、クエリパラメータの v が ID に相当します

取得した ID を引数に go-youtube-caps-translater を以下のように実行します

./go-youtube-caps-translater 446E-r0rXHI

すると、./captions/446E-r0rXHIディレクトリ内に翻訳後の字幕データであるcaptions_ja.srtファイルが生成されます。

生成した字幕ファイルをブラウザ拡張機能等で読み込むことで Youtube 上で表示できます

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
.vscode		.vscode
__pycache__		__pycache__
.gitignore		.gitignore
Dockerfile		Dockerfile
Punctuation_and_Capitalization_ipynb.ipynb		Punctuation_and_Capitalization_ipynb.ipynb
README.md		README.md
fetch_transcript.py		fetch_transcript.py
go-youtube-caps-translater		go-youtube-caps-translater
go.mod		go.mod
go.sum		go.sum
google.go		google.go
internal.go		internal.go
json.go		json.go
main.go		main.go
playground.py		playground.py
repunc.py		repunc.py
repunc_by_nemo.py		repunc_by_nemo.py
string.go		string.go
time.go		time.go
translate.go		translate.go
url.txt		url.txt
util.go		util.go
youtube.go		youtube.go