Faster Whisper サーバー

faster-whisper とは、 OpenAI の音声認識モデルWhisperを高速化したものです。 GPUを使えば、精度が高いのにもかかわらずリアルタイム音声認識ができる便利なものです。

これとDeepL(AI翻訳)を組み合わせてリアルタイム翻訳機を作ったら非常に便利だったので公開します。

クライアント側は、javascriptで作っており、音声の切れ目を検出してサーバに音声データを送信して、認識結果と翻訳結果を表示します。

Youtube：https://www.youtube.com/watch?v=Z9dHLUZvD1E

サーバー起動方法

python websocket_server.py

CUDAのセットアップとGPUのVRAMが5GBくらい必要です。クライアントと同じコンピュータで実行すること。(localhost接続しかためしてない)

設定

settings.pyにDeepLのAPIキーを設定してください。翻訳先の言語も指定できます。

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
DEEPL_API_KEY = "DeepL API Key"  # DeepL API key
TRANSLATION_TARGET_LANGUAGE = "JA"  # 翻訳先の言語コード（例：'en', 'ja', 'es'）
TRANSLATION_SOURCE_LANGUAGE = "EN"  # 翻訳先の言語コード（例：'en', 'ja', 'es'）

実行方法

ウェブブラウザで**/client/index.html**を開く。接続先がlocalhost固定になっているので、サーバと同じコンピュータで実行すること。サーバーに接続できたら、マイクの音を自動でどんどん翻訳していってくれます。

Start Level以上の音量になったら録音して、Stop Level以下の音量になってSilent Detection(ミリ秒)経過したら、音声が途切れたと判断して、認識＆翻訳にデータを流します。ボリュームレベルを見ながら設定を変えてみてください。

StartRecordingボタン

最初の１回押して、権限の許可をしたら、音声を認識したら自動で翻訳を続けます。

StopRecordingボタン

一旦、音声を区切って認識＆翻訳をかけたいときに押してください

Volume Level

現在のマイクの入力レベル

Start Level

これ以上の音量になったら自動で録音を開始します。

Stop Level

これ以下の音量になったら自動で録音を停止し認識をはじめます。

Clearボタン

履歴の消去

Saveボタン

翻訳結果のテキストをダウンロード

ライセンス

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
assets		assets
client		client
README.md		README.md
README_EN.md		README_EN.md
requirements.txt		requirements.txt
settings.py		settings.py
speech_recognizer.py		speech_recognizer.py
translator.py		translator.py
websocket_server.py		websocket_server.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Faster Whisper サーバー

サーバー起動方法

設定

実行方法

StartRecordingボタン

StopRecordingボタン

Volume Level

Start Level

Stop Level

Clearボタン

Saveボタン

ライセンス

About

Releases

Packages

Languages

takatronix/faster_whisper_server

Folders and files

Latest commit

History

Repository files navigation

Faster Whisper サーバー

サーバー起動方法

設定

実行方法

StartRecordingボタン

StopRecordingボタン

Volume Level

Start Level

Stop Level

Clearボタン

Saveボタン

ライセンス

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages