初回リリース(v0.1.0)から大幅にアップデートし、字幕の途中表示・翻訳・読み上げ・ノイズキャンセリングなどを追加しました。
⚡ ASR の途中経過をリアルタイム送信
発話が確定するのを待たず、認識中の途中経過をそのまま字幕として送り出せます。配信や VRChat 会話で「話している最中から字幕が更新されていく」表示ができるようになり、テンポを保ちやすくなりました。
発話完了時に全体音声をもう一度ASRにかけ、精度を上げて上書きすることも可能です。
🎁 設定プリセットを追加
用途別の設定を切り替えられる「設定プリセット」を追加しました。「その他」タブから、必要な機能とモデルをまとめて準備できます。
また、自分の現在の設定を複数保存することも可能です。
- 日本語文字起こし シンプル / 日本語文字起こし
- 日→英 翻訳 / 日→英 翻訳読み上げ
- 日英⇔英日 翻訳読み上げ
🎙️ ノイズキャンセリング(NC)を追加
マイク音声のノイズを抑制してから音声認識にかけられるようになりました。キーボード音や空調音のある環境でも認識精度が安定します。設定タブから ON/OFF を切り替え可能です。
🧠 【VAD】文の区切りを認識するモデル(TD)を追加
発話の区切り判定に、AIによる「文として終わったか」判定(Namo Turn Detector)を追加しました。
話している途中の短い間で字幕が分断されにくくなり、文単位でまとまった字幕になります。
🌍 【ASR】自動言語切替(SLI)に対応
「多言語ASRを使い分ける」をONにすると、発話の言語を自動判定して使用する ASR モデルを切り替えられるようになりました(SLI)。日本語と英語が混ざる場面で活用でき、後述の翻訳や読み上げと組み合わせることができます。
🌐 翻訳機能(MT)を追加
ゆかコネNEOの翻訳プラグインを利用して、認識結果を別言語に翻訳できるようになりました。翻訳結果は専用のサイドパネルにリアルタイムに表示されます。
翻訳タイミング: ASR途中で翻訳を始める / 発話が確定してから翻訳する
翻訳マッピング: 「日本語ASRの結果は英語に」「英語ASRの結果は日本語に」など、複数組み合わせで登録可能
🔊 読み上げ機能(TTS)を追加
認識結果や翻訳結果を音声で読み上げる機能を追加しました。読み上げ先はゆかコネNEO(VOICEVOXなど)、またはローカルTTSから選択できます。
ローカルTTSは CPU で動作し、以下のエンジンに対応します。
- Piper voices(英語)
- Supertonic 2(英語・韓国語・スペイン語・ポルトガル語・フランス語)
- Supertonic 3(日本語を含む計23言語)
🔧 その他
- UI(日本語/英語)の文言とレイアウトを全体的に調整しました。
- DLしていないモデルがある際は、スタートボタンがダウンロードボタンになるようにしました。
- ASRの入力前に音量の正規化をするオプションを追加しました。