Release v0.2.0 · Parakeet-Inc/Parapper-ASR

初回リリース(v0.1.0)から大幅にアップデートし、字幕の途中表示・翻訳・読み上げ・ノイズキャンセリングなどを追加しました。

⚡ ASR の途中経過をリアルタイム送信

発話が確定するのを待たず、認識中の途中経過をそのまま字幕として送り出せます。配信や VRChat 会話で「話している最中から字幕が更新されていく」表示ができるようになり、テンポを保ちやすくなりました。

発話完了時に全体音声をもう一度ASRにかけ、精度を上げて上書きすることも可能です。

用途別の設定を切り替えられる「設定プリセット」を追加しました。「その他」タブから、必要な機能とモデルをまとめて準備できます。
また、自分の現在の設定を複数保存することも可能です。

マイク音声のノイズを抑制してから音声認識にかけられるようになりました。キーボード音や空調音のある環境でも認識精度が安定します。設定タブから ON/OFF を切り替え可能です。

発話の区切り判定に、AIによる「文として終わったか」判定(Namo Turn Detector)を追加しました。
話している途中の短い間で字幕が分断されにくくなり、文単位でまとまった字幕になります。

「多言語ASRを使い分ける」をONにすると、発話の言語を自動判定して使用する ASR モデルを切り替えられるようになりました(SLI)。日本語と英語が混ざる場面で活用でき、後述の翻訳や読み上げと組み合わせることができます。

ゆかコネNEOの翻訳プラグインを利用して、認識結果を別言語に翻訳できるようになりました。翻訳結果は専用のサイドパネルにリアルタイムに表示されます。

翻訳タイミング: ASR途中で翻訳を始める / 発話が確定してから翻訳する
翻訳マッピング: 「日本語ASRの結果は英語に」「英語ASRの結果は日本語に」など、複数組み合わせで登録可能

認識結果や翻訳結果を音声で読み上げる機能を追加しました。読み上げ先はゆかコネNEO(VOICEVOXなど)、またはローカルTTSから選択できます。
ローカルTTSは CPU で動作し、以下のエンジンに対応します。