vLLMのRealtime APIを使用して、リアルタイムで音声をテキストに変換し、アクティブなウィンドウに自動入力するWindows用タスクトレイアプリケーションです。
- リアルタイム文字起こし: 音声をキャプチャし、vLLMサーバー経由で即座にテキスト化します。
- 自動入力: 変換されたテキストを、現在フォーカスがあるアプリケーション(メモ帳、ブラウザ、チャットツールなど)に自動的にタイピングします。
- 常駐型アプリ: タスクトレイに常駐し、作業の邪魔になりません。
- 軽量: .NET Framework 4.8ベースのシンプルなWinFormsアプリケーションです。
- OS: Windows
- ランタイム: .NET Framework 4.8
- サーバー: vLLM
- リポジトリをクローンします。
- NuGetパッケージを復元します。
msbuild /t:restore
- プロジェクトをビルドします。
(または Visual Studio で
msbuild speech_input.slnx
speech_input.slnxを開いてビルドしてください)
Visual Studioでビルドする際、以下のNuGetパッケージを追加することで、依存関係(DLLファイルなど)を実行ファイル(.exe)に同梱し、単一のファイルとして出力することができます。
- Fody
- Costura.Fody
- アプリケーションを起動すると、タスクトレイにアイコンが表示されます。
F13をクリックすると、マイクからの音声入力が始まります。- 話した内容が逐次テキストとして、アクティブなウィンドウに入力されます。
- 再度
F13をクリックすると、音声入力を終了します。 - アプリを終了する場合は 「終了」 を選択してください。
- 音声キャプチャ: NAudio (16kHz, 16-bit, Mono)
- 入力シミュレーション: InputSimulatorPlus
- 通信: WebSocket (System.Net.WebSockets)
- サーバー通信プロトコル: vLLM / OpenAI Realtime API互換
- 音声入力中は、テキストを入力したいウィンドウをアクティブにしておいてください。
- サーバーのURLやモデル名は
speech_input/Form1.cs内の定数で定義されています。必要に応じて変更してください。