Speech Input (音声入力アプリ)

vLLMのRealtime APIを使用して、リアルタイムで音声をテキストに変換し、アクティブなウィンドウに自動入力するWindows用タスクトレイアプリケーションです。

特徴

リアルタイム文字起こし: 音声をキャプチャし、vLLMサーバー経由で即座にテキスト化します。
自動入力: 変換されたテキストを、現在フォーカスがあるアプリケーション（メモ帳、ブラウザ、チャットツールなど）に自動的にタイピングします。
常駐型アプリ: タスクトレイに常駐し、作業の邪魔になりません。
軽量: .NET Framework 4.8ベースのシンプルなWinFormsアプリケーションです。

必要条件

OS: Windows
ランタイム: .NET Framework 4.8
サーバー: vLLM

インストールとビルド

リポジトリをクローンします。
NuGetパッケージを復元します。
```
msbuild /t:restore
```
プロジェクトをビルドします。
```
msbuild speech_input.slnx
```
(または Visual Studio で speech_input.slnx を開いてビルドしてください)

シングルファイル化

Visual Studioでビルドする際、以下のNuGetパッケージを追加することで、依存関係（DLLファイルなど）を実行ファイル（.exe）に同梱し、単一のファイルとして出力することができます。

Fody
Costura.Fody

使い方

アプリケーションを起動すると、タスクトレイにアイコンが表示されます。
F13 をクリックすると、マイクからの音声入力が始まります。
話した内容が逐次テキストとして、アクティブなウィンドウに入力されます。
再度 F13 をクリックすると、音声入力を終了します。
アプリを終了する場合は 「終了」 を選択してください。

技術詳細

音声キャプチャ: NAudio (16kHz, 16-bit, Mono)
入力シミュレーション: InputSimulatorPlus
通信: WebSocket (System.Net.WebSockets)
サーバー通信プロトコル: vLLM / OpenAI Realtime API互換

注意事項

音声入力中は、テキストを入力したいウィンドウをアクティブにしておいてください。
サーバーのURLやモデル名は speech_input/Form1.cs 内の定数で定義されています。必要に応じて変更してください。

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
speech_input		speech_input
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
speech_input.slnx		speech_input.slnx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Speech Input (音声入力アプリ)

特徴

必要条件

インストールとビルド

シングルファイル化

使い方

技術詳細

注意事項

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Speech Input (音声入力アプリ)

特徴

必要条件

インストールとビルド

シングルファイル化

使い方

技術詳細

注意事項

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages