Skip to content

dai-ichiro/speech_input

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Speech Input (音声入力アプリ)

vLLMのRealtime APIを使用して、リアルタイムで音声をテキストに変換し、アクティブなウィンドウに自動入力するWindows用タスクトレイアプリケーションです。

特徴

  • リアルタイム文字起こし: 音声をキャプチャし、vLLMサーバー経由で即座にテキスト化します。
  • 自動入力: 変換されたテキストを、現在フォーカスがあるアプリケーション(メモ帳、ブラウザ、チャットツールなど)に自動的にタイピングします。
  • 常駐型アプリ: タスクトレイに常駐し、作業の邪魔になりません。
  • 軽量: .NET Framework 4.8ベースのシンプルなWinFormsアプリケーションです。

必要条件

  • OS: Windows
  • ランタイム: .NET Framework 4.8
  • サーバー: vLLM

インストールとビルド

  1. リポジトリをクローンします。
  2. NuGetパッケージを復元します。
    msbuild /t:restore
  3. プロジェクトをビルドします。
    msbuild speech_input.slnx
    (または Visual Studio で speech_input.slnx を開いてビルドしてください)

シングルファイル化

Visual Studioでビルドする際、以下のNuGetパッケージを追加することで、依存関係(DLLファイルなど)を実行ファイル(.exe)に同梱し、単一のファイルとして出力することができます。

  1. Fody
  2. Costura.Fody

使い方

  1. アプリケーションを起動すると、タスクトレイにアイコンが表示されます。
  2. F13 をクリックすると、マイクからの音声入力が始まります。
  3. 話した内容が逐次テキストとして、アクティブなウィンドウに入力されます。
  4. 再度 F13 をクリックすると、音声入力を終了します。
  5. アプリを終了する場合は 「終了」 を選択してください。

技術詳細

  • 音声キャプチャ: NAudio (16kHz, 16-bit, Mono)
  • 入力シミュレーション: InputSimulatorPlus
  • 通信: WebSocket (System.Net.WebSockets)
  • サーバー通信プロトコル: vLLM / OpenAI Realtime API互換

注意事項

  • 音声入力中は、テキストを入力したいウィンドウをアクティブにしておいてください。
  • サーバーのURLやモデル名は speech_input/Form1.cs 内の定数で定義されています。必要に応じて変更してください。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages