Visual Sonar

Desctiption

目が不自由な人用の、ビジュアルソナー
カメラで周囲の様子を定期的に撮影
GPT4-Vで、様子を解析
音声合成で、ユーザーに伝える
今後やりたいこと
- アクセシビリティに配慮。音声で操作できるのが理想
- 画像について、音声入力で細かい様子を質問できるようにしたい
- 質問 or 次の撮影にすすむかを、音声で制御(Functin Calling?)

vsonar.htmlをブラウザで表示
[api key]に、OpenAIのAPIキーを指定
- または、vsonar.html?key=xxxxxx とURLのクエリーパラメータに指定してもOK
[Start]ボタンをクリック
- カメラの許可を求められらた、許可する
- カメラの映像が表示される
[Explain in Voice]ボタンをクリック
- 映像から画面を切り抜き
- OpenAIの GPT-4 Vで画面を解析
- TTSで音声に変換、それを再生して画像の説明をする
[Stop]ボタンをクリックすると、カメラの映像が停止

Visual Sonnar

実験ページ

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 67 Commits
audio		audio
extra		extra
img		img
js		js
video		video
.gitignore		.gitignore
README.md		README.md
backcam.html		backcam.html
speech_trial.html		speech_trial.html
touch_test.html		touch_test.html
tts_tool.html		tts_tool.html
vad_example.html		vad_example.html
vad_trial.html		vad_trial.html
vision_trial.html		vision_trial.html
vsonar.html		vsonar.html
vvtrial.html		vvtrial.html