full_logo_low.MP4
Using OpenAI Transcriptions(Whisper), Style-Bert-VITS2, Anthropic Claude 3 Opus.
Multiple speakers & Real-Time Voice Conversation.
WARNING: This repository does not contain character images, LLM and Audio Model Data.
Work In Progress
Uchinoko Studio is a web application designed to facilitate real-time voice conversations with AI. This is achieved by integrating various Large Language Models (LLMs), including Speech-To-Text LLMs like Whisper, Chat-based LLMs such as GPT-4, and Text-To-Speech LLMs like Bert-Vits2.
Uchinoko
is a Japanese word that means Waifu / My Daughter
.
See Article(Japanese Only): https://blog.potproject.net/2023/12/24/ai-web-uchinoko-studio/
- Real-time Voice Conversation
- Multiple speakers (Experimental)
- Fast Response(Maybe 1 second or less)
- Tailscale Support
- Run on Browser(Google Chrome Supported)
- Japanese Support(for now...)
- Chat-based LLM Support: OpenAI GPT(Cloud Only)、Anthropic Claude、Cohere Command(Cloud Only)、Local LLM(OpenAI
/v1/chat/completions
Compatible) - STT LLM Support: Whisper(Cloud Only)
- TTS LLM Support: Bert-Vits2, Style-Bert-VITS2, VOICEVOX
- More bugs...
TODO: 環境不要で動作できるパッケージを配布することを予定しています。現在は以下の環境での動作が必要です。
- Go (Tested on 1.22.2/win-amd64)
- Node.js (Tested on 20.11.1/win-amd64)
- pnpm
- (When using) OpenAI
/v1/chat/completions
Compatible Local LLM (Tested on LM Studio - Llama 3 8B)
.env.exampleを参考にserver/.env
を作成し
てください。
-
OPENAI_API_KEY
は動作に必須です。設定してください。 -
ANTHROPIC_API_KEY
、COHERE_API_KEY
、VOICEVOX_ENDPOINT
、BERTVITS2_ENDPOINT
、STYLEBERTVIT2_ENDPOINT
は使用するのであれば設定してください。 -
OPENAI_LOCAL_API_KEY
およびOPENAI_LOCAL_API_ENDPOINT
はOpenAI互換エンドポイントを利用したローカルLLMを使用する場合に設定してください。
このアプリケーションを使用する場合、以下のソフトウェアをローカルまたはネットワーク上で動作させておくことが前提です。
- VOICEVOXの場合:
VOICEVOX_ENDPOINT
にVOICEVOX Engine APIのエンドポイントを設定してください。 - BERTVITS2の場合:
BERTVITS2_ENDPOINT
にBert-VITS2 FastAPIのエンドポイントを設定してください。また、先にモデルのロードを行っていないと動作しません。 - STYLEBERTVIT2の場合:
STYLEBERTVIT2_ENDPOINT
にStyle-Bert-VITS2 API Serverのエンドポイントを設定してください。モデルのロードは自動で行ってくれるため不要です。Bert-VITS2のAPIとの互換性はありません。
- Tailscaleを使用する場合、起動時にコンソールより認証URLが表示されるので、そこから認証を行ってください。Tailscaleのアカウントが必要です。
TAILSCALE_ENABLED
をtrue
に設定すると、Tailscaleを使用してVPN上からアクセスできるようになります。- これにより、自宅で起動して外からhttps通信で無いと動作しないSafariやiOSからもアクセスできるようになります。
TAILSCALE_FUNNEL_ENABLED
をtrue
に設定すると、 Tailscale Funnel機能を使用してパブリックアクセスできるようになります。何のことかわからなければ変更しないでください。
## Easy Start (Windows)
run-win.bat
## Easy Start (Linux/mac)
run.sh
# Install Dependencies
cd front
pnpm install
pnpm build
# Running
cd ../server
go run main.go
# 自動でブラウザが立ち上がります。
# 立ち上がらない場合は、http://localhost:15000/ にアクセスしてください。
# 話者(チャットプロンプト/使用するモデルの設定)などは、ブラウザより設定が可能です
- Docs
- Frontend Design issue
- Mobile Browser Support(iOS Safari, Android Chrome)
- Add Multilingual Support(EN and CH)
- Fix Bugs...