We will not respond to PRs or issues that have not been discussed on Discord. Also, Discord is only available in Japanese.
Please read https://github.com/shiguredo/oss/blob/master/README.en.md before use.
利用前に https://github.com/shiguredo/oss をお読みください。
Suzu は WebRTC SFU Sora 専用の音声解析用ゲートウェイです。 Suzu は Sora から送られてくる音声ストリーミングを HTTP/2 経由で受け取り、音声解析サービスに転送し、その解析結果を Sora に送ります。 Sora は Suzu から送られてきた解析結果を、プッシュ API を経由してリアルタイムにクライアントへ通知します。
リアルタイム通話で気軽に音声解析サービスを利用できる仕組みを提供することです。
- Sora から音声データを HTTP/2 経由で受け取り、音声解析サービスへ送信します
- 音声解析サービスの解析結果を HTTP/2 レスポンスで Sora に戻します
- Sora は受け取った解析結果をクライアントへプッシュで送信します
- DataChannel 経由のシグナリング の利用を推奨します
- 音声解析に必要とされる言語コードをクライアントごとに指定できます
- 無限リトライ対応
- mTLS 対応
Suzu を使ってみたい人は USE.md をお読みください。
sequenceDiagram
participant client1 as クライアント1<br>sendrecv
participant client2 as クライアント2<br>recvonly
participant sora as WebRTC SFU Sora
participant suzu as Audio Streaming Gateway Suzu
participant app as アプリケーションサーバー
participant gcp as GCP Speech to Text
note over client1, sora: WebRTC 確立
sora-)client1: "type": "switched"
note over client1, sora: DataChannel 確立
par
client1-)sora: Opus over SRTP
sora-)suzu: Opus over HTTP/2
note over suzu: Opus を Ogg コンテナに詰める
suzu-)gcp: Ogg over HTTP/2
note over gcp: 音声データが十分ではないためまだ解析結果が返せない
and
client1-)sora: Opus over SRTP
sora-)suzu: Opus over HTTP/2
suzu-)gcp: Ogg over HTTP/2
gcp-)suzu: 音声解析結果<br>JSON over HTTP/2
suzu-)sora: 音声解析結果<br>JSON over HTTP/2
sora-)client1: プッシュ通知<br>音声解析結果<br>JSON over DataChannel
end
par
note over client2, sora: WebRTC 確立
sora-)client2: "type": "switched"
note over client2, sora: DataChannel 確立
and
client1-)sora: Opus over SRTP
sora-)suzu: Opus over HTTP/2
suzu-)gcp: Ogg over HTTP/2
gcp-)suzu: 音声解析結果<br>JSON over HTTP/2
suzu-)sora: 音声解析結果<br>JSON over HTTP/2
end
par
sora-)client1: プッシュ通知<br>音声解析結果<br>JSON over DataChannel
and
sora-)client2: プッシュ通知<br>音声解析結果<br>JSON over DataChannel
end
- Amazon Transcribe
- Google Cloud Speech-to-Text
- Google Cloud Media Translation
- Microsoft Azure Speech to Text
- Microsoft Azure Speech Translation
- Deepgram
- AmiVoice Cloud Platform
Copyright 2022-2024, Hiroshi Yoshida (Original Author)
Copyright 2022-2024, Shiguredo Inc.
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
優先実装とは Sora のライセンスを契約頂いているお客様限定で Suzu の実装予定機能を有償にて前倒しで実装することです。
詳細は Discord やメールなどでお気軽にお問い合わせください。
- Google Cloud Speech-to-Text V2 API
- Google Cloud Media Translation
- Microsoft Azure Speech to Text 対応
- Microsoft Azure Speech Translation 対応
- Deepgram 対応
- AmiVoice Cloud Platform 対応
- ウェブフック機能対応
- クライアントごとに接続先サービスを変更できるようになる