ADD SileroVAD #1144

kyakuno · 2023-05-28T10:37:52Z

kyakuno · 2023-05-28T10:41:09Z

voice activity detection。webrtc vadよりも高性能らしい。
openai/whisper#29

kyakuno · 2023-06-02T12:22:26Z

リポジトリにONNXファイルが含まれている。

kyakuno · 2023-06-03T13:10:59Z

SileroVADの処理フロー

入力された音声をモノラルの16kHzに変換
PCMのレンジは+-1.0

waveを1536サンプルごとのチャンクに分割
onnxのinputにpcm、hとcにステート、srにサンプリングレートを入力
推論結果はspeech_prob, h, c

speech_probはchunkの無音でない確率が入る
hとcはステートとして次のチャンクに供給する

hとcのステートは初期値0、(2, batch, 64)次元

kyakuno · 2023-06-03T13:14:21Z

get_speech_timestampsでは、threshold = 0.5以上で無音でないと判定している。
250ms以上、有音区間が続いた場合は有音としている。
100ms以上、無音区間が続いた場合は無音としている。

kyakuno added the high priority label May 28, 2023

kyakuno self-assigned this Jun 3, 2023

kyakuno mentioned this issue Jun 3, 2023

Added silero-vad #1152

Merged

kyakuno mentioned this issue Jun 12, 2023

ADD SileroVAD axinc-ai/ailia-models-cpp#19

Closed

kyakuno closed this as completed Aug 3, 2023

Provide feedback