title | slug | date | authors | GA | tags | |
---|---|---|---|---|---|---|
使用 Whisper 離線完成聲音轉文字 |
使用 Whisper 離線完成聲音轉文字 |
2023-12-17T20:00 |
Willis |
G-CH7FZ71WRC |
|
Whisper 是一個高效能的聲音轉文字工具,由 Const-me 開發,基於 OpenAI 的 Whisper 自動語音識別(ASR)模型。這個工具主要是針對 Windows 平台開發,提供了一個高效且易於使用的介面來處理語音識別任務,重點是可以離線使用、速度快,專案網址為 https://github.com/Const-me/Whisper ,以下介紹如何安裝與使用。
-
下載和安裝:從 GitHub 存儲庫的“Releases”部分下載
WhisperDesktop.zip
,解壓縮,並運行WhisperDesktop.exe
。 -
選擇模型:解壓縮啟動主程式(一個小花圖案),系統會提示您下載一個模型。建議下載
ggml-medium.bin
(大小為1.42GB),因為這是作者最常用於測試的模型。 -
轉寫音頻文件:接下來的介面允許您選擇要轉寫的音頻文件。 中文可能是繁體或簡體。WebVTT subtitles檔案可以上傳至Youtube影片字幕(有時間軸),視需要選用。
-
即時轉譯:此外,還有一個介面可以捕獲並轉寫或翻譯來自麥克風的即時音訊。
- 廣泛的兼容性:基於 DirectCompute 技術,支持各種供應商的 GPU。
- 效能優化:相較於 OpenAI 的實現,經過 C++ 編譯後的 Whisper 在轉寫速度上有明顯的提升。
- 多格式音頻支持:支持大多數音頻和視訊格式,以及大部分在 Windows 上工作的音頻捕獲設備。
- 低內存使用:相比於其他方案,使用的記憶體更少。
- 平台支持:僅支持64位的 Windows 系統。理論上應該在 Windows 8.1 或更新的版本上運行,但開發者僅在 Windows 10 上進行了測試。
- 硬體要求:需要一個支持 Direct3D 11.0 的 GPU,以及支持 AVX1 和 F16C 的 CPU。
這個開源專案速度快、離線可用,而且對於隱私資料而言相對安全,可以幫助完成會議紀錄等任務,即便有錯誤也瑕不掩瑜,分享給有需要的各位。