使用 Whisper 離線完成聲音轉文字

簡介

Whisper 是一個高效能的聲音轉文字工具，由 Const-me 開發，基於 OpenAI 的 Whisper 自動語音識別（ASR）模型。這個工具主要是針對 Windows 平台開發，提供了一個高效且易於使用的介面來處理語音識別任務，重點是可以離線使用、速度快，專案網址為 https://github.com/Const-me/Whisper ，以下介紹如何安裝與使用。

快速開始指南

下載和安裝：從 GitHub 存儲庫的“Releases”部分下載 WhisperDesktop.zip，解壓縮，並運行 WhisperDesktop.exe。
選擇模型：解壓縮啟動主程式(一個小花圖案)，系統會提示您下載一個模型。建議下載 ggml-medium.bin（大小為1.42GB），因為這是作者最常用於測試的模型。
轉寫音頻文件：接下來的介面允許您選擇要轉寫的音頻文件。中文可能是繁體或簡體。WebVTT subtitles檔案可以上傳至Youtube影片字幕(有時間軸)，視需要選用。
即時轉譯：此外，還有一個介面可以捕獲並轉寫或翻譯來自麥克風的即時音訊。

主要特點

廣泛的兼容性：基於 DirectCompute 技術，支持各種供應商的 GPU。
效能優化：相較於 OpenAI 的實現，經過 C++ 編譯後的 Whisper 在轉寫速度上有明顯的提升。
多格式音頻支持：支持大多數音頻和視訊格式，以及大部分在 Windows 上工作的音頻捕獲設備。
低內存使用：相比於其他方案，使用的記憶體更少。

系統要求

平台支持：僅支持64位的 Windows 系統。理論上應該在 Windows 8.1 或更新的版本上運行，但開發者僅在 Windows 10 上進行了測試。
硬體要求：需要一個支持 Direct3D 11.0 的 GPU，以及支持 AVX1 和 F16C 的 CPU。

結語

這個開源專案速度快、離線可用，而且對於隱私資料而言相對安全，可以幫助完成會議紀錄等任務，即便有錯誤也瑕不掩瑜，分享給有需要的各位。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2023-12-17-Whisper.md

2023-12-17-Whisper.md

使用 Whisper 離線完成聲音轉文字

簡介

快速開始指南

主要特點

系統要求

結語

Files

2023-12-17-Whisper.md

Latest commit

History

2023-12-17-Whisper.md

File metadata and controls

使用 Whisper 離線完成聲音轉文字

簡介

快速開始指南

主要特點

系統要求

結語