仙草奶綠-程式部落格

分享程式代碼相關筆記

目前文章總數：190 篇

最後更新：2025年 07月 26日

0002. 免費的語音翻譯工具-錄音檔轉成中文文字稿

日期：2023年 06月 04日

標籤： AI Whisper Whisper Desktop HuggingFace

摘要：資訊筆記

應用所需：1. Windows作業系統
2. 顯示卡，建議獨立顯卡會用GPU
解決問題：利用免費開源軟體將錄音檔轉成中文文字稿
※此開源為MPL-2.0 license
※如要快速使用參考第一部分，下載以下檔案。
a. 推薦-NLP模型(Mediun)：模型下載
b. Whisper Windows Desktop：主程式下載;

基本介紹：本篇分為3大部分。
第一部分：Whisper Windows Desktop 使用方法
第二部分：效能驗證過程
第三部分：效能結論(建議模型)

第一部分：Whisper Windows Desktop 使用方法

Step 1：下載主程式-1

進入分享此工具的Open Source Github
點擊右邊可以下載當前Release的Windows主程式

Step 2：下載主程式-2

點擊下載WhisperDesktop.zip

Step 3：下載模型

到Hugging Face的whisper.cpp下載NLP(自然語言處理)模型，點我連結
推薦下載ggml-medium.bin ，因為我們翻譯中文，原因可參考第二、第三部分校能分析

Step 4：解壓縮主程式

將Step 2.下載的WhisperDesktop.zip解壓縮
會看到主程式WhisperDesktop.exe

Step 5：模型放到主程式下

並將Step3. 下載的模型放在一起

Step 6：執行主程式

執行WhisperDesktop.exe，然後選擇框起來的地方載入下載的模型 ggml-medium.bin
然後選擇OK

Step 7：翻譯錄音檔

以下依序選擇：
1. 選擇中文語言，Chineses
2. 選擇錄音檔案，我們測試用的是test001.mp3(一個30分鐘的mp3)
3. 輸出文字稿路徑(可設定或不設定)
4. 開始聲音轉文字稿

Step 8：翻譯錄音檔結果

過一段時間會顯示執行結果。30分鐘的錄音檔大約花費3:14轉成文字。
備註：顯卡用 NVIDIA GeForce RTX 2060 12G

Step 9：文字稿內容

這是一個不錯的輔助工具，工具基本上可以讀懂中文
能會議紀錄的基本參考，更近一步可以提交給Notion AI做資料整理。

第二部分：效能驗證過程

Step 1：測試情境說明

使用的獨顯：NVIDIA GeForce RTX 2060 12G
目標是比較以下三個模型：a. 中文準確度 b. 翻譯速度
ggml-large.bin 3.09GB
ggml-medium.bin 1.53GB
ggml-tiny.bin 77.7MB
然後先進行下載

Step 2：ggml-tiny執行

花費時間：02:10

Step 3：ggml-medium執行

花費時間：03:14

Step 4：ggml-large執行

花費時間：07:39

Step 5：三個模型的翻譯內容比較

最左邊是Large模型，中間是Medium模型，最右邊是tiny模型
使用WinMerge比較三個文字內容後
只有Medium完整翻完30分鐘，在Large中會過度解析、在Tiny中分析卻不精確

第三部分：效能結論(建議模型)

Step 1：效能結論

建議目前中文翻譯先使用【Medium模型】是最合適的

	tiny	medium	large
精確度	錯	完整	錯
耗費時間	02:10	03:14	07:39