首頁

目前文章總數:157 篇

  

最後更新:2024年 12月 07日

0002. 免費的語音翻譯工具-錄音檔轉成中文文字稿

日期:2023年 06月 04日

標籤: AI Whisper Whisper Desktop HuggingFace

摘要:資訊筆記


應用所需:1. Windows作業系統
     2. 顯示卡,建議獨立顯卡會用GPU
解決問題:利用免費開源軟體將錄音檔轉成中文文字稿
     ※此開源為MPL-2.0 license
     ※如要快速使用參考第一部分,下載以下檔案。
a. 推薦-NLP模型(Mediun): 模型下載
b. Whisper Windows Desktop:主程式下載;

基本介紹:本篇分為3大部分。
第一部分:Whisper Windows Desktop 使用方法
第二部分:效能驗證過程
第三部分:效能結論(建議模型)






第一部分:Whisper Windows Desktop 使用方法

Step 1:下載主程式-1

進入分享此工具的Open Source Github
點擊右邊可以下載當前Release的Windows主程式

Step 2:下載主程式-2

點擊下載WhisperDesktop.zip

Step 3:下載模型

到Hugging Face的whisper.cpp下載NLP(自然語言處理)模型,點我連結
推薦下載ggml-medium.bin ,因為我們翻譯中文,原因可參考第二、第三部分校能分析

Step 4:解壓縮主程式

將Step 2.下載的WhisperDesktop.zip解壓縮
會看到主程式WhisperDesktop.exe

Step 5:模型放到主程式下

並將Step3. 下載的模型放在一起

Step 6:執行主程式

執行WhisperDesktop.exe,然後選擇框起來的地方載入下載的模型 ggml-medium.bin
然後選擇OK

Step 7:翻譯錄音檔

以下依序選擇:
1. 選擇中文語言,Chineses
2. 選擇錄音檔案,我們測試用的是test001.mp3(一個30分鐘的mp3)
3. 輸出文字稿路徑(可設定或不設定)
4. 開始聲音轉文字稿

Step 8:翻譯錄音檔結果

過一段時間會顯示執行結果。30分鐘的錄音檔大約花費3:14轉成文字。
備註:顯卡用 NVIDIA GeForce RTX 2060 12G

Step 9:文字稿內容

這是一個不錯的輔助工具,工具基本上可以讀懂中文
能會議紀錄的基本參考,更近一步可以提交給Notion AI做資料整理。



第二部分:效能驗證過程

Step 1:測試情境說明

  1. 使用的獨顯:NVIDIA GeForce RTX 2060 12G
  2. 目標是比較以下三個模型:a. 中文準確度 b. 翻譯速度
    ggml-large.bin 3.09GB
    ggml-medium.bin 1.53GB
    ggml-tiny.bin 77.7MB
    然後先進行下載


Step 2:ggml-tiny執行

花費時間:02:10


Step 3:ggml-medium執行

花費時間:03:14


Step 4:ggml-large執行

花費時間:07:39


Step 5:三個模型的翻譯內容比較

最左邊是Large模型,中間是Medium模型,最右邊是tiny模型
使用WinMerge比較三個文字內容後
只有Medium完整翻完30分鐘,在Large中會過度解析、在Tiny中分析卻不精確


第三部分:效能結論(建議模型)

Step 1:效能結論

建議目前中文翻譯先使用【Medium模型】是最合適的

  tiny medium large
精確度 完整
耗費時間 02:10 03:14 07:39