以往,如果要把一小時的錄音檔轉成文字,手工聽寫的話需要反復前進倒退播放,仔細分辨說話人的聲音,往往需要5個小時以上才能完成轉錄,過程及其艱辛乏味。近年來,由於人工智慧的發展,經過算法提高和超大量數據集的訓練,語音轉文字的準確度和速度跟以前比,已經大幅度提高到非常實用的程度,準確度可以達到90%以上,速度更是人工操作沒法比擬。

自動語音辨識或語音識別 ASR (Automatic Speech Recognition),旨在將語音用訓練好的模型進行辨識,一般是基於機器學習,通過大量的語音及對應文本數據進行訓練。iPhone 裡的 Siri 就是典型的語音辨識的應用。ASR一般由兩部分組成:聲學模型(Acoustic Model)和語言模型(Language Model)。聲學模型是一個深度神經網絡,接收音頻特徵作為輸入。我們知道聲音實際上是一種波,常見的mp3、ogg、m4a等格式都是壓縮格式,必須轉成非壓縮的純波形檔案來處理,比如 Windows PCM 檔案,也就是俗稱的wav檔。wav檔存儲的就是聲音波形的一個個點。聲音模型把聲波裡的微小片度分析推測成可能的字符。但是同一個聲音,會有不同字符的可能(如 “音” 和 “因”),這時候就需要利用第二部分即語言模型,根據上下文,歷史,頻率統計字符概率,如前一個字是“聲”,那這個字應該就是“音”,如果前一個自是“原”,那這個字更可能是“因”。使用算法根據概率將字符轉化為文本,然後由系統返回。當然具體的過程會比這個複雜得多,為了達到很高的準確度,除了算法更複雜,另外也需要預先對音檔進行一些預處理,如把背景的噪音去除等。

聽起來很複雜,但現在的線上服務已經把錄音檔轉文字的過程做得非常簡單易用,比如 cSubtitle.com 的服務,你只要通過任何網頁瀏覽器,在電腦,手機或者iPad上,線上把音檔(也可以是影片檔)上傳,幾分鐘後您就可以下載轉成的文字檔。網站提供各種格式下載,如TXT,或者Word檔。採用雲端多伺服器同時處理,所以速度飛快,一般一小時錄音檔轉文字只需要10分鐘。

哪怕是人工聽寫語音轉文字,由於說話者的口音及專業詞匯,環境噪音的存在,沒法做到100%完全的準確率,機器自動語音轉文字檔也不能完全準確,一般是稍遜於人工,得到的文本檔需要查看並稍加修改和潤色。但比起直接手工聽寫可以節省90%以上的時間和精力。

對於語音轉文字,英文世界已經有很多成熟的提供商,cSubtitle專注中文語言處理,所以擁有非常高的中文語音辨識準確率。只需上傳影音檔,線上稍候即可下載文字檔,不需要註冊帳號,就如線上轉換檔案格式那般簡單。更非常注重保護用戶隱私,加密連接,機器自動處理,無需賬帳,上傳的影音檔3小時後自動刪除,用戶也可以選擇在轉換完成後立即刪除。立即免費試用自動中文語音檔轉文字檔