語音轉文字

以往，如果要把一小時的錄音檔轉成文字，手工聽寫的話需要反復前進倒退播放，仔細分辨說話人的聲音，往往需要5個小時以上才能完成轉錄，過程及其艱辛乏味。近年來，由於人工智慧的發展，經過算法提高和超大量數據集的訓練，語音轉文字的準確度和速度跟以前比，已經大幅度提高到非常實用的程度，準確度可以達到90%以上，速度更是人工操作沒法比擬。

自動語音辨識或語音識別 ASR (Automatic Speech Recognition)，旨在將語音用訓練好的模型進行辨識，一般是基於機器學習，通過大量的語音及對應文本數據進行訓練。iPhone 裡的 Siri 就是典型的語音辨識的應用。ASR一般由兩部分組成：聲學模型（Acoustic Model）和語言模型（Language Model）。聲學模型是一個深度神經網絡，接收音頻特徵作為輸入。我們知道聲音實際上是一種波，常見的mp3、ogg、m4a等格式都是壓縮格式，必須轉成非壓縮的純波形檔案來處理，比如 Windows PCM 檔案，也就是俗稱的wav檔。wav檔存儲的就是聲音波形的一個個點。聲音模型把聲波裡的微小片度分析推測成可能的字符。但是同一個聲音，會有不同字符的可能（如 “音” 和 “因”），這時候就需要利用第二部分即語言模型，根據上下文，歷史，頻率統計字符概率,如前一個字是“聲”，那這個字應該就是“音”，如果前一個自是“原”，那這個字更可能是“因”。使用算法根據概率將字符轉化為文本，然後由系統返回。當然具體的過程會比這個複雜得多，為了達到很高的準確度，除了算法更複雜，另外也需要預先對音檔進行一些預處理，如把背景的噪音去除等。

聽起來很複雜，但現在的線上服務已經把錄音檔轉文字的過程做得非常簡單易用，比如 cSubtitle.com 的服務，你只要通過任何網頁瀏覽器，在電腦，手機或者iPad上，線上把音檔（也可以是影片檔）上傳，幾分鐘後您就可以下載轉成的文字檔。網站提供各種格式下載，如TXT，或者Word檔。採用雲端多伺服器同時處理，所以速度飛快，一般一小時錄音檔轉文字只需要10分鐘。

哪怕是人工聽寫語音轉文字，由於說話者的口音及專業詞匯，環境噪音的存在，沒法做到100%完全的準確率，機器自動語音轉文字檔也不能完全準確，一般是稍遜於人工，得到的文本檔需要查看並稍加修改和潤色。但比起直接手工聽寫可以節省90%以上的時間和精力。

對於語音轉文字，英文世界已經有很多成熟的提供商，cSubtitle專注中文語言處理，所以擁有非常高的中文語音辨識準確率。只需上傳影音檔，線上稍候即可下載文字檔，不需要註冊帳號，就如線上轉換檔案格式那般簡單。更非常注重保護用戶隱私，加密連接，機器自動處理，無需賬帳，上傳的影音檔3小時後自動刪除，用戶也可以選擇在轉換完成後立即刪除。立即免費試用自動中文語音檔轉文字檔。

如何快速線上錄音檔轉文字檔

語音轉文字 (Speech to Text) 就是把語音數據（比如會議記錄，課堂錄音，發言，採訪）變成文字，錄音檔轉成文字檔，即逐字稿。

cSubtitle 有用？請推薦和分享

cSubtitle 有用？ 請推薦和分享

cSubtitle 有用？請推薦和分享