百度的人工智能新產(chǎn)品,是一個計算機速記員
執(zhí)牛耳網(wǎng)編輯Aira 發(fā)表于 2017-03-16 22:05
閱讀數(shù): 13452

百度用人工智能技術(shù)做了新產(chǎn)品。
百度硅谷實驗室(SVAIL)周一上線了網(wǎng)頁應用 SwiftScribe,基本的功能是把音頻資料轉(zhuǎn)錄成文字。在一篇博客文章中,項目主管 Tian Wu 說他們解決了一個重要的“痛點”:消耗大量時間的逐字聽寫轉(zhuǎn)錄。
SwiftScribe 目前還處在內(nèi)測階段,并未開放,不過你可以通過一個演示示例了解它是怎么工作的。SwiftScribe 支持上傳時長 1 個小時以內(nèi)的 wav 或 mp3 文件,目前只接受英文。接下來它需要花點時間生成文字,官方說法是,1 分鐘的錄音需要不到 30 秒、1 小時的錄音需要 20 分鐘左右。
接下來你會在網(wǎng)頁上看到轉(zhuǎn)錄好的文字,但這并不意味著轉(zhuǎn)錄結(jié)束。文本不會區(qū)分大小寫、沒有標點符號,更沒有分段,你需要在文本框中手動編輯,然后再做導出。這個過程也會被百度記錄,就像所有的人工智能學習過程一樣,它用來幫助算法糾正錯誤,提高準確率?! ?/p>

文本框底部有一排工具欄,播放按鈕開啟,一個高亮的標識會跟隨語音標出閱讀的進度,方便你停下來查看這個單詞對應的語音。這個工具欄還有變速、標記的功能。
這個過程就相當于用機器算法取代了速記員、聽寫員的工作?!癝wiftScribe 會在廣泛的領(lǐng)域內(nèi)帶來積極影響,提高生產(chǎn)力,包括醫(yī)療機構(gòu)、法律、商業(yè)和媒體?!盩ian Wu 在博客中說,專業(yè)領(lǐng)域的人工聽寫效率低,1 小時的錄音往往需要花費 4-6 個小時,每分鐘語音的成本在 1 美元,SwiftScribe 能把完成工作的時間平均縮短 40%。
Tian Wu 在接受采訪時表示,他們以后還會增加對視頻文件的語音識別支持,也會添加自動插入標點符號等功能。
語音識別并不是什么新鮮事物,你手機里的各種語音助理比如 Siri、 Cortana 都基于此,用戶關(guān)心的唯一問題可能是到底識別的準確性有多高。
按照 Tian Wu 的介紹,SwiftScribe 基于他們的最新研究成果 Deep Speech 2。2014 年百度的首席科學家吳恩達剛剛?cè)肼毎俣炔痪?,就帶著一個 10 人的團隊開發(fā) Deep Speech,一套語音識別系統(tǒng)。
當時的研究重點在怎么提高嘈雜環(huán)境下的英語語音識別準確率。百度收集了 9600 個人 7000 小時的語音樣本,添加了 15 種噪聲,把樣本擴充到 10 萬小時。吳恩達說這套系統(tǒng)的錯誤率比同期的微軟 Bing Speech、Google Speech API 等競爭對手低 10%。
2015 年,硅谷人工智能實驗室又發(fā)表論文公布了 Deep Speech 2 ,這個系統(tǒng)開始學習漢語,也提高了對不同英語口音識別的能力。
到 2016 年,百度利用 Deep Speech 技術(shù)推出基于 Android 的語音輸入應用 TalkType,強調(diào)輸入法對“語音優(yōu)先”。同一年,Deep Speech 2 還入選了《MIT 評論》評出的“ 2016 年十大突破技術(shù)”,入選的理由是“語音識別技術(shù)讓智能手機變得更易操作”。
可以確定的是,百度之后還會花費更多的精力、更多的錢來支持人工智能的研究,這是李彥宏反復提及的最新故事。
上個月的財報電話會議上,李彥宏說會壓縮百度糯米和百度外賣的補貼和營銷費用、公司的未來在人工智能領(lǐng)域:“人工智能是改變互聯(lián)網(wǎng)和傳統(tǒng)工業(yè)的一個巨大機會?!?/p>
與之對應的是,百度 2016 年的營收漲了 6.3%、凈利潤少了三分之二。這是百度自成立以來,年度凈利潤首次下跌。而百度總收入中,依然有九成以上來自廣告業(yè)務。
0條評論