眾所周知,語音識別屬于人工智能學科的模式識別研究范疇。那么語音識別的發(fā)展現(xiàn)狀和未來發(fā)展前景和方向是什么呢?
語音識別的發(fā)展現(xiàn)狀。
簡單的語音識別,近年來最大的變化是從hybrid到端到端。如果kaldi將各大公司的語音識別速度提高了10年,端到端進一步降低了學習識別算法的門檻。據(jù)我所知,目前很多性能都被端到端模型刷了(詳見espnet論文和github目錄)。但是,如果應用于企業(yè)端,一些公司仍然堅持hybrid的位置。另一方面,這一領域也強烈依賴數(shù)據(jù)。大公司的識別api都是用10萬級語音訓練的,所以作為初創(chuàng)公司,很容易因為數(shù)據(jù)問題而卷死。
語音識別的發(fā)展前景。
作為人機交互的橋梁,對著陸有著強烈的需求,這是各大公司所需要的。但最近國家戰(zhàn)略不太重視(畢竟天天吹超過人的轉(zhuǎn)寫能力,還有什么好研究的)。除非你能進入一個小圈子,否則建議轉(zhuǎn)到其他地方。
語音識別的發(fā)展方向。
1、端到端,特別是基于transformer的解碼速度、內(nèi)存占用、在線和離線性能差距,時間對齊仍需解決。
2、小資源,在有預訓練模型的情況下,能否像語言模型一樣快速自適應小語種數(shù)據(jù)集。
3、多語種聯(lián)合建模,尤其是中英混合語音。
4、更快的適應當前場景環(huán)境,滿足場景智能需求。
5、智能識別回話場景,智能回復語言所表達需求。
成都融和實業(yè)排隊叫號系統(tǒng)廠家(yuanshangpin.cn)是一家集研發(fā)、生產(chǎn)、營銷、服務于一體的高新技術企業(yè).主營智能填單系統(tǒng)、智能查詢系統(tǒng)、智能排隊叫號系統(tǒng)、醫(yī)院分診系統(tǒng)、排隊機、叫號機、評價器(好差評系統(tǒng))、呼叫器、多媒體查詢及信息發(fā)布配套系統(tǒng)等,公司產(chǎn)品已廣泛應用于不動產(chǎn)登記、智慧醫(yī)療、智慧稅務、智慧政務、智慧金融、智慧通訊、智慧服務大廳、智慧機關單位等服務窗口行業(yè).咨詢電話:028-87438905。
標簽:智能語音,語音識別,智能識別