“我要買一張去人民廣場吃炸雞的票。”
今日云棲大會上海峰會,現場大屏幕上,一位身著阿里云T恤的美女正在上海地鐵站購票,話音剛落,自動售票機屏幕上就跳出了支付二維碼,從開口、掃碼到取票,整個過程僅耗時十幾秒。
現場觀眾情緒穩定。去年底,上海申通地鐵與阿里巴巴合作時,就曾演示過這項語音購票技術,不久前的云棲大會武漢峰會上,在AI收銀員與真人店員的PK中,機器更是在嘈雜環境下準確識別了用戶的語音點單,在短短49秒內點了34杯咖啡,大家見怪不怪了。
可是演示仍在繼續,這次工作人員沒有報具體站名,而是說“我要去一大會址參觀”,售票機自動匹配了距離最近的黃陂南路站,其余購票步驟一致。現場一片嘩然,上海朋友比較激動,上海是全球首家將人工智能引入城市軌道交通的城市。
無需喚醒詞,在嘈雜環境中也能實現精準交互,還能識別語義。自動售票機和AI收銀員的背后,都有一項叫做語音識別的核心技術,來自阿里巴巴達摩院機器智能實驗室語音識別團隊。他們推出的新一代語音識別模型——DFSMN,不僅被谷歌等國外巨頭在論文中重點引用,更將全球語音識別準確率紀錄提高至96.04%(基于世界最大的免費語音識別數據庫LibriSpeech),剛剛宣布開源。
對比目前業界使用最為廣泛的LSTM模型,DFSMN模型訓練速度更快、識別準確率更高。采用全新DFSMN模型的智能音響或智能家居設備,相比前代技術深度學習訓練速度提到了3倍,語音識別速度提高了2倍。
著名語音識別專家,西北工業大學教授謝磊表示:“阿里此次開源的DFSMN模型,在語音識別準確率上的穩定提升是突破性的。是近年來深度學習在語音識別領域最具代表性的成果之一。對全球學術界和AI技術應用都有巨大影響。”
語音識別是人機交互中的核心技術,在智能音響、智能家居、機器人及自動駕駛等領域都有廣泛應用。
阿里云總裁胡曉明宣布,在上海的創新和嘗試將在全世界推開,“我們希望未來不只是可以買票,還可以通過人臉直接進出地鐵站。”