
蘋果 Siri 折戟,但越來越多的「AI Siri」拿到了融資。
過去半年,「AI 語音」賽道正密集地獲得融資。尤其引人注目的是,這些融資多為大額,并且投向早期團隊。
比如,前不久 AI 語音應(yīng)用 Wispr Flow 靠「默念輸入」,完成了 3000 萬美元的 A 輪融資,累計融資額已達 5600 萬美元;語音模型公司 Cartesia 在 3 月份完成了 6400 萬美元的 A 輪融資,累計融資 9100 萬美元;AI 語音合成公司 ElevenLabs 更是在 1 月份宣布完成 1.8 億美元的 C 輪融資,估值超過 30 億美元。
與此同時,無論是 Meta、OpenAI、Google 等科技巨頭,還是 MiniMax 等創(chuàng)業(yè)公司,都在密集發(fā)布自己的語音模型或語音產(chǎn)品。Siri 也被曝出或?qū)⒈?ChatGPT 或 Claude 等模型接管,來跟上語音交互的進展。
這些消息無一例外都指向了 AI 語音的火爆。
為什么過去半年多以來,AI 語音領(lǐng)域會如此集中地爆發(fā)?
聲智副總裁黃赟賀認為,語音對話從一個 App 中的功能模塊,迅速進化為 AI 時代入口級別的存在,與大模型的加持有極大關(guān)系。
在智能音箱紅極一時的年代,大部分我們熟知的智能音箱品牌都搭載了聲智的遠場聲學(xué)交互技術(shù),比如小愛同學(xué)、天貓精靈、小度音箱等等。而「小愛小愛」的喚醒詞,實際上也是來自于聲智。
這家公司創(chuàng)辦于 2016 年,一直在聲學(xué)+ AI 交叉領(lǐng)域探索。然而,作為一家在幕后提供 AI 聲學(xué)技術(shù)的公司,在大模型浪潮來臨之后,果斷選擇下場投身開發(fā)自己的 C 端產(chǎn)品。毫無疑問,他們看到了這波「大模型+語音」浪潮里新的商業(yè)機會,其旗下的 AI 耳機目前出貨量已接近 100 萬套。
前不久,極客公園與聲智副總裁黃赟賀聊了聊AI語音市場的爆發(fā)邏輯、語音交互的「卡點」,以及它將如何影響我們的未來。
以下內(nèi)容根據(jù)黃赟賀的講述和聲智的論文整理而成:
AI 語音的想象力,已經(jīng)遠在 Siri 之上|圖片來源:網(wǎng)絡(luò)
AI 語音為何現(xiàn)在爆發(fā)了?
最近兩年,越來越多的 AI 語音初創(chuàng)團隊獲得大額融資,集中爆發(fā)。
其中,一個很重要的推動因素是,大模型讓聲音這項基礎(chǔ)能力首次實現(xiàn)了「可編程化」。
「可編程化」這個詞,意味著將一種能力或者一個對象,通過清晰的接口和邏輯,變得可以被代碼自由地調(diào)用、組合、修改和控制。過去,文字是可編程的,圖像是可編程的,甚至視頻也是可編程的(比如視頻編輯軟件)。
但聲音更多的是一種「輸入」或「輸出」的介質(zhì),其內(nèi)部的復(fù)雜結(jié)構(gòu)和信息,很難被軟件直接「編程」和「理解」。
傳統(tǒng)的語音識別,更多是把聲音轉(zhuǎn)換成文字,然后對文字進行處理。
比如,之前在深圳、成都有很多做聲音標注的團隊,拿到語音之后,再人工轉(zhuǎn)換成文字,打上不同的標簽,比如各種特征、意向的標簽。
大模型來了之后,打標簽的這項工作可以交給大模型,它比大量的人工團隊標得快和準。
以前做 NLP 的背后都是一堆苦逼的運營在那里打標簽,讓 AI 系統(tǒng)能夠識別每個句子的意向。過去,語音的開發(fā),每增加一個功能,都需要從頭寫代碼,費時費力。比如,想讓智能音箱支持「點外賣」,得單獨開發(fā)一套語音識別和語義邏輯,成本高、周期長。
而現(xiàn)在 AI 大模型可以解決了。
更重要的,依靠大模型對多模態(tài)數(shù)據(jù)的深度理解能力,對聲學(xué)信號的更細致解析,使得聲音本身攜帶的除了文字信息之外的更多信息,開始被 AI 系統(tǒng)直接捕捉、理解和「編程」。
這種可編程化,意味著 AI 可以像處理數(shù)據(jù)一樣處理聲音。它可以分析聲音的頻率、振幅、波形,提取出情緒特征、識別不同的聲源、聲源距離、甚至預(yù)測你的意圖。
這時,聲音包含的不再僅僅是「你說了什么」,更是「你如何說」、「你在哪里說」、「誰在說」以及「你說了之后希望發(fā)生什么」。
由此,聲音也成為了真正的交互引擎。
真正的語音交互,不是「Voice」而是「Sound」
其實,很多人以為,語音交互就是「Voice」(語音)。但其實 Voice 這個詞是一個狹窄概念。真正的語音交互,核心不是「Voice」,而是「Sound」(聲音)。Sound 里面包含了 Voice。
具體來說,「Sound」包含了更豐富的元素:語調(diào)、音色、節(jié)奏、情緒,更重要的是環(huán)境音。環(huán)境音里面可能包含了環(huán)境中的各種非語音信息,比如背景音樂、環(huán)境噪音(風(fēng)聲、雨聲、車聲)、物體發(fā)出的聲音(開門聲、打字聲)、以及人類語音中包含的非語義信息(語調(diào)、語速、音色、語氣詞、嘆息聲、笑聲、哭聲等)。
比如說,你咳嗽的時候,跟 AI 說話,它可能會識別出咳嗽,然后跟你說多喝水;比如,你在咖啡館說,「幫我找個安靜的地方」,AI 不僅要理解你的指令,還要從背景音中判斷出你當(dāng)前的環(huán)境嘈雜,從而推薦附近的圖書館。
當(dāng)我說「下一代對話交互的入口并非『Voice』,而是『Sound』」時,我指的是 AI 系統(tǒng)將不再僅僅依賴于識別你說的「詞」,而是能夠全面感知和理解你所處環(huán)境的「聲學(xué)場景」中的所有關(guān)鍵元素。
只有當(dāng) AI 能夠全面感知并解析「Sound」中包含的這些多維度信息時,它才能真正理解用戶的深層需求,提供更精準、更個性化、更富有情感的交互。這才是真正的「語音交互」,它不僅僅是「聽懂」字面意思,更是「聽懂」你的「言外之意」和「心聲」。
語音交互的「卡點」,大廠燒錢也沒用
盡管大模型帶來了語音交互的巨大飛躍,但語音交互當(dāng)下依然存在一個核心的「卡點」,而這個卡點根植于物理學(xué),具體來說,就是聲學(xué)。
我們常說「聽清、聽懂、會說」?!嘎牰购汀笗f」的能力,正在被大模型以前所未有的速度提升。但「聽清」這個最基礎(chǔ)的環(huán)節(jié),卻受到物理層面的制約。如果 AI 聽不清你的指令,即便它能「聽懂」再復(fù)雜的語義,能「會說」再動聽的話語,那也都是空中樓閣。
比如說當(dāng)下最熱門的具身智能,現(xiàn)在很多機器人都是電驅(qū)動的,那么它帶來幾個大問題,一方面是電路的噪聲本身就很大,另一方面是關(guān)節(jié)噪聲,還有就是很多機器人是金屬材質(zhì),厚厚的,聲音在穿透時會大幅衰減。
所以,機器人動起來的時候,噪聲很大,尤其在室外,更難聽清楚人的指令。要么大聲喊,或者拿麥克風(fēng)喊。因此,現(xiàn)在很多機器人都要靠遙控器來控制。
當(dāng)下最先進的具身智能機器人仍然依賴于遙控器來操控|圖片來源:網(wǎng)絡(luò)
這方面,其實就需要對聲學(xué)層面的突破,比如說環(huán)境噪聲的抑制,比如電路底噪的抑制,還有嘯叫的抑制、混響回響的抑制等等。
而這些就是物理學(xué)科的邏輯,它需要數(shù)據(jù)樣本,需要 know how 的壁壘,不僅是技術(shù)問題,而是時間的問題,需要時間去采集聲音、做訓(xùn)練。
這不是燒錢能解決的。
讓 AI 準確地「聽清」用戶的指令,依然是一個世界級的難題。而聲學(xué)相關(guān)的人才很少,所以像谷歌、微軟、蘋果經(jīng)常會收購聲學(xué)技術(shù)的初創(chuàng)公司,幾乎只要出來一家就會收購他們。
大家都明白,要構(gòu)建真正的下一代人機交互系統(tǒng),擁有核心的聲學(xué)能力是基石。
語音交互的下一站,是實現(xiàn)「共情」
現(xiàn)在很多 AI 應(yīng)用的日活、留存不高,有個很大的原因就是普通人本身是不會提問的,讓人向大模型提問,這本身就是一個非常高的交互門檻。
好的提問還需要學(xué)識、表達等基礎(chǔ),所以停留在文字層面的問答,本身就是一種門檻限制。
而語音帶來的一種可能性是,它正在開啟一個全新的階段——人機交互的「共情模式」。
如果把語音交互比作一個「UI 界面」,那這個界面會長什么樣?我們可以做個推演,它的構(gòu)成要素可能會有:
情緒識別:AI 通過分析語調(diào)、音量、語速,判斷用戶的情感狀態(tài)。比如,你的聲音顫抖,AI 可能推測你在緊張或傷心。
意圖理解:不僅聽懂你說了什么,還要明白你想做什么。比如,你說「播放音樂」,AI 會根據(jù)你的情緒,決定是放搖滾還是古典。
聲紋識別:通過獨一無二的音聲波特征,區(qū)分不同用戶。比如,家里的智能音箱能自動切換到「孩子模式」模式,只為孩子的聲音提供安全的回應(yīng)。
情緒生成:AI 的回應(yīng)需要帶有情感化的表達。比如,用溫暖的語氣說「別擔(dān)心,我來幫你解決」,而不是機械的「好的,正在處理」。
這些要素的背后,是 AI 從「功能導(dǎo)向」到「情感導(dǎo)向」的轉(zhuǎn)變,AI 會與人實現(xiàn)共情。這種交互,能顯著提升長時間交互的質(zhì)量和親密感。
不僅如此,從狹義的「Voice」拓展到廣義的「Sound」,當(dāng) AI 能接收到的不僅僅是用戶的指令,而是整個物理世界的實時反饋時,我們可以去構(gòu)建一個「聲學(xué)世界模型」。
這個「聲學(xué)世界模型」可以理解聲音在物理世界中產(chǎn)生、傳播和交互的根本規(guī)律,它不僅要「聽清」和「聽懂」,更要具備「聲學(xué)常識」和「聲學(xué)推理」的能力:它能從一聲悶響中分辨出是書本落地還是箱子倒塌;能通過回聲判斷出房間的大小與空曠程度;更能理解「腳步聲由遠及近」背后所蘊含的物理運動邏輯。
未來,當(dāng)這樣一個聲學(xué)世界模型與視覺、語言大模型深度融合時,具身智能機器人將不再「失聰」和冰冷。這也是我們正在做的。