您好!歡迎登錄水木春錦資本管理有限公司官方網(wǎng)站!
投后洞察 | 啟英泰倫:人工智能語音芯片的技術(shù)突破和商業(yè)化探索
發(fā)布時(shí)間:
2023-01-13 18:43
來源:
讓自己和家人更幸福,是每個(gè)人心中最樸素的夢想。隨著科技進(jìn)步,人們的夢想也在不斷迭代,但讓生活更美好的愿望始終沒變。
很多科技企業(yè)也在通過技術(shù)突破探索怎樣實(shí)現(xiàn)更美好生活的愿景。
人類舒適的生活來自于被服務(wù)。但人對人的服務(wù)會讓這個(gè)社會分出階層。啟英泰倫從創(chuàng)業(yè)初期一直堅(jiān)持的目標(biāo)就是創(chuàng)造出高度智慧的機(jī)器人,讓機(jī)器服務(wù)人類。
通過機(jī)器來服務(wù)人的前提是要擁有良好自然的人機(jī)交互能力。基于對人性本質(zhì)需求與科技發(fā)展趨勢的長遠(yuǎn)深入思考,專注于人工智能語音芯片及AI算法研究的啟英泰倫將終極目標(biāo)設(shè)定為:打造跨設(shè)備、跨時(shí)空,用戶專屬,服務(wù)終身的“守護(hù)精靈”。
這一目標(biāo)劃分為三個(gè)階段:
第一階段,讓人機(jī)交互更自然,更具普適性;
第二階段,通過更多的數(shù)據(jù),讓機(jī)器更理解人、更主動(dòng)地為人類服務(wù);
第三階段,打造專屬的“守護(hù)精靈”,它將是用戶全方位的生活管家、健康安全衛(wèi)士、百科知識導(dǎo)師和給予心靈陪伴的知己朋友。
啟英泰倫并為此制定了三個(gè)階段的長遠(yuǎn)戰(zhàn)略規(guī)劃。
第一階段,實(shí)現(xiàn)智能終端功能控制的自然語言交互普及。其特點(diǎn)是通過啟英泰倫語音AI芯片和方案讓所有家庭都用得起,讓大多設(shè)備都裝得起,不管什么應(yīng)用場景都聽得清,不管哪個(gè)地區(qū)什么語言都聽得懂。
第二階段,實(shí)現(xiàn)智能終端智慧服務(wù)的機(jī)器人化。其特點(diǎn)是通過啟英泰倫的機(jī)器人芯片和方案讓設(shè)備具備聽覺、視覺、觸覺、顯示和對話等多感知交互能力,具備強(qiáng)大的理解、決策、響應(yīng)能力以及自我學(xué)習(xí)成長的能力。
第三階段,實(shí)現(xiàn)每個(gè)人能夠終生擁有的“守護(hù)精靈”。其特點(diǎn)是,設(shè)備智能化高度普及后,跨設(shè)備、跨時(shí)空,打通虛擬和現(xiàn)實(shí)壁障,抽取出每個(gè)用戶專屬人格的守護(hù)精靈。這個(gè)守護(hù)精靈,將是人類全方位的生活管家、健康安全衛(wèi)士、百科知識導(dǎo)師、心靈陪伴的知己朋友。
目前,啟英泰倫還在第一階段和第二階段不斷求索。在語音識別芯片和算法研發(fā)上,也面臨很多難題。首先,是各種應(yīng)用場景復(fù)雜的噪聲環(huán)境,比如廚電的煙機(jī)噪聲和炒菜聲、客廳的電視聲和音樂聲、推廣銷售環(huán)節(jié)中遇到的多人聲、賣場的高音喇叭和嘈雜的背景噪聲; 其次,人類語言種類繁多,如果考慮到各地方言口音,幾乎是沒有辦法通過大數(shù)據(jù)訓(xùn)練模型來滿足所有地域口音的準(zhǔn)確識別的;最后,人類語言的表達(dá)非常豐富,要想在設(shè)備端側(cè)實(shí)現(xiàn)對任意語言表達(dá)的意圖理解,也是一件艱難巨大的任務(wù)。
然而人們對于一個(gè)能聽會說的設(shè)備,會以機(jī)器人,甚至超人的標(biāo)準(zhǔn)來要求。在嘈雜的環(huán)境中,人耳都不容易聽清時(shí),人們希望語音設(shè)備能聽清;通常人耳很難同時(shí)聽懂兩個(gè)或多個(gè)目標(biāo)人說話,但人們卻希望語音設(shè)備能聽懂;雖然自己并不具備聽懂多地方言的能力,但人們會希望并要求設(shè)備能聽得懂……
不僅如此,人們要求在價(jià)格不變的情況下,電子設(shè)備具備越來越多的功能和越來越高的性能,或在同等情況下,性能和成本不斷降低。
以上都是巨大的挑戰(zhàn)。
為解決這些困難,啟英泰倫在算法攻關(guān)和芯片研發(fā)兩個(gè)方面同時(shí)發(fā)力,將技術(shù)平臺-BNPU(腦神經(jīng)網(wǎng)絡(luò)處理器)迭代了三次,芯片迭代了六次。
每一代BNPU的問世,都是離線語音芯片和算法的一次突破和語音應(yīng)用的助推。 BNPU一代實(shí)現(xiàn)的是端側(cè)語音識別,是行業(yè)首款集成神經(jīng)網(wǎng)絡(luò)處理器的語音AI芯片,是離線語音產(chǎn)業(yè)應(yīng)用興起的標(biāo)志;二代系列芯片CI1102/CI1103 及CI1122芯片, 集成了二代BNPU,不僅實(shí)現(xiàn)了離線語音識別功能,還能實(shí)現(xiàn)離線的聲紋識別和命令詞自學(xué)習(xí)等個(gè)性化的功能,在應(yīng)用上創(chuàng)新了離線命令詞自學(xué)習(xí),在無需聯(lián)網(wǎng)的情況下,用戶就可以簡單教會設(shè)備識別自定義的語言;三代芯片系列更多,適配更廣,更解決了復(fù)雜噪音難識別、詞多難記、方言難識別的行業(yè)痛點(diǎn)。
芯片迭代的同時(shí),算法性能功能也在不斷提升,集成度也在不斷增加,方案成本更是快速下降。 從第一代的50元降到第二代的20元,再到第三代的10元以內(nèi),越來越多的產(chǎn)品開始語音化,同時(shí),人工智能多模態(tài)發(fā)展的路徑也變得越來越清晰。
如今整個(gè)行業(yè)正處于終端語音交互應(yīng)用走向普及、多感知機(jī)器人技術(shù)芯片和技術(shù)研發(fā)積累的階段。
一系列的技術(shù)革新,讓“守護(hù)精靈”變得越來越可能,也越來越快,行業(yè)發(fā)展也開始從第一階段逐步過渡到第二階段,但每個(gè)階段都需要埋頭苦干,需要多次迭代和長期的堅(jiān)持。為了更快地實(shí)現(xiàn)自身目標(biāo),幫助下游客戶實(shí)現(xiàn)敏捷開發(fā)、快速落地的目標(biāo),啟英泰倫正加強(qiáng)生態(tài)建設(shè),提升語音AI平臺的開發(fā)效率,讓更多的人加入到“守護(hù)精靈”的打造中來。