智能喇叭硬體和軟體介紹[上] 硬體結構解析
農步祥 于 2018.02.02 06:01:08 | 源自: | 版權:原創 | 平均/總評分:08.71/61

從2014年起,我們先后通過自購和合作廠商獲得多個智能語音識別“流派”的品牌喇叭產品。那么在接觸和體驗科大訊飛AIUI、亞馬遜Alexa、Google Home 、微軟小娜等實體化的硬體產品后,以及蘋果的智能喇叭HomePod即將上市之際,當我們打算總結時,卻發現一直遺漏了一些需要為Soomal讀者們解答的問題:這些智能喇叭內部是什么結構,又是如何工作的?

隨著市場、資金、技術人員的研發投入加大,語音識別交互產業技術也在逐步完善,除了誕生許多配套的軟硬體供應商外,甚至已經有不少數量的開源硬體及開發資源,我們也將通過硬體和軟體兩部分去分析并介紹一個典型的功能完整、支援遠場拾音[FAR]的智能喇叭是如何誕生的。

從上圖可以看出,一個典型的智能喇叭除外殼以外所有的模塊化部件數量并不算多。有1、處理器主機板;2、電源和功放電路板;3、揚聲器;4、麥克風;5、可編程MCU電路板;6、LED燈。而7是一個增強低頻量感的被動單元,并不是必要的組件。

有意參與智能語音交互體驗或者成為喇叭硬體、應用的開發者,這些基于樹莓派的智能喇叭開發組件并不需要花多少金錢就能獲得。但是要注意的是這已經是2017年的產物,是智能喇叭產業開發者們經過無數生產實踐整合出來的產品。智能語音助手的工作流程大致可以分為語音識別[ASR]——語言處理[NLP]——語音合成[TTS]三個步驟,但實際上還需要細分為大量的專業項目,我們就以智能喇叭的工作流程來介紹智能喇叭內部的重要硬體組成部分。

麥克風陣列

為了接收語音,智能喇叭自然少不了麥克風[Mic]以及模擬訊號轉數字的組件[ADC],智能喇叭為何一般會做成圓柱形?是因為除圓柱形占地面積小的優點外,圓柱形可讓多個麥克風協同工作的陣列在箱體中不容易出現死角,還能像人耳那樣辨別聲音的來源和方向。既然是“陣列”,那么就至少需要兩個以上的麥進行協同工作。Alexa Echo、Echo Dot等就用了7個麥克風,而Google Home、Home mini只用了兩個。當然智能喇叭產品中還有一些是通過改變藍牙喇叭的內部電路實現智能化,沒有增加麥克風陣列電路的空間。不支援遠距離語音識別、需要通過按鍵操作說話的智能喇叭,則往往只有一個麥克風進行拾音。

MEMS數字麥克風:從叮咚LLS-A1的拆解中,我們還可以看從內部到一只只的麥克風組件,但是在更新的智能喇叭內部電路板上,這些智能喇叭必備的組件居然“消失”了,取而代之的是一種體積極小、集成度更高的MEMS麥克風,它的外形就像一個迷你的時鐘晶振。

除了體積大幅度減小,這些MEMS麥克風組件內部是由MEMS聲音傳感器和一個完整的Δ-Σ ADC流程電路的ASIC,這就意味著經過這樣的麥克風可以直接輸出數字音頻PCM訊號。市面上的MEMS數字麥克風主要來自AKM、婁氏、英飛凌等專業音頻半導體廠商提供。

核心運算電路

變成數字訊號后,進一步的識別和語言處理工作就要通過ARM處理器工作,國內的智能喇叭一般采用全志、瑞芯微、AMLogic等小型處理器廠商的低功耗多核心ARM處理器,也有君正等MIPS處理器。由于省去了圖形界面和顯示輸出,因此并不需要強大的處理性能。而美國廠商的智能喇叭更偏愛集成度更高的TI、博通多媒體SoC,而聯想的智能喇叭甚至用上了英特爾的Atom X86處理器。雖然CPU性能不是最終影響智能喇叭使用體驗的關鍵因素,但更好的性能有利于更快地處理語音資訊。

為了測試開發方便、優化語音處理的性能和速度,開源硬體的麥克風陣列所在的電路板還包含了一些可編程晶片,例如FPGA、DSP等,甚至XMOS也提供了這樣的開發板,這些DSP子系統結合CPU通過作業系統的API用于語音的定向、降噪,甚至直接進行語音轉換文本處理,DSP可以更低的功耗代價和更短的運算時間將語音資訊轉化為文本,這樣語音資訊只要經過陣列這一層電路板,實際上就經過了將模擬訊號轉變成一個可以供NLP工作流程的數字語音訊號甚至是已經提取出來的文本資訊。通過網路發送至云端進行進一步的計算。通過云端伺服器獲得的文本通過本地CPU運算轉換為語音,也就是常說的TTS流程。

絕大多數智能喇叭系統還支援智能家居功能,此時喇叭內部的作業系統通過無線局域網路輸出特定指令控制已經處于聯網狀態并且通電待機中的智能家電裝置。

音頻輸出電路和揚聲器

變成數字音頻訊號后,接下來自然就是Soomal讀者們最為熟悉的音頻輸出部分了:將數字訊號轉換為模擬訊號并通過功放和揚聲器[喇叭]輸出語音資訊。音頻輸出部分的功率和音質往往最終決定了一個智能喇叭的體積和物料成本,通常就是簡單的D類數字功放電路和揚聲器了。

絕大多數智能喇叭對音質并不偏重,只需要一個小口徑的全頻單元就可以解決發聲工作,講究一些的智能喇叭還會有多單元分頻、被動單元增強低音等方式提升音質和音效。但也有少數以音質為長項的“音質派”智能喇叭,音質成本反而占了很大比重,例如JBL Horizon Smart和Google Home Max等,而后者售價甚至高達379美元。

亞馬遜還考慮到絕大多數用戶都有現成的喇叭可用,推出了通過模擬輸出外接喇叭將“功能機”變成“智能機”的喇叭智能化產品Echo Dot[叮咚也有類似產品]。不過這類產品上市后人們很快就發現一個問題:它們需要傳統的喇叭產品保持待機工作,這對于使用待機功耗很低的數字功放喇叭或許不是問題,但模擬功放電路設計的喇叭甚至甲類功放待機,那就意味著嚴重的耗電暖爐和工作損耗了,這也注定了這類過渡產品市場潛力很小。

LED和顯示

為了提供視覺化的交互資訊,智能喇叭一般還會有LED燈珠,單LED一般通過閃爍和明暗、呼吸等效果進行工作狀態反饋,圓環狀LED可以表示聲音來源方向等效果,甚至還有類似Google Home那樣的RGB LED,LED通過系統和可編程MCU晶片進行控制。

過去在智能喇叭行業對于產品主要還集中在“喇叭”屬性上,但從去年底開始又出現了新的趨勢,亞馬遜似乎已經不滿足于燈珠的效果,推出了帶攝像頭、熒幕顯示的亞馬遜Echo Show、Echo Spot等,增加了可視電話通訊、多媒體視訊播放器等更多的用途,這類產品似乎已經不能歸類為“智能喇叭了”。

總結

以上的組件加上電源、外殼,就可以組裝成了一個完整的智能喇叭。喇叭的硬體部分對于智能喇叭是否好使起到了地基的作用,造型的美丑、音質的優劣、運算速度快慢等硬體特性決定了用戶對喇叭的第一印象的好壞,但是消費后如何保持用戶黏度和長期使用、實用性的功能等等卻并不是硬體能解決的問題,一個音質再好的Google Home也無法遙控家里的美的空調,這些語音識別應用的技術源頭和隔閡來自何處?下一章中我們將介紹智能喇叭的核心技術——軟體系統和語音識別技術的結構。

請評分
1
2
3
4
5
6
7
8
9
10
分享到微博,暫時不可用
119.040.048.***
119.040.048.***
發表于2018.04.17 09:30:44
15
192.187.***.***
192.187.***.***
nbx刪除此貼于2018.04.22 00:01:19
發表于2018.03.22 15:47:28
14
03

此帖使用Win10提交
發表于2018.02.11 14:55:21
13
111.085.***.***
111.085.***.***

此帖使用HUAWEI GEM-703L提交
發表于2018.02.07 06:53:10
12
114.246.***.***
114.246.***.***
動圈麥靈敏度太低,一般用作手持的麥克風。這種喇叭里面應該都是碳粒麥克或者電容麥
MEMS數字麥克風:從叮咚LLS-A1的拆解中,我們還可以看從內部到一只只的麥克風組件,但是在更新的智能喇叭內部電路板上,這些小小的動圈麥居然消失了
發表于2018.02.05 13:47:15
11
119.096.002.***
119.096.002.***
發表于2018.02.04 20:19:45
10
211.143.230.***
211.143.230.***
發表于2018.02.02 14:54:22
9
03
總算明白了個大概
此帖使用iPhone提交
發表于2018.02.02 13:22:18
8
03

此帖使用ZUK Z2131提交
發表于2018.02.02 12:39:21
7
123.245.088.***
123.245.088.***
發表于2018.02.02 11:06:23
6
116.030.***.***
116.030.***.***
幫我們這些DIY黨節省一些時間
發表于2018.02.02 09:52:29
5
113.107.***.***
113.107.***.***

此帖使用Win10提交
發表于2018.02.02 08:15:03
3
171.106.194.***
171.106.194.***
發表于2018.02.02 07:38:04
2
03
發表于2018.02.02 06:16:45
1
提示
本貼不可匿名回復,回復等級為:0 ,您現在正處在潛水狀態
回復
驗證碼
0887 為防止廣告機貼垃圾,不得已而為之
表情
正文
京ICP備11010137號 京ICP證110276號 京公網安備110114000469號