智能音箱硬件和软件介绍[上] 硬件结构解析
农步祥 于 2018.02.02 06:01:08 | 源自: | 版权:原创 | 平均/总评分:08.71/61

从2014年起,我们先后通过自购和合作厂商获得多个智能语音识别“流派”的品牌音箱产品。那么在接触和体验科大讯飞AIUI、亚马逊Alexa、Google Home 、微软小娜等实体化的硬件产品后,以及苹果的智能音箱HomePod即将上市之际,当我们打算总结时,却发现一直遗漏了一些需要为Soomal读者们解答的问题:这些智能音箱内部是什么结构,又是如何工作的?

随着市场、资金、技术人员的研发投入加大,语音识别交互产业技术也在逐步完善,除了诞生许多配套的软硬件供应商外,甚至已经有不少数量的开源硬件及开发资源,我们也将通过硬件和软件两部分去分析并介绍一个典型的功能完整、支持远场拾音[FAR]的智能音箱是如何诞生的。

从上图可以看出,一个典型的智能音箱除外壳以外所有的模块化部件数量并不算多。有1、处理器主板;2、电源和功放电路板;3、扬声器;4、麦克风;5、可编程MCU电路板;6、LED灯。而7是一个增强低频量感的被动单元,并不是必要的组件。

有意参与智能语音交互体验或者成为音箱硬件、应用的开发者,这些基于树莓派的智能音箱开发组件并不需要花多少金钱就能获得。但是要注意的是这已经是2017年的产物,是智能音箱产业开发者们经过无数生产实践整合出来的产品。智能语音助手的工作流程大致可以分为语音识别[ASR]——语言处理[NLP]——语音合成[TTS]三个步骤,但实际上还需要细分为大量的专业项目,我们就以智能音箱的工作流程来介绍智能音箱内部的重要硬件组成部分。

麦克风阵列

为了接收语音,智能音箱自然少不了麦克风[Mic]以及模拟信号转数字的组件[ADC],智能音箱为何一般会做成圆柱形?是因为除圆柱形占地面积小的优点外,圆柱形可让多个麦克风协同工作的阵列在箱体中不容易出现死角,还能像人耳那样辨别声音的来源和方向。既然是“阵列”,那么就至少需要两个以上的麦进行协同工作。Alexa Echo、Echo Dot等就用了7个麦克风,而Google Home、Home mini只用了两个。当然智能音箱产品中还有一些是通过改变蓝牙音箱的内部电路实现智能化,没有增加麦克风阵列电路的空间。不支持远距离语音识别、需要通过按键操作说话的智能音箱,则往往只有一个麦克风进行拾音。

MEMS数字麦克风:从叮咚LLS-A1的拆解中,我们还可以看从内部到一只只的麦克风组件,但是在更新的智能音箱内部电路板上,这些智能音箱必备的组件居然“消失”了,取而代之的是一种体积极小、集成度更高的MEMS麦克风,它的外形就像一个迷你的时钟晶振。

除了体积大幅度减小,这些MEMS麦克风组件内部是由MEMS声音传感器和一个完整的Δ-Σ ADC流程电路的ASIC,这就意味着经过这样的麦克风可以直接输出数字音频PCM信号。市面上的MEMS数字麦克风主要来自AKM、娄氏、英飞凌等专业音频半导体厂商提供。

核心运算电路

变成数字信号后,进一步的识别和语言处理工作就要通过ARM处理器工作,国内的智能音箱一般采用全志、瑞芯微、AMLogic等小型处理器厂商的低功耗多核心ARM处理器,也有君正等MIPS处理器。由于省去了图形界面和显示输出,因此并不需要强大的处理性能。而美国厂商的智能音箱更偏爱集成度更高的TI、博通多媒体SoC,而联想的智能音箱甚至用上了英特尔的Atom X86处理器。虽然CPU性能不是最终影响智能音箱使用体验的关键因素,但更好的性能有利于更快地处理语音信息。

为了测试开发方便、优化语音处理的性能和速度,开源硬件的麦克风阵列所在的电路板还包含了一些可编程芯片,例如FPGA、DSP等,甚至XMOS也提供了这样的开发板,这些DSP子系统结合CPU通过操作系统的API用于语音的定向、降噪,甚至直接进行语音转换文本处理,DSP可以更低的功耗代价和更短的运算时间将语音信息转化为文本,这样语音信息只要经过阵列这一层电路板,实际上就经过了将模拟信号转变成一个可以供NLP工作流程的数字语音信号甚至是已经提取出来的文本信息。通过网络发送至云端进行进一步的计算。通过云端服务器获得的文本通过本地CPU运算转换为语音,也就是常说的TTS流程。

绝大多数智能音箱系统还支持智能家居功能,此时音箱内部的操作系统通过无线局域网络输出特定指令控制已经处于联网状态并且通电待机中的智能家电设备。

音频输出电路和扬声器

变成数字音频信号后,接下来自然就是Soomal读者们最为熟悉的音频输出部分了:将数字信号转换为模拟信号并通过功放和扬声器[喇叭]输出语音信息。音频输出部分的功率和音质往往最终决定了一个智能音箱的体积和物料成本,通常就是简单的D类数字功放电路和扬声器了。

绝大多数智能音箱对音质并不偏重,只需要一个小口径的全频单元就可以解决发声工作,讲究一些的智能音箱还会有多单元分频、被动单元增强低音等方式提升音质和音效。但也有少数以音质为长项的“音质派”智能音箱,音质成本反而占了很大比重,例如JBL Horizon Smart和Google Home Max等,而后者售价甚至高达379美元。

亚马逊还考虑到绝大多数用户都有现成的音箱可用,推出了通过模拟输出外接音箱将“功能机”变成“智能机”的音箱智能化产品Echo Dot[叮咚也有类似产品]。不过这类产品上市后人们很快就发现一个问题:它们需要传统的音箱产品保持待机工作,这对于使用待机功耗很低的数字功放音箱或许不是问题,但模拟功放电路设计的音箱甚至甲类功放待机,那就意味着严重的耗电暖炉和工作损耗了,这也注定了这类过渡产品市场潜力很小。

LED和显示

为了提供视觉化的交互信息,智能音箱一般还会有LED灯珠,单LED一般通过闪烁和明暗、呼吸等效果进行工作状态反馈,圆环状LED可以表示声音来源方向等效果,甚至还有类似Google Home那样的RGB LED,LED通过系统和可编程MCU芯片进行控制。

过去在智能音箱行业对于产品主要还集中在“音箱”属性上,但从去年底开始又出现了新的趋势,亚马逊似乎已经不满足于灯珠的效果,推出了带摄像头、屏幕显示的亚马逊Echo Show、Echo Spot等,增加了可视电话通讯、多媒体视频播放器等更多的用途,这类产品似乎已经不能归类为“智能音箱了”。

总结

以上的组件加上电源、外壳,就可以组装成了一个完整的智能音箱。音箱的硬件部分对于智能音箱是否好使起到了地基的作用,造型的美丑、音质的优劣、运算速度快慢等硬件特性决定了用户对音箱的第一印象的好坏,但是消费后如何保持用户黏度和长期使用、实用性的功能等等却并不是硬件能解决的问题,一个音质再好的Google Home也无法遥控家里的美的空调,这些语音识别应用的技术源头和隔阂来自何处?下一章中我们将介绍智能音箱的核心技术——软件系统和语音识别技术的结构。

请评分
1
2
3
4
5
6
7
8
9
10
分享到微博,暂时不可用
03
发表于2009.05.04 14:12:56
14
03
下一代的多点触摸、更大屏幕的touch和iphone、更强的网络支持功能、对电脑的完全遥控。。。我想这应该又会成为苹果新的突破点了
touch和iphone和笔记本电脑以及台式电脑的搭配,很完美,鼠标键盘以外的第三大输入设备。。。。。ipod应该也可以实现。。
单纯的音乐播放控制,仅仅iPod shuffle就可以实现,以后就不用为小体积MP3难以提供大容量而头疼了,因为每个电脑里的硬盘都可以供它使用。。。随时随地的音乐播放,随时随地的音乐同步。。。
(怎么我感觉在为苹果做宣传口号。。。。就此打住)
LBbill修改此贴于2009.05.04 11:38:48
LBbill修改此贴于2009.05.04 11:39:48
发表于2009.05.04 11:37:26
10
03
既然都能用touch和iphone来控制音乐播放了,怎么就不再彻底一点,用touch和iphone控制其他程序呢?
比如,我用touch和iphone控制一个游戏在电脑的大屏幕上甚至电视上玩。竞争力直指wii,功能性却比wii丰富不少。
如果这还不能让人激动地话,那么用touch和iphone控制在电脑上进行文字文档操作,touch和iphone的手写输入绝对可以把那些手写板踢飞,想象一下,假如我在工厂的仓库里盘点,手拿一个touch和iphone,一边盘一边录入,然后我回到办公室,我的电脑里边就放着我刚刚的数据了,很方便。或者那些电脑录入差的人,打开电脑,然后手拿touch和iphone开始录入,录入文字,写个便签,甚至记一个电话号码,电脑里就保存了,同步都不需要了。如果这样的话,苹果的Iwork绝对能拼office。又或者,我手持touch和iphone上网,看见好东东,下载到电脑,呵呵,我在卫生间大号都可以下载东西了
手持touch和iphone,公司里工作文档数据,回到家里开始像wii一样游戏,控制音箱享受音乐,平时还打电话上网,装个qq或者skype,随时和朋友联系。。。。这才是网络新生活啊。
等我找个机会试试,理论上应该能成立,真是这样,我会推荐我父亲iphone,并争取在我们公司建立无线网络。
LBbill修改此贴于2009.05.04 11:23:58
我又在改来改去了。。。。
LBbill修改此贴于2009.05.04 11:27:09 ——详细阅读
发表于2009.05.04 11:20:38
9
10
不过似乎有办法让itunes支持APE,FLAC,很多种办法,没搞清楚ing
发表于2009.05.04 09:39:49
7
03
我看到这个路由器上有一个usb口,不知道这个usb口是怎么工作地,不会是仅仅针对打印机啊?大胆的设想,希望能证实一下,由于是802.11n的网络,数据传输应该不成问题,那么我从usb口外接一个声卡会是一个什么效果,比如我外接一个DMX6fire usb,把他们放在功放旁边,让后声卡接功放实现音频输出,那样的效果不是会更好啊?这样的话,连那些小巧漂亮的HTPC也失去其用武之地,我的电脑完全可以隐蔽在客厅的一个角落里,甚至隐蔽在书房里。
再继续设想,如果不用苹果这个呢?如果我们用外置声卡接其他品牌的带usb接口并且是802.11n的无线路由又会如何呢?呵呵,很激动地想法,什么时候一定要试试,这会让无线音频离我们越来越近。
从这里可以思考,以前我说过,无线音频离我们还很漫长,其中一个原因就是无线接口的定义人不是音频厂商,它是为大量数据传输而出的解决方案。但是现在不同了,新的思路来时,音频厂商就不用考虑无线的问题,该干啥干啥,无线交给这些无线厂商来解决,声卡厂商只需考虑如何外置的更好的问题了,至于功放音响厂商,该干啥就干啥。我们设想下,假如老虎卡变成外置usb声卡接到无线路由上,接上功放,那会是一个多么美妙的效果啊。对于音频厂商来说,无线还在不成熟但是usb确是成熟的。这个将是无线音频发展的前行军。这也是我更看中外置的原因之一。
再让我们疯狂一下,为什么显卡不能外置,为什么呢?数据传输还在达不到?我想未必。假如显卡也外置,也像声卡这样实现无线。。。。我想服务器的销量绝对会提高,至少我会购买服务器而不愿买pc。。。。
发表于2009.05.04 09:38:48
5
10
发表于2009.05.04 09:37:54
4
03
苹果最大的优点就是敢想敢做,而且愿意最先吃螃蟹
想当年,第一个可视化操作系统也是苹果提出来的,可惜第一个上市的是微软。微软苹果都是我最喜欢的两个公司。一个搞软件出身一个搞硬件出身。
这个无线方案的最大的优点就是操控性,以touch和iphone来控制,简直太帅了!
无线网络和音频的集成,可以多个Airport Express搭配,以及和已有网络的兼容,这些都是亮点,可以实现网络完美覆盖。那些别墅房的大大们又有一个无线解决方案了。
可惜的是,苹果在设计时的出发点是操控性、时尚性和创新性,并不是以音频性为出发点来考虑,所以,对于想要用这个解决无线音频的人,就不要对音质抱有太大奢望,hifi就更谈不上了。
苹果还有一个遗憾的地方,和微软同样的一个毛病,垄断嫌疑太重了,只是苹果在PC上的普及程度没有微软高,所以表现的不为大家关注而已。希望能对其他软件多多支持。
另外,我想知道,普通电脑的发射端怎么解决?
发表于2009.05.04 09:18:38
3
10
发表于2009.05.04 09:16:36
2
提示
本贴不可匿名回复,回复等级为:0 ,您现在正处在潜水状态
回复
验证码
6737 为防止广告机贴垃圾,不得已而为之
表情
正文
京ICP备11010137号 京ICP证110276号 京公网安备110114000469号