谷歌AIY Voice Kit智能语音开发套件安装和使用体验
农步祥 于 2019.03.11 03:00:47 | 源自:www.soomal.com | 版权:原创 | 平均/总评分:09.75/39
  • 要如何更深入了解人工智能科技?那么谷歌AIY一定是值得考虑的项目,AIY的含义就是以DIY方式折腾AI。虽然绝大多数人会对树莓派和纸盒子音箱没什么兴趣,再加上语言的天然阻碍,但AIY的确是是谷歌人工智能三驾马车的精简化集合,AIY项目包括了语音套件[Voice Kit]、视觉套件[Vision Kit]和看起来最高科技的TPU单元[EDGE TPU],包含了智能语音、计算视觉和深度学习等人工智能的核心应用的开发硬件。

    硬件分析

  • 语音套件[AIY Voice Kit]是AIY项目中最便宜也是上手简单的一款,也是三款产品中对代码编程基础要求最低的套件,所以从它开始技术性了解智能语音是比较合适的。由于谷歌提供的助手和语音转文字API已经比较成熟可靠,开发者主要是开发技能和插件等进行练手。当然Soomal并不是开发者网站,主要还是以把玩的角度来看待。而且作为专业学习用途缺乏通用性,AIY设备热门程度也不是特别高,Google Play上官方AIY应用下载量也就一万左右,当然玩AIY主要靠电脑,手机APP并不是必需品。

    我们在中,对智能音箱硬件解析的例子就是这套语音套件,由于购买时间较早,我们手上这坨纸盒还是1.0版的,2.0版主要是改善了纸模的安装和固定效果。住的注意的是官方网站的安装说明书是针对更小的树莓派Zero,这个用于树莓派3的AIY套件其实是“非官方性能版”,软件和系统是完全通用的,整套价格不到400元人民币,贰包含树莓派Zero的官方版反而要贵不少。除了耀眼的纸板,AIY的核心组件还有一个使用树莓派2/3主板GPIO针脚的主控板,它控制着音频IO以及物理开关、供电等功能。窄条的则是拾音板,有两颗MEMS微型麦克风进行拾音,支持远场拾音但效果不算特别好。整个组件最喜感的自然是顶部那颗超大物理按键,常混街机厅的80后和90后应该非常眼熟,瞬间把智能音箱拉回到上世纪90年代审美,而且手感奇差无比,按键自带LED灯,可以作为夜灯照明使用。一个4欧阻抗3W功率的3英寸喇叭负责发声。

    安装设置

    DIY是AIY的一部分,按照英文说明书的步骤安装也比较简单,先安装好按键,固定好树莓派和电路板、扬声器,然后装入纸盒并接上连线即可。当然智能音箱光有硬件是无法工作的,还需要一个简化的操作系统,那么自然是树莓派常用的Linux了。系统部分谷歌官方提供了包含源的代码定制的Raspbian系统,Raspbian就是一种基于ARM处理器编译的Debian Linux系统。系统安装也和Volumio OS、Moode类似,不过在Github上谷歌的系统镜像文件是.xz后缀,解压缩后使用Win32diskimager写入一张容量至少8GB的MicroSD卡就完成了系统的安装。

  • 虽然有了硬件和操作系统,但智能音箱还离不开互联网,这部分才是AIY的开始。音箱联网的方式有两种:1、打开纸盒,长按控制板上的按键5秒,使用手机的AIY应用进行蓝牙配对,然后输入无线接入的密码即可实现联网;2、直接接上键鼠和显示器,音箱会自动启动一个精简的Xfce图形桌面,通过设置向导设置无线网络。由于是完整的Linux系统,因此这台智能音箱同时也是一台上网冲浪的迷你电脑,只是非常卡。当然也可以直接连网线在路由器管理界面上看IP。

    从这里开始就需要用户有一定的Linux使用经验了,使用putty等ssh客户端工具远程登录至音箱的命令行[默认用户名/密码为pi/raspberry]。首先来测试声音是否正常工作,运行/home/pi/AIY-projects-python/checkpoints/check_audio.py,按照提示进行语音输出和输入功能的测试,确定正常后运行alsamixer命令调整音量。 用户也可以通过系统桌面自带的游戏和影音功能进行声音测试。在确保系统、声音和麦克风正常后,就可以进入应用的配置。

    初步使用体验

    当成功进入系统和联网后,音箱也没有任何预想的功能,所以我们还需要运行语音服务。用户需要在谷歌的Cloud Platform上启用项目并激活Google Assistant的API,如果需要自定义命令和应用开发,就需要申请收费的语音转换服务[Cloud Speech-to-Text]了,云服务为每个月60分钟使用免费,额外时长为0.024美元/分钟。这些部分需要在谷歌的网站上完成创建项目、创建API和注册设备等操作,按照AIY网站提示操作即可,这里就不再重复。

    当所有准备完成后,用户可以在ssh上运行/AIY-voice-kit-python/src/example/voice下的示例文件进行体验了。运行assistant_grpc_demo.py可以通过按按键激活语音交互,使用“OK,Google”语音命令激活则运行assistant_library_with_button_demo.py,从现在开始就可以体验纸盒的基础语音功能了。

  • 所谓“基础功能”,就是不包含任何多媒体相关的内容,仅支持简单的语音交互,如时间、天气、日历闹钟提醒和百科等,对于学习研究来说也基本足够,在加入Google Home后也可以对智能家居设备进行控制,例如通过语音控制Shield TV、Chromecast等设备播放是没有问题的。在手机Home应用中,AIY音箱自身被识别为一盏灯,可以使用语音和手机控制按键灯的明暗和开关。由于演示DEMO程序不具备任何多媒体相关功能[包括蓝牙音箱]以及新闻资讯播报等,这里就不再进行对比和详细测试。

    总结

    由于树莓派3B支持5G WiFi网络,因此AIY的响应速度绝对是一个巨大优势,相较于中低价位的国产智能音箱,2.4G的延迟甚至比绕地球半圈传输数据的谷歌助手云服务还要慢,也解决了人口密集的城市小区里2.4G和蓝牙干扰导致的各种异常鬼叫的问题。整个后台智能语音服务使用Python开发,因此各类插件功能都必须通过Python相关的设置和下载完成。

    由于系统是树莓派和带图形桌面的Linux系统,在可扩展性上也是相当强大丰富的,也可以安装游戏、多媒体播放器、VoIP软件进行网络通话等充实音箱服务端的功能,系统已经内置了LibreOffice、《我的世界》等办公和娱乐应用,可以直接进行游戏、打字和写代码等,但语音交互功能就要靠自己写Python代码扩展了。在音质方面,AIY套件的声音动态和音量表现要逊于普通的智能音箱,但声音风格正常,用来简单听听音乐不是问题。

    由于完全使用谷歌的智能语音云服务,从纯技术角度来说,谷歌的识别准确度、速度和纠正能力都能通过后台日志进行分析,在英语世界的优势还是巨大的,而且支持的语言种类也是最多的。当然,毕竟Google Home还是没有中文功能还是很遗憾的。但AIY的本质还是DIY,既然有了硬件有了系统,自然也会有国内的智能语音开发入口跟进,如果有时间,我们也会对通过这个AIY纸盒音箱对中文的wukong-robot等智能语音开发平台进行体验。

    请评分
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    163.177.***.***
    163.177.***.***
    wukong-robot 在最新版已加入了对 Google AIY Voice Kit 的支持。详见:https://wukong.hahack.com/#/mic-choices?id=google-aiy-voice-kit
    效果:https://www.bilibili.com/video/av81173082#reply2216101995 (使用性能较弱的 Pi Zero,所以响应速度较慢)。
    此帖使用MAC提交
    发表于2019.12.30 19:20:01
    12
    03
    请收下我的膝盖
    此帖使用HTC 2Q55300提交
    发表于2019.03.13 07:24:58
    10
    03
    换个塑料壳会好看很多!
    发表于2019.03.12 11:26:28
    9
    10

    此帖使用Win10提交
    发表于2019.03.12 00:52:44
    8
    03
    住的注意=》值得注意
    发表于2019.03.11 20:11:15
    7
    121.032.179.***
    121.032.179.***
    发表于2019.03.11 19:12:32
    6
    171.111.***.***
    171.111.***.***
    消費時代,也就是一两年的使用时間
    此帖使用iPhone提交
    发表于2019.03.11 19:05:03
    5
    03
    感觉挺有意思的
    此帖使用iPhone提交
    发表于2019.03.11 15:09:27
    4
    211.143.230.***
    211.143.230.***
    发表于2019.03.11 13:47:42
    3
    03
    就是需要专业人士玩一玩了。
    此帖使用Win10提交
    发表于2019.03.11 09:45:19
    2
    03

    此帖使用Android设备提交
    发表于2019.03.11 09:35:31
    1
    提示
    本贴不可匿名回复,回复等级为:1 ,您现在正处在潜水状态
    回复
    验证码
    0852 为防止广告机贴垃圾,不得已而为之
    表情
    正文