占据语音交互技术70%市场的隐形冠军 醉翁之意不在酒

2014年,亚马逊推出了一个非常别样的音箱:Echo。伴随其出现的,还有一句另类的口号:「Voice First」。

当时亚马逊的判断是,语音交互的易用性和直觉性将引发一次革命,彻底改变人与机器沟通的方式。亚马逊描绘出的「语音乌托邦」蓝图,引来无数人的好奇和探索。

当时还身在中科院的常乐也是其中一员,通过Echo隐约看到了一个新的机会,她和她的团队组建起一家创业公司, 把声学语音技术商业化,加入一场百年一遇的行业变革。

1、从物理学到商业化

人机交互,最早依赖于按钮,后来依托于鼠标键盘,2007年iPhone发布后,触摸屏成了最成功的交互工具。

这些交互方式有很多共同点,比如都是基于触觉和视觉,交互距离被限定在一个手臂的范围之内。

相比之下,声音天生具有解放双手的作用,相比于触摸式的交互,语音要更加自然和人性化,它也不依赖双眼,不需要用户刻意去熟悉软件界面,不需要去学习交互逻辑,天气播报、闹钟设定、网络搜索、预约叫车…只要张口问就可以直接获得答案。

这种全新的交互形式帮助AI技术得以在消费者端下沉,催生出了Echo为代表的新品类。

不过这类产品需要解决一个首要问题,用户在使用Siri等AI助理时,往往会把手机拿到嘴边,外界的噪声对语音交互的影响都很小,而智能音箱承担的是长达几米的远场交互距离,居家环境下声音源也更加复杂。

声智科技敏感地发现了这一问题,认清做好智能音箱的第一步,是要做好远场语音交互技术。因为没有好的“耳朵”,没有好的感知,音箱听不清几米外的人说话,谈何交互?

“在当时的环境下,其实近场的语音识别已经在实验室内做的很好了,语音识别率的准确度是可以商业化的,”常乐回忆说,“但远场交互中的各种噪声导致真实场景中还不行,比如开车的时候,因为胎噪、风噪等的影响,这个时候你语音说去导航去哪里,发现识别率就会很低,比如在人声鼎沸的餐馆里做语音交互,它的语音识别率也会很低,是因为在这样的环境下,有很多空间物理环境噪声造成对语音识别产生不良影响。”

语音技术正是声智科技的强项,公司创始合伙人总共6个人,其中5个来自中科院声学所。2016年公司创立,彼时的市场上已经存在讯飞、云知声、思必驰等语音交互的公司,而声智创始人们的技术背景,让他们决意早期一定要聚集声学前端模块(麦克风阵列、降噪、硬件平台),其它方面(生产制造、云端内容)可以用合作的方式来补齐。

于是,创始人们从专业出发,着手去改善体验最差的远场语音交互问题,提供4+1, 6+1等完整的麦克风整列方案,为智能音箱开发出足够灵敏的“耳朵”,以便采集更好的数据,为机器学习提供数据基础。

相比于同期竞争者,声智科技的发展路线最为极致和专注,不断完善远场感知技术中声源测向、混响去除、噪声抑制等功能,把语音识别率提高到95%以上。

声智麦克风阵列模组系列

即使有了业内一流的语音技术积累,声智也没有进军当时风靡一时的智能音箱领域,常乐说,公司既是技术型驱动,商业模式就想的很清楚:在自己最擅长的技术点上树立优势,以此来出售具有高附加值的产品或方案,成为行业的底层技术供应商。

在解决远场语音交互的前端技术后,声智开始填充整个“木桶”的其它板块,语义理解、大数据解析、智能搜索、知识图谱等等。2017年,中国的智能音箱市场彻底进入“百箱大战”的阶段。小米、百度、阿里、联想、出门问问、喜马拉雅等公司相继发布了自己的产品,而提供底层语音技术服务的声智科技马上成了众多公司的合作首选。

2、寻找智能音箱之外的更多可能

站在2021年的节点去看,亚马逊当年恢弘的蓝图依然在被一批人坚持着,智能音箱和围绕它产生的IoT行业已经形成一个巨大的产业。

而随着市场增长和饱和度的提高,整体的增长速度也在放缓,这意味着底层技术提供商需要寻找新的业务增长点。

数据来源:iiMedia Research

5年过去了,伴随着语音交互方式的普及和新技术的发展,人与机器交互方式也由单一的维度的触控、图像、语音转变成为声光融合等多维度的人机交互融合。

在常乐看来,过去5年,机器开始有了模仿人类的听觉,视觉,语言,推理等能力,但是大部分的人机交互设计还主要是单一维度感知、认知能力等提升。

例如图像识别算法可以感知事物,但无法使用语言来描述它们;自然语言模型可以理解文字,但文字是脱离任何感官现实的。而真实场景的人机交互需要融合人类认知、感知能力的多模态交互,可以将语言、图像、声音和其他感官信息联系起来,解决复杂问题。

基于这样的市场和行业判断,常乐总结了声智的发展思路,首先是继续加大对多模态融合AI技术研发投入,并输出标准化AI技术服务能力,为更多的企业赋能。

另一方面,则需要找到新的产品载体和突破口,为声智科技的技术、产品和解决方案寻找更多的落地应用的场景。

于是,在声智科技占据了中国70%的远场语音交互市场后,毅然决然地开始了新的征程。

声智科技合作的智能音箱

在智能音箱火速发展的那几年内,云计算、5G、深度学习、AI芯片等技术也相继成熟,人们探讨的不再是围绕智能家居为中心的生活场景,“AI+IoT”概念的提出产生了智能城市、智能制造、远程监控、智能座舱等更多的领域,产生出了更大的价值。

从智能音箱作为突破口的声智科技,也将自己的技术从声学语音拓展成声光融合,内容服务聚合、数据智能分析、IOT智能控制等多维度发展,搭建出了开源开放的人工智能交互平台,落地场景扩展到智慧健康、智慧安全、智慧生活等诸多领域。

可声控的机器人

在智慧办公场景中,声智推出的智能会议系统,基于智能麦克风、会易宝等产品,可以解决会议中噪声大、信号失真等问题,实现实时语音转写、会议纪要,多角色分离等功能,转写准确率达98%以上。

在智慧园区场景中,声智的智慧电梯可以通过语音命令,手势识别,AI数字人主动为您呼梯等人工智能交互的方式,帮助用户去到想去的楼层,实现全程无接触的乘梯体验,已在北京、上海、青岛、苏州等医院、机场、园区正式投入。

在智慧社区场景中,声智的AI数字人红外测温与监控解决可实现1-6米范围内、在0.2秒内完成多个目标的高精度测温,并支持实时AI语音合成播报,自动上传预警信息。用户可全程无感测温,方便快捷。

在智慧生活领域,声智还推出了智能降噪耳机,用军工品质的主动降噪技术,给用户全新的听觉体验,并通过先进的免唤醒技术,无需唤醒指令就可以语音指挥耳机完成歌曲播放切换、语音翻译等功能。

声智时空胶囊耳机

通过一系列产品线的布局,声智的业务布局也从技术、软件授权服务,丰富到提供完整的产品、综合解决方案和服务。多年的技术积累和商业化能力,帮助声智获得了资本的持续支持,从1200万的天使轮融资,到1600万的Pre-A、近亿元的A轮、2亿的B轮、B+…一路水到渠成。

声智目前的业务涉猎的领域较多,可在AI行业逐渐垂直化,产业细分化的当下,声智的多点覆盖是否会不够专精?常乐表示,公司一直追求的,是把人工智能交互技术做到极致,适用于多个领域,更加通用化:
“基于底层的人工智能操作系统,去做不同市场场景的商业化落地,貌似看起来业务分散,反而我们认为是把业务做的专精化。我们推出人工智能的操作系统,不光是有语言理解、图像处理这样的能力,还有声光融合的综合能力,把多模态感知技术和人工智能技术做一个很好的融合,去面向各个的领域去做复制,成为基础设施。”

常乐依然笃定AI的未来,而底层的交互系统,将是AIoT的基石。声智想做的,是AI时代的应用层操作系统,为更多的企业做服务,去赋能更多的行业。

从这个角度来看,公司目前所涉及的智慧健康、智慧安全、智慧生活的产品,均是AI操作系统在应用层的落地,一个个不同领域落地项目的实施,反过来也是对系统本身的修补和完善。

“成为AI时代的底层操作系统” ,这大概是所有AI企业的梦想,而声智科技已经在路上。