1. 首页
  2. 热点资讯

声加科技邱锋海展望机器听觉将仿生人耳 两颗传声器阵列或是最终

10月27-28日,一年一度的中国声学范畴技术交流嘉会“声学楼13周年年会暨中国音响行业白皮书公布会”在深圳市南山区金百合大酒店盛大召开。本次大会以“砥砺奋进,行稳致远”为主题,约请了中科院声学所、万魔声学、科大讯飞、小米科技、猫王收音机、楼氏电子等院所和企业的60余位行业大咖,与来自全国各地的着名专家学者、行业闻名企业家、资深工程技术职员、年青一线工程师等1500余人分享了31场深度技术垂直的议题报告。

来自全国各地的技术职员前来参会

济济一堂的大会现场

此中,在27日下战书的特邀专题报告里,北京声加科技CEO邱锋海受邀以《声加万物、凝听将来:智能语音交互利用和技术》为题,分享了今朝正在爆发的智能语音交通商场中的各项明星产品和其技术链条。并在演讲中具体分析了声学前端技术所面对的挑战与机遇:如在百花齐放的新生市场里,智能音箱的“去插电化”、减少麦克风构成的阵列、更矫捷的唤醒词练习及天生和智能耳机的尺寸更小、各类型传感器数据融会和更低功耗的唤醒等。

声加科技CEO邱锋海主题分享《声加万物、凝听将来:智能语音交互利用和技术》

邱锋海表示,10万年前,说话的出现大大加速了人类社会进化和进展的进程。时至本日,听和说仍然是人类最基本、最常用和最矫捷的交流方式,同时也是最好的人机交互方式。在经历了计算机号令式交互到图形界面触摸交互,再到信息时期/高级信息时期的天然交互、和感情交互……毫无疑问,语音交互将会成为泛在的人机交互方式。

事实上,语音辨认技术的研究可追溯到上世纪50年月,从单一模式匹配到70年月的模式和特点分析,再到90年的统计方法(HMM+GMM),直到2010年后,深度神经收集(DNN)获得了巨大的成功,基于DNN技术的利用也呈爆炸式增加。同时,语音辨认、天然说话理解、语音合成机能等技术大幅晋升,互联网、移动互联网的高速进展也为算法引擎供给了大量的数据“食粮”。在海量的数据红利下,云端计算软硬件系统的算力增加使其可以或许快速处理海量数据,再加上边沿计算的能力加强、功耗降低等身分,语音交互的“基础举措措施”已逐步成熟。是以,智能语音交互利用的鼓起也就瓜熟蒂落。

但是,尽管语音辨认在这几年里得到敏捷进展,但是今朝业界宣称的“语音辨认精确度达到了90%以上”(Google在2017年6月宣称已达到95%的精确率)实际上是尝试室数据。“非纯净前提下”的实际糊口里,这个精确率则降至50-70%,乃至更低。

智能语音产品从人到机器完成一次语音交互,需要经过四个首要的技术环节:语音前端处理、语音辨认(ASR)、天然说话理解(NLP)和语音合成(TTS),即从声音的拾取到转换成文字,到理解其含义并作出反馈,再到将反馈说出。此中语音前端处理属于客户端,后三者则为云端。经过多年的技术积存,语音辨认和语音合成已获得冲破,基本可以知足商用。而语音前端处理和天然说话理解仍然是语音交互的核心瓶颈。

语音交互的技术链条

作为人机交互的最底层环节,语音前端处理包括回声消弭、声源定向、语音降噪、语音打断、语音唤醒的麦克风阵列,再经由过程麦克风阵列实现复杂噪声环境下的拾音。今朝依然处于贸易低级利用阶段,间隔比较抱负的体验还有相当大的间隔。比如以Siri为代表的近场语音辨认要求必须是低噪声、无混响、间隔声源很近的场景,用户必然要对着手机讲话才能获得符合近场语音辨认要求的声音旌旗灯号,环境略微嘈杂一点语音辨认引擎就失灵了;而以智能音箱为代表的远场语音辨认场景下,仍然存在误唤醒,方言、童音辨认不准和声源移动中的辨认率低劣等题目。

邱锋海以为,今朝智能音箱、智能耳机等产品的技术攻关首要还是在回声消弭、立体回声消弭、去混响、自顺应波束构成(抗干扰)、前端旌旗灯号处理+KWS等;而语音前端旌旗灯号处理的算法一样面对很多挑战,如单通道DNN语音加强、自噪声按捺、多通道DNN语音加强等。同时,他也在演讲最后留下了几个开放性的题目:关于智能音箱的更少的麦克风构成的阵列(2个或者3个),更低的计算功耗,更长的不插电待机时候,更矫捷的唤醒词练习、天生等,蓝牙音箱的智能化(需要本地号令辨认),人机交互是以智能音箱为核心的星型收集结构还是各装备的分布式交互;关于智能耳机的尺寸更小,引入其他传感器后各类型传感器数据融会,更低功耗的唤醒、体验更好的语音交互功能等。

据悉,今朝在智能语音交通商场中,国内玩家首要分为传统语音技术厂商、互联网厂商,和新兴的创业公司。此中大部分集中在语音辨认(ASR)、天然说话理解(NLP)和语音合成(TTS)等云端营业,这也是归结于语音前端处理技术的人材稀缺与实战项目较少、缺少经验积累等。与这些玩家比拟,声加科技更多出力于解决全场景下的语音前端处理,其壮大的研发实力依托于中科院声学所雄厚的人材和科研资本,研发职员均来自于中科院声学所、清华大学、南京大学和中国科学技术大学等国内一流科研院所,核心团队成员亦大多师出于中科院声学所,均匀在业界具有超过十五年工作经验。团队此前已为国内多个巨头企业的智能音箱、智能耳机等明星产品供给远场麦阵模组设计方案、智能耳机麦阵算法、智能耳机模组等技术撑持。

合用于多场景的多元化智能装备

“声学楼”作为国内最为专业和昌大的电声技术钻研会之一,本次大会不仅再一次掀起了中国音频技术交流的高潮,还在开幕当天上午由中国电辅音响行业协会秘书长陈立新公布了《2018中国电辅音响行业进展环境》(白皮书),并约请中科院声学所李晓东教授、魅族声学总监陈爱民、哈曼汽车电子全球研发中间扬声器系统工程总监杨春洪、四川湖山电子高级工程师张康等业内专家分别对智能音箱行业、耳机行业、汽车车载音响行业、专业音响行业的白皮书进行先容。值得一提的是,参与《中国智能音箱行业进展环境》编缉的李晓东教授不仅是邱锋海和声加科技数位成员在声学所进修的导师,也是鼓舞其创业的先辈。

中科院声学所李晓东教授、博导主题先容《中国智能音箱行业进展环境》(2018版)编写环境

成立于2005年的声学楼是一个为声学专业和电声技术职员供给的专业技术和信息交流的开放性论坛。创办以来已有超过十万人来自世界各地的声学工程师注册会员,包括JBL、飞利浦、诺基亚、索尼、三星、松下、前锋、恩智浦半导体、TYMPHANY、CELESTION等世界着名企业的工程师,都有会员加入。国内会员则来自各个单位及科研院所。会员中不乏顶尖高校的硕博士、博导教授和高层治理者。可以说,其论坛影响力在国内声学范畴绝无仅有。

本文系转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。