GoogleCloud的文本转语音/语音转文本API获重大更新

Google Cloud 的文本转语音(Text-to-Speech)和语音转文字(Speech-to-Text)两个 API 在今天获得的重磅更新中,引入了对更多语言的支持,会更容易从不同扬声器上听取自动生成的声音,并承诺为语音识别提供改进版工具来提供更好转换效果。在本轮更新中,Cloud Text-to-Speech API 也正式向用户开放。

对于很多开发者来说,本轮更新最为重要的就是发布了 17 种基于 WaveNet 的新语音。WaveNet 是 Google 利用机器学习来创建文本转语音音频文件的技术。在升级之后能够带来更自然的声音体验。在本轮更新中,文本转语音 API 中新增了 14 种语言和相关变体,提供了总计 30 种标准语音和 26 种 WaveNet 语音。

GoogleCloud的文本转语音/语音转文本API获重大更新在语音转文本方面,Google 让开发者更方便的转录多个扬声器上的样本。使用机器学习,这项服务能够识别多个不同扬声器上的语音(不过之前依然需要告知机器会有多少个扬声器样本),然后对扬声器进行编号。同样新版中支持多种语言,开发者最多能够选择四种语言,语音转文本 API 会自动识别当前设备使用哪种语言。

GoogleCloud的文本转语音/语音转文本API获重大更新

本文系转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。