欢迎来到在线AI转换官网

网页收藏

使用教程

语音合成帮你秒变“歌唱家”小王子

互联网技术正悄无声息地改变着我们,就像一种“新重力”,它无处不在又让人习以为常……语音识别早已不是难事,而更为生动的“语音合成”技术,则将成为人工智能下一阶段的关键“赛点”。

日前央视《经典咏流传》第二季,因为一个技术“爆款”而频频问鼎各路社交“热搜榜”。这是一个“读诗成曲”的在线互动小工具,仅仅打开一个H5,扫扫二维码,朗诵一段诗词,就可以听到自己声音演唱的歌曲。这并不是什么“神仙”魔法,恰是目前人工智能领域大热的“语音合成”技术。下面就是在线AI转换中的把文字转换成真人语音的智能AI系统。

语音合成


  背后技术来自江苏——读懂你的“声音DNA”
  鲜为人知的是,“读诗成曲”的技术支撑是一家来自江苏的企业——思必驰。“这个小游戏,主要应用的是语音技术,尤其是个性化歌声合成技术。”思必驰副总裁兼北京研发院院长初敏告诉记者,从一段用户读出的语音到形成个性化的歌曲,从技术角度来说,分为2大处理阶段,即语音识别与语音合成,后者又再细分为两部分,即声学模型加持、韵律模型调节韵律参数。
  所谓声学模型加持,说通俗了就是,收集你的声音数据,形成训练模型,再通过个性化学习后,让生成歌曲的音色像你本人。韵律模型调节韵律参数,则是控制每个音的长短、高低,让旋律对上音拍,自然流畅起来。随后,只要将韵律参数和频谱参数结合,生成歌声,一段你的音色演绎的、旋律似原唱的片段就合成好了。整个流程下来,1~2秒即可合成成功,初敏表示,这一系统,至少支持10万人同时点击使用,并秒出结果。
  在大众看来颇为新奇的“语音合成”技术,其实早已是业界暗涌争夺的“新滩地”。早在2016年谷歌就通过在加拿大蒙特利尔大学建立的人工智能实验室,试水“语音合成”技术,去年,这一项目取得突破性进展——能够在1分钟内模仿任何声音,和普通声音合成软件相比,它能够分析出每个人说话的独特语调。之所以能产生高还原度的合成声音,谷歌依靠的是神经网络和机器学习技术,神经网络模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理。它利用分层的神经元,从大量样本数据中总结出共同特征。
  “不同的声音中包含了很多信息。”神经网络能够从声音样本中抓取关键特征,如音色、音调、音节、停顿等等,而这些关键特征足够定义一个人的声音,这跟人们根据声音判断说话者是一个道理。谷歌该项目的创始人亚历山大·布雷比松把这些关键特征比作声音的DNA,“在学习了很多不同讲话者的声音后,学习一个全新的陌生声音就会快很多,一分钟就足够捕捉声音的DNA中的大部分信息了。”

  如今,越来越多的语音识别技术开始融入到人们的工作生活中,在一些领域语音识别已经凸显出优势。当然,目前语音合成技术仍然需要在数据、经验、用户反馈共同作用下进行提升,此外,语音合成的数据安全,以及破译、分辨机器、人声的新技术也应该伴随着语音“浪潮”共生共长。生活因技术变革而精彩,却又不为其利刃所伤。