你的 AI 会犯错。为了合成出声音,AI 需要做一连串的决定,一但这些决定出错,就会导致最终合成出来的声音有问题,有强烈的机械感,听着不自然。TTS 的前端系统和后端系统都有犯错的可能。
使用 AI 合成声音时,工程师对这个问题过度简化,导致没有准确的刻画声音生成的过程。这种简化一方面是来自于我们人类自己对语言,和人类语音生成的认识还不足够;另外一方面也来自于商用语音合成系统在运转的时候要对成本控制进行考量。
文本结构分析
文本正则
文本转音素
韵律预测
作者介绍:郑杰文,爱丁堡大学人工智能硕士,师从国际著名语音合成专家 Simon King 教授。现任职 Rokid ALab 语音合成算法工程师,负责语音合成引擎架构设计,后端声学模型开发等工作。