拼接合成
拼接合成是最早得到实用化的歌声合成原理。声音提供者将一种语言中所有的发音录制下来,储存为音源。合成时,引擎从音源中调用对应的发音音频,经过变调,时长拉伸等处理后,拼接为歌声。
与AI合成相比,拼接合成机械感较重,但用户对成品拥有更精细的控制力。
目前,对于拼接合成的探索开发主要基于UTAU框架进行。除此之外,袅袅虚拟歌手和DeepVocal也采用拼接合成,并提供了更强的封装与抽象,降低了学习门槛。
拼接合成方案 编辑
单独音 编辑
单独录制一种语言中的所有音节,而不考虑前后音节之间的衔接,称为单独音。
袅袅虚拟歌手是基于单独音的引擎,但不支持介母固定段,不推荐。
在UTAU上使用中文单独音时,由于UTAU针对日文开发,不支持韵尾固定段,合成短音符时会切去韵尾。所以需要将韵尾拆分为一个单独的音符。这一方案被称为“扩张整音”。
Syo方案在扩张整音的基础上,合并了部分相似音素,将所需录音数量由403缩减至324
CVVC 编辑
除一种语言中的所有音节以外,还录制所有的“元音-下一个音节的辅音”过渡段的方案,称为CVVC。其中,“辅音-元音”的完整音节称为CV部,而过渡段称为VC部。使用时需将每一个音节拆分为CV和VC两个部分。
在UTAU上使用CVVC时,需要手动或用插件拆音。DeepVocal、OpenUTAU、VocalSharp提供了对CVVC的封装,无需手动拆音。
VCV 编辑
在CVVC的基础上,把上一个音节的VC部和下一个音节的CV部合并的方案,称为VCV。与CVVC相比,VCV提供了完整的辅音口型变化,比CVVC更自然。
目前,日文音源一般采用VCV方案,而中文VCV由于录音量太庞大,很少有中文音源采用VCV方案。