拼接合成

来自自制歌声合成引擎wiki
Oxygendioxide留言 | 贡献2021年12月2日 (四) 08:06的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

拼接合成是最早得到实用化的歌声合成原理。声音提供者将一种语言中所有的发音录制下来,储存为音源。合成时,引擎从音源中调用对应的发音音频,经过变调,时长拉伸等处理后,拼接为歌声。

AI合成相比,拼接合成机械感较重,但用户对成品拥有更精细的控制力。

目前,对于拼接合成的探索开发主要基于UTAU框架进行。除此之外,袅袅虚拟歌手DeepVocal也采用拼接合成,并提供了更强的封装与抽象,降低了学习门槛。

拼接合成方案[编辑 | 编辑源代码]

单独音[编辑 | 编辑源代码]

单独录制一种语言中的所有音节,而不考虑前后音节之间的衔接,称为单独音。

袅袅虚拟歌手是基于单独音的引擎,但不支持介母固定段,不推荐。

UTAU上使用中文单独音时,由于UTAU针对日文开发,不支持韵尾固定段,合成短音符时会切去韵尾。所以需要将韵尾拆分为一个单独的音符。这一方案被称为“扩张整音”。

Syo方案在扩张整音的基础上,合并了部分相似音素,将所需录音数量由403缩减至324

CVVC[编辑 | 编辑源代码]

除一种语言中的所有音节以外,还录制所有的“元音-下一个音节的辅音”过渡段的方案,称为CVVC。其中,“辅音-元音”的完整音节称为CV部,而过渡段称为VC部。使用时需将每一个音节拆分为CV和VC两个部分。

UTAU上使用CVVC时,需要手动或用插件拆音。DeepVocalOpenUTAUVocalSharp提供了对CVVC的封装,无需手动拆音。

VCV[编辑 | 编辑源代码]

在CVVC的基础上,把上一个音节的VC部和下一个音节的CV部合并的方案,称为VCV。与CVVC相比,VCV提供了完整的辅音口型变化,比CVVC更自然。

目前,日文音源一般采用VCV方案,而中文VCV由于录音量太庞大,很少有中文音源采用VCV方案。

相关内容[编辑 | 编辑源代码]

基于拼接合成的软件列表