拼接合成
拼接合成是最早得到實用化的歌聲合成原理。聲音提供者將一種語言中所有的發音錄製下來,儲存為音源。合成時,引擎從音源中調用對應的發音音頻,經過變調,時長拉伸等處理後,拼接為歌聲。
與AI合成相比,拼接合成機械感較重,但用戶對成品擁有更精細的控制力。
目前,對於拼接合成的探索開發主要基於UTAU框架進行。除此之外,裊裊虛擬歌手和DeepVocal也採用拼接合成,並提供了更強的封裝與抽象,降低了學習門檻。
拼接合成方案[編輯 | 編輯原始碼]
單獨音[編輯 | 編輯原始碼]
單獨錄製一種語言中的所有音節,而不考慮前後音節之間的銜接,稱為單獨音。
裊裊虛擬歌手是基於單獨音的引擎,但不支持介母固定段,不推薦。
在UTAU上使用中文單獨音時,由於UTAU針對日文開發,不支持韻尾固定段,合成短音符時會切去韻尾。所以需要將韻尾拆分為一個單獨的音符。這一方案被稱為「擴張整音」。
Syo方案在擴張整音的基礎上,合併了部分相似音素,將所需錄音數量由403縮減至324
CVVC[編輯 | 編輯原始碼]
除一種語言中的所有音節以外,還錄製所有的「元音-下一個音節的輔音」過渡段的方案,稱為CVVC。其中,「輔音-元音」的完整音節稱為CV部,而過渡段稱為VC部。使用時需將每一個音節拆分為CV和VC兩個部分。
在UTAU上使用CVVC時,需要手動或用插件拆音。DeepVocal、OpenUTAU、VocalSharp提供了對CVVC的封裝,無需手動拆音。
VCV[編輯 | 編輯原始碼]
在CVVC的基礎上,把上一個音節的VC部和下一個音節的CV部合併的方案,稱為VCV。與CVVC相比,VCV提供了完整的輔音口型變化,比CVVC更自然。
目前,日文音源一般採用VCV方案,而中文VCV由於錄音量太龐大,很少有中文音源採用VCV方案。