昨天,合肥警方通報稱網傳涉盧某某音視頻系偽造。
不過,在警方發布通告后,魏某悄悄改了名,刪了視頻。
然后就可以生成一個角色,這個角色的音色和我們訓練的素材是一樣的。簡單理解為克隆了素材中音色,生成了一個虛擬人。
而且是使用的該平臺的免費模式,并沒有使用精度更高的收費模式。
筆者個人感覺,如果有音質更好的素材,或者選擇精度更高的訓練模式,效果會更加逼真。
估計稍加調教,會生成接近于人自然發聲的效果。
“操”字的發音暴露蛛絲馬跡
不過在嘗試復現的過程中,筆者也發現了一些蛛絲馬跡,主要體現在一些字的發音上。
因為盧的真人視頻網上很多,對比一些詞的發音不算難事。
比如在臟話“操”這個字上,盧在真人視頻中發音為“cào”,而錄音門里的都是“cāo”。也就是錄音里是一聲,而盧平時發音是四聲。
其實四聲是一個口語發音,筆者查了下操本身并沒有四聲這個音,只有一聲。
此外,筆者也測試了其他音視頻生成平臺,發現機器的發音也都是一聲。
這或許是音頻合成沒注意到的細節。
那段流傳的音頻有很明顯的底噪,聽起來像是翻錄了合成音頻,而且還是做成了社交軟件語音聊天的形式,估計廢了不少功夫。