英偉達用 AI 給紀錄片配音：情緒節奏穩穩拿捏，不說根本聽不出來

來源：中國電商物流網發布時間：2021-9-2 9:49

　　雖然日常和你對話的 Siri 聲音機械，還常常胡亂斷句，但實際上，最新的技術進展顯示，AI 的語音合成能力已經可以說得上是以假亂真。

　　比如英偉達，最近就發布了一個更懂節奏、更具感情的語音合成 AI。

　　在英偉達的紀錄片中，她的自我介紹口齒清晰自不必說，氣息頓挫、情緒把控，播音員范兒絕對夠正。

　　幀級控制合成語音

　　英偉達將在 9 月 3 日的語音技術頂會 Interspeech 2021 上展示該項目的最新成果。

　　不過，其背后的技術，此前就已經幫助自家數字人在 SIGGRAPH Real-Time Live 上摘下了最佳展示獎。

　　核心是名為 RAD-TTS 的語音合成方法。

　　這是一個并行的端到端 TTS 模型。與此前的并行方法不同，RAD-TTS 將語音節奏作為一個單獨的生成分布來建模。如此，在推理過程中，語音的持續時間就能被更好地控制。

　　從 RAD-TTS 的演示界面中也可以看出，用戶可以在幀級別上控制合成語音的音調、持續時間和節奏力度。

　　研究人員還介紹，RAD-TTS 既可以將任意文本轉換成說話人的聲音，也可以將一個說話人的聲音(甚至是歌聲)轉換成另一個人的聲音。

　　也就是說，合成語音的制作人可以像指導配音演員一樣去“指導”AI，讓它學會哪個單詞應該重點突出、節奏如何把控更符合創作基調等等。

　　機器語音能有多真實?

　　其實，不只是英偉達，此前，小冰也發布過超級自然語音技術。

　　把一句人類的語音混進小冰的語音里，你能分辨到底哪一句來自真正的人類嗎?

　　不過，小冰公司 CEO 李笛此前曾表示，AI 的聲音太接近真人，就很有可能被濫用。因此小冰禁止為普通個人訓練聲音。

　　但這樣的技術，也正在通過電臺、便利店等更多商業場景，走進人們的日常生活。

　　參考鏈接：

　　[1] 論文地址：https://openreview.net/forum?id=0NQwnnwAORi

　　[2]https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/

特別提醒：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

上一篇：消息稱谷歌自研筆記本專用 CPU 芯片，將于 2023 年推出首款產品

下一篇：AMD 公布 FSR 超級分辨率銳畫技術對比視頻，幀率提升最高 1.9 倍

相關資訊