谷歌(gē)發布Tacotron 2:能更簡單地訓練AI學習演講

來(lái)源:網絡2017-12-20 14:19:07

       

       北京時(shí)間(jiān)12月20日午間(jiān)消息,谷歌(gē)目前在人(rén)工智能語音(yīn)技(jì)術(shù)方面處于領先,而這樣的領先優勢很(hěn)可(kě)能得(de)到進一步鞏固。谷歌(gē)周三發布了Tacotron 2。這是一種訓練神經網絡的新方法,可(kě)以在幾乎沒有(yǒu)任何語法專業性的情況下從文本中生(shēng)成演講。
 
  這項新技(jì)術(shù)利用了谷歌(gē)此前在語音(yīn)生(shēng)成方面最強大(dà)的兩種技(jì)術(shù):WaveNet和(hé)第一代Tacotron。
 
 
  WaveNet每次能生(shēng)成一段講話(huà)音(yīn)頻。盡管效果很(hěn)好,但(dàn)WaveNet需要用到大(dà)量關于語言的元數(shù)據,包括發音(yīn),以及已知的語言特征等等。Tacotron則綜合了更多(duō)高(gāo)級特性,例如語調和(hé)韻律,但(dàn)并不能生(shēng)成最終的演講音(yīn)頻。
 
  Tacotron 2結合了以上(shàng)兩者的優勢,或許已經發揮出了當前技(jì)術(shù)專業性的極限。Tacotron 2使用文本和(hé)文字叙述來(lái)計(jì)算(suàn)所有(yǒu)語言規則,而不再需要人(rén)工明(míng)确告知系統規則。文本本身被轉換為(wèi)Tacotron風格的“梅爾頻譜”,實現節奏和(hé)強調。而單詞本身則基于WaveNet風格的系統來(lái)生(shēng)成。
 
  由此産生(shēng)的音(yīn)頻比以往更好。演講的節奏感很(hěn)好,但(dàn)對于不太直觀的單詞,發音(yīn)可(kě)能有(yǒu)問題。這或許是由于,單詞的來(lái)源不是美式英語,這樣的單詞包括Decorum和(hé)Merlot。研究者表示:“在極端情況下,可(kě)能會(huì)随機産生(shēng)奇怪的噪聲。”
 
  此外,盡管口音(yīn)和(hé)其他語言細節可(kě)以通(tōng)過與WaveNet的交流而輸入,但(dàn)仍然沒有(yǒu)任何方式去控制(zhì)演講的語調情緒,例如樂觀或擔憂。
 
  降低(dī)系統訓練障礙意味着可(kě)以訓練更多(duō)更好的系統。研究人(rén)員已經将研究成果提交至IEEE國際聲學語音(yīn)和(hé)信号處理(lǐ)大(dà)會(huì),論文已發表至arXiv。
标簽:谷歌(gē)AI人(rén)工智能