MusicLM將條件音樂生成過程視為分層的序列到序列建模任務,它以 24 kHz 的頻率生成音樂,並在幾分鐘內保持一致。他們的實驗表明,MusicLM 在音頻質量和對文本描述的遵守方面優於以前的系統。此外,我們證明 MusicLM 可以同時以文本和旋律為條件,因為它可以根據文本標題中描述的風格轉換吹口哨和哼唱的旋律。為了支持未來的研究,我們公開發布了 MusicCaps,這是一個由 5.5k 音樂文本對組成的數據集,其中包含由人類專家提供的豐富文本描述。
MusicLM 將條件音樂生成過程視為分層的序列到序列建模任務,它以 24 kHz 的頻率生成音樂,並在幾分鐘內保持一致。他們的實驗表明,MusicLM 在音頻質量和對文本描述的遵守方面優於以前的系統。此外,我們證明 MusicLM 可以同時以文本和旋律為條件,因為它可以根據文本標題中描述的風格轉換吹口哨和哼唱的旋律。為了支持未來的研究,我們公開發布了 MusicCaps,這是一個由 5.5k 音樂文本對組成的數據集,其中包含由人類專家提供的豐富文本描述。