您的位置：首页 > IT > 正文

环球微动态丨谷歌推出 MusicLM，从文本生成音乐的模型

来源：OSCHINA 时间：2023-02-01 09:30:17

(资料图)

谷歌研究院宣布推出 MusicLM，这是一种从文本描述中生成高保真音乐的模型。MusicLM 将音乐的生成过程视为分层的序列到序列建模任务，并以 24 kHz 的频率生成音乐。

无论文本描述是一段话、一个故事，或仅为一个单词，MusicLM 都能生成对应对应的音乐，还能根据文本中的年代、时间、地点等要素来调整音乐的风格。

MusicLM 主页中有许多样本，可以看到，文本描述中有许多氛围描述的语句，比如“迷失在太空中的体验”、“营造出一种舒缓和冒险的氛围”、“唤起一种惊奇和敬畏的感觉”，也有一些具体的应用场景，比如“街机游戏的配乐”、“适合跳舞”。可以看 MusicLM 可以轻松驾驭这些模糊的描述和具体场景的组合。

除了长文本，MusicLM 也能从一个单词或短语中创造出对应的旋律，比如“摇摆“、”轻松的爵士“、”旋律技术“等：

除此之外还可以按”故事模式“生成音乐，只需设定对应的时间戳，MusicLM 就会根据时间戳生成不同风格的音乐（不过转换起来非常生硬，有种”画风突变“的感觉）。

除了上述生成方式，MusicLM 还可以通过在描述文本中插入一些关键词来精修音乐，如”嗡嗡声“、”原声吉他“”指弹吉他“等。也可以通过”柏林 90 年代的房子“、”加勒比海的海滩“、”19世纪“等描述场景和时代等要素的词汇来调整音乐的风格。

据谷歌研究院介绍，MusicLM 在音频质量和对文本描述的理解方面都优于以前的音频生成 AI 系统，包括谷歌前几个月推出的 AudioLM。为了支持对 MusicLM 的质量评估，谷歌还发布了 MusicCaps 音乐数据集，这是一个由 5.5k 音乐-文本对组成的数据集，包含 5,521 个音乐示例，每个示例都标有由音乐家编写的描述文本。

不过MusicLM 目前并没有对外公开的计划。根据谷歌方面的解释，首先是虽然大多数 MusicLM 生成的音乐还算自然，但很多时候也会生成一些”对人类文明似乎为时尚早“的诡异作品；其次就是 MusicLM 约有 1% 的旋律会直接抄袭训练的音乐数据，凭这一点就不敢公开了。毕竟关于 AI 艺术作品的版权问题正闹得沸沸扬扬，相信 GitHub Copilot被起诉、 Stable Diffusion 因版权问题被起诉也给谷歌带来了不小的震撼。