来源:OSCHINA 时间:2023-02-01 09:30:17
(资料图)
谷歌研究院宣布推出 MusicLM,这是一种从文本描述中生成高保真音乐的模型。MusicLM 将音乐的生成过程视为分层的序列到序列建模任务,并以 24 kHz 的频率生成音乐。
无论文本描述是一段话、一个故事,或仅为一个单词,MusicLM 都能生成对应对应的音乐,还能根据文本中的年代、时间、地点等要素来调整音乐的风格。
MusicLM 主页中有许多样本,可以看到,文本描述中有许多氛围描述的语句,比如“迷失在太空中的体验”、“营造出一种舒缓和冒险的氛围”、“唤起一种惊奇和敬畏的感觉”,也有一些具体的应用场景,比如“街机游戏的配乐”、“适合跳舞”。可以看 MusicLM 可以轻松驾驭这些模糊的描述和具体场景的组合 。
除了长文本,MusicLM 也能从一个单词或短语中创造出对应的旋律,比如“摇摆“、”轻松的爵士“、”旋律技术“等:
除此之外还可以按”故事模式“生成音乐,只需设定对应的时间戳,MusicLM 就会根据时间戳生成不同风格的音乐(不过转换起来非常生硬,有种”画风突变“的感觉)。
除了上述生成方式,MusicLM 还可以通过在描述文本中插入一些关键词来精修音乐,如”嗡嗡声“、”原声吉他“”指弹吉他“等。也可以通过”柏林 90 年代的房子“、”加勒比海的海滩“、”19世纪“等描述场景和时代等要素的词汇来调整音乐的风格。
据谷歌研究院介绍,MusicLM 在音频质量和对文本描述的理解方面都优于以前的音频生成 AI 系统,包括谷歌前几个月推出的 AudioLM。为了支持对 MusicLM 的质量评估,谷歌还发布了 MusicCaps 音乐数据集,这是一个由 5.5k 音乐-文本对组成的数据集,包含 5,521 个音乐示例,每个示例都标有由音乐家编写的描述文本。
不过MusicLM 目前并没有对外公开的计划。根据谷歌方面的解释,首先是虽然大多数 MusicLM 生成的音乐还算自然,但很多时候也会生成一些”对人类文明似乎为时尚早“的诡异作品;其次就是 MusicLM 约有 1% 的旋律会直接抄袭训练的音乐数据,凭这一点就不敢公开了。毕竟关于 AI 艺术作品的版权问题正闹得沸沸扬扬,相信 GitHub Copilot被起诉、 Stable Diffusion 因版权问题被起诉也给谷歌带来了不小的震撼。
OAuthApp v2.1.19 更新 | 前端发布工具 全球速递
ERD Online 4.0.7 在线数据库建模、元数据管理|世界球精选
谷歌 DeepMind 宣布即将推出 ChatGPT 的强力竞争对手