Эксперты из Google Research представили MusicLM — новую нейросеть, которая умеет писать музыку по текстовому описанию. Картинок от DALL-E 2 и Stable Diffusion насмотрелись, теперь пришло время слушать треки.
MusicLM хранит в себе базу данных из 280 000 часов музыки. Алгоритмы в силах создать композицию в 24 кГц и в любом жанре. Пользователь даже может добавлять уточнения, например, «динамичный саундтрек аркадной игры с элементами электрогитары».
Также MusicLM может соединять разные треки в один и создавать «музыкальную историю» — трек, в котором одна песня плавно перетекает в другую. Последняя особенность: можно выбрать уровень исполнителя, указав «начинающий пианист» или «виртуоз».
Первый недостаток нейросети от Google: песни зачастую имеют искаженное качество. Вторая проблема: MusicLM плохо справляется с созданием вокала — сгенерированная речь получается бессмыслицей или сильно напоминает голос робота.
Google Research опубликовала исходный код MusicLM на GitHub. Это значит, что любой желающий может попробовать нейросеть и встроить ее в свои платформы.
Источник: hi-tech.mail.ru