ІІ навчилася відновлювати пісню з музичного відео

Новини
24 липня 2020

ІІ навчилася відновлювати пісню з музичного відео

Далі

Ильнур
Шарафиев

Редактор

Ильнур
Шарафиев

Редактор

Нова модель штучного інтелекту (ШІ) вміє переглядати відео без звуку, де музикант грає пісню на інструменті, і відновлювати цю композицію. В майбутньому ця технологія буде використовувати рухи тіла для відновлення мови та інших звуків.

Вчені з MIT представили систему штучного інтелекту (ШІ) Foley Music, яка генерує музику на основі відео без звуку, де музиканти грають на інструментах. Вони кажуть, що модель працює з різними музичними інструментами і перевершує кілька існуючих систем по швидкості і якості роботи.

Дослідники вважають, що модель ІІ, яка створює музику на основі рухів людини, може стати основою для декількох додатків — від автоматичного додавання звукових ефектів до відео до створення иммерсивных вражень у віртуальній реальності. Дослідники відзначають, що таким навиком мають і люди — наприклад, коли розуміють мова людини по губах.

Foley Music звертає увагу на ключові точки тіла (25 точок) і пальці (20 точок) як проміжні візуальні опорні точки, які вона використовує для моделювання рухів тіла і рук. Після цього система переводить ці рухи в музичні ноти, враховуючи гучність. Так вона може відтворити акордеон, бас-гітару, фагот, віолончель, гітару, фортепіано, укулелеле та інші інструменти.

В ході експериментів дослідники навчили Foley Music трьох наборів даних, що містить тисячу відеокліпів з музичними виконаннями, що належать до 11 категоріях. Так вони змогли зібрати корпус відео різної складності — інструкції з сайту AtinPiano, аматорські відео з каналів на YouTube, уривки з концертів та інші дані.

Дослідники завантажили в систему Foley Music 450 відео. Потім вони віддали отриману музику вченим, які оцінювали результат. В деяких випадках вони відзначали, що «музика схожа на кавер від якісної групи».

Експерти виявили, що згенеровану музику Foley Music важко відрізнити від реальних записів. Більш того, ИИ може поліпшити якість звуку, семантичне вирівнювання та часову синхронізацію.

Читайте також:

— Подивіться на 3D-мапу Всесвіту: її складали 20 років і вона вже здивувала вчених

— Комета NEOWISE видно в Росії. Де її побачити, куди дивитися і як зробити фото

— Три астероїда летять до Землі, і один з них потенційно небезпечний. Чи є загроза?

Источник

Описание admin

Рекомендуем прочесть

Tesla представить двофакторну аутентифікацію

Новини 16 серпня 2020 Tesla представить двофакторну аутентифікацію Далі Ильнур Шарафиев Редактор Ильнур Шарафиев Редактор …