Роботи вчаться копіювати людей завдяки Apple Vision Pro

Роботи вчаться копіювати людей завдяки Apple Vision Pro

Нова технологія, що прискорить розвиток штучного інтелекту

Apple працює разом із провідними університетами — MIT, Carnegie Mellon, Університетом Вашингтона та UC San Diego. Разом вони розробили новий метод навчання гуманоїдних роботів. 

Як розповідає 9to5mac, ідея полягає у тому, щоб використовувати відео з першої особи. У цих відео людина взаємодіє з різними об’єктами. 

Такі записи застосовують для тренування універсальних моделей роботів, які можуть виконувати різноманітні завдання. Це дозволяє навчати роботів загального призначення більш ефективно.

Дослідники зібрали понад 25 тисяч демонстрацій від людей і 1500 демонстрацій від роботів, які увійшли до спільного датасету PH2D. Ці дані були використані для створення уніфікованої AI-моделі, яка здатна керувати реальним гуманоїдним роботом у фізичному світі.

Автори роботи зазначають, що навчання роботів лише на основі демонстрацій роботів є трудомістким і дорогим процесом, який важко масштабувати. Тому вони запропонували більш доступне джерело даних — записи дій людини з першої особи. Це дозволяє більш масштабно збирати інформацію для тренування.

Для збору даних команда розробила додаток для Apple Vision Pro, який використовує камеру знизу зліва та технологію ARKit для відстеження рухів голови і рук у 3D. Окрім цього, вони створили 3D-друкований кріплення для камери ZED Mini Stereo, яке можна прикріпити до інших шоломів, наприклад Meta Quest 3. Це дає схожу 3D-трекінг можливість за менші гроші.

Такий підхід дозволяє записувати високоякісні демонстрації за секунди, що значно швидше і дешевше порівняно з традиційними методами дистанційного керування роботами. Через те, що люди рухаються швидше за роботів, відео з людськими діями під час тренування сповільнювали у 4 рази, щоб робот міг за ними встигати.

Головною інновацією стала модель Human Action Transformer (HAT). Вона навчається на даних і від людей, і від роботів в одному форматі. Це дозволяє системі бути більш гнучкою та ефективно використовувати дані.

Завдяки спільному тренуванню модель значно краще справляється зі складними завданнями. Вона може виконувати навіть ті задачі, які раніше не зустрічались. Це відбувається ефективніше, ніж при використанні традиційних методів навчання.

Це дослідження є дуже цікавим і важливим для розвитку робототехніки. Воно відкриває нові можливості та шляхи навчання роботів. Основою для навчання стають людські дії, які робот може повторювати.

Нагадаємо, що Apple знову опинилась під тиском суду. Вимагають, аби гра Fortnite повернлась в App Store.