Ви побачите базові моделі для Гуманоїдів, які постійно використовують архітектуру в стилі Системи 2 + Системи 1, яка насправді натхненна людським пізнанням.



Більшість моделей зору-мови-дії (VLA) сьогодні побудовані як централізовані мультимодальні системи, які обробляють сприйняття, мову та дію в межах однієї мережі.

Інфраструктура Codec ідеально підходить для цього, оскільки вона розглядає кожного Оператора як ізольований модуль. Це означає, що ви можете запускати кілька Операторів паралельно, кожен з яких виконує свою модель або завдання, зберігаючи їх при цьому інкапсульованими та координованими через одну й ту ж архітектуру.

Роботи та гуманоїди зазвичай мають кілька мозків, де один оператор може обробляти зорову інформацію, інший відповідати за баланс, інший займатися високорівневим плануванням тощо, що все може координуватися через систему Codec.

Фундаментальна модель Nvidia Issac GR00T N1 використовує архітектуру двох модулів System 2 + System 1. System 2 є моделью зорової мови ( версії PaLM або подібною, мультимодальною), яка спостерігає за світом через камери робота і слухає інструкції, а потім складає високорівневий план.

Система 1 — це політика дифузійного трансформера, яка бере цей план і перетворює його на безперервні рухи в реальному часі. Ви можете уявити собі Систему 2 як обдумуючий мозок, а Систему 1 як інстинктивний контролер тіла. Система 2 може видати щось на кшталт "переміститися до червоного кубка, схопити його, а потім поставити на полицю", а Система 1 згенерує детальні траєкторії суглобів для ніг і рук, щоб плавно виконати кожен крок.

Система 1 була навчена на величезній кількості траєкторних даних (, включаючи демонстрації, керовані людьми, та дані, змодельовані фізикою ), щоб оволодіти точними рухами, тоді як Система 2 була побудована на трансформері з переднатренуванням в інтернеті ( для семантичного розуміння ).

Це розділення розуміння та дій є дуже потужним для NVIDIA. Це означає, що GR00T може виконувати довгострокові завдання, які потребують планування ( завдяки Системі 2), а також миттєво реагувати на perturbations ( завдяки Системі 1).

Якщо робот несе піднос, і хтось штовхає піднос, Система 1 може негайно виправити баланс, а не чекати, поки повільніша Система 2 помітить.

GR00T N1 був однією з перших відкрито доступних моделей фундаменту робототехніки, і вона швидко здобула популярність.

З коробки він продемонстрував навички в багатьох завданнях у симуляції, міг захоплювати та переміщувати об'єкти однією рукою або двома, передавати предмети між руками та виконувати багатоступеневі завдання без програмування, специфічного для завдання. Оскільки він не був прив'язаний до єдиного втілення, розробники показали його роботу на різних роботах з мінімальними налаштуваннями.

Це також вірно для основної моделі Helix (Figure, яка використовує цей тип архітектури. Helix дозволяє двом роботам або кільком навичкам працювати, Codec може забезпечити багатогранний мозок, запустивши кілька Операторів, які обмінюються інформацією.

Цей дизайн "ізольованого модуля" означає, що кожен компонент може спеціалізуватися )так само, як Система 1 проти Системи 2(, і навіть розроблятися різними командами, але вони можуть працювати разом.

Це унікальний підхід у тому сенсі, що Codec створює глибокий програмний стек для підтримки цього модульного, розподіленого інтелекту, тоді як більшість інших зосереджуються лише на самій моделі ШІ.

Codec також використовує великі попередньо навчені моделі. Якщо ви створюєте роботизовану програму на його основі, ви можете підключити модель OpenVLA або модель Pi Zero як частину вашого Оператора. Codec забезпечує з'єднувачі, легкий доступ до відеопотоків з камер або API роботів, тому вам не потрібно писати низькорівневий код, щоб отримати зображення з камери робота або надіслати команди швидкості його моторам. Все це абстраговано за допомогою високорівневого SDK.

Одна з причин, чому я так оптимістично налаштований щодо Codec, саме те, що я виклав вище. Вони не переслідують наративи, архітектура побудована для того, щоб стати клеєм між фундаментальними моделями, і вона безперешкодно підтримує багатоголові системи, що є критично важливим для складності людинообразних.

Оскільки ми ще на початку цієї тенденції, варто вивчити дизайни лідерів галузі та зрозуміти, чому вони працюють. Робототехніку важко зрозуміти через шари апаратного та програмного забезпечення, але як тільки ви навчитеся розкладати кожен розділ на частини, це стає значно легшим для засвоєння.

Це може здаватися марною тратою часу зараз, але це той самий метод, який дав мені перевагу під час сезону ШІ і чому я був першим у багатьох проектах. Станьте дисциплінованими і навчіться, які компоненти можуть співіснувати, а які не масштабуються.

Це принесе дивіденди в найближчі місяці.

Дека трильйони ) $CODEC ( закодовано.
LL0.57%
VSN-2.29%
IN-6.6%
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити