В основе каждого примера — изображение, сгенерированное ИИ-моделью Imagen 3 на основе текстовой подсказки

По словам Google DeepMind, Genie 2 может генерировать последовательные интерактивные миры продолжительностью около минуты, хотя большинство показанных (см. видео ниже) примеров длятся 10−20 секунд.

По сравнению с первой версией Genie 2:

может запоминать элементы мира, которые не находятся в поле зрения;
может создавать окружение с разными перспективами (от первого или третьего лица, изометрическая камера и так далее);
может создавать комплексные трёхмерные сцены;
может моделировать разнообразные взаимодействия с объектами вроде лопания воздушных шаров, открытия дверей или подрыва взрывоопасным бочек выстрелом;
научилась анимировать персонажей разных типов;
научилась моделировать NPC и взаимодействия с ними;
научилась моделировать эффекты воды, дыма, гравитацию, освещение, отражения;
научилась моделировать интерактивное окружение на основе реальных фотографий.

По мнению Google DeepMind, Genie 2 демонстрирует потенциал фундаментальных моделей мира для создания разнообразных трёхмерных окружений и ускорения тренировок/тестирования ИИ-агентов (вроде того же SIMA).

Google DeepMind уточняет, что исследование находится на ранней стадии и требует значительных улучшений в областях возможностей агентов и генерации среды, но уже видит в Genie 2 решение структурной проблемы безопасной тренировки ИИ-агентов.

Гид по выбору OLED-монитора в 2026 году: эволюция в деталях

Обзор GIGABYTE GAMING A16 PRO: самый доступный игровой ноутбук с графикой на 16 Гбайт

Обзор смартфона vivo X300 FE: маленький принц

genie 2, google deepmind, ии, ии