← Все статьи

Gemini Omni Video: что умеет видеорежим Google в реальном времени

Gemini Omni Video: что умеет видеорежим Google в реальном времени

На прошлой неделе коллеги скинули видос — человек показывает гардероб в прямом эфире, а Gemini в реальном времени комментирует вещи и предлагает образы. Первая мысль: «ну очередная демка, которая в жизни не работает». Вторая мысль, после проверки: работает. Не идеально, но работает.

Откуда взялось слово «Omni»

«Omni» — это «всё сразу». Как GPT-4o (omni), так и в Gemini появился режим, где модель работает с текстом, голосом, изображениями и видео одновременно. Не по очереди. Не «сначала кадр — потом ответ». Именно потоком.

Конкретно Gemini Omni Video умеет принимать прямой поток с камеры и реагировать на происходящее в реальном времени. Называть объекты. Читать текст на экране. Отвечать на вопросы о том, что показывают в кадре прямо сейчас.

Технически это называется Multimodal Live API. Видеопоток идёт на серверы Google, модель его обрабатывает и отдаёт ответ с задержкой в 200–400 мс. Это уже похоже на разговор, не на запрос-ответ.

Что именно делает модель с видео

Важно разграничить три разных вещи:

  • Анализ загруженного видео — закидываешь ролик, просишь описать или найти нужный момент. Это работало ещё в 2024-м.
  • Режим реального времени — модель смотрит через камеру вместе с тобой. Это уже принципиально другое.
  • Генерация видео — здесь Google отдельно запустил Veo 3, это другая история и другой инструмент.

В режиме Omni Live ты можешь направить телефон на сломанный электрощиток и спросить «что не так» — и получить ответ почти мгновенно, не ждать загрузки. Или показать блюдо в ресторане и узнать примерный состав. Или показать свой код на мониторе и сразу получить комментарий.

Реальный кейс: разборка кода через камеру

Один из самых рабочих сценариев — стримить экран во время отладки. Открываешь Google AI Studio, включаешь видеорежим, показываешь IDE. Спрашиваешь: «почему здесь null?» — модель видит конкретный стектрейс и отвечает по делу.

Работал так с Python-скриптом минут двадцать. Задержка маленькая, ответы по существу. Единственное — через 20 минут телефон начал греться, пришлось переключиться на ноутбук.

Ещё хорошо работает с документами. Кладёшь бумагу перед камерой, задаёшь вопросы — модель читает текст и отвечает. Для нестандартных шрифтов иногда ошибается, но в целом точность приличная.

Где подвох

Расскажу честно про то, что бесит.

Во-первых — доступ. Gemini 2.0 с Omni Video живёт в Google AI Studio и в приложении с подпиской Advanced. Пробный период есть. Потом — платить. Карту российского банка не добавить. VPN нужен не только для регистрации, но и для стабильной работы потока.

Во-вторых — приватность. Когда стримишь видео в Google, оно куда-то уходит. Компания говорит «не сохраняем», но это на слово.

В-третьих — лимиты сессии. Бесконечно смотреть нельзя, есть ограничения по длине потока. И качество работы заметно падает при плохом интернете.

Что делать российскому пользователю

Два пути.

Первый — VPN + Google AI Studio. Работает, но с нервами: нужен стабильный коннект, нерусская карта, и иногда сессия просто отваливается.

Второй — собрать рабочий стек из доступных инструментов. На NeuralSpace собраны AI-сервисы с оплатой в рублях, без VPN и без валютных карт. Для видео есть генерация видео — не Omni Live, но для большинства задач хватает. Плюс чат с мультимодальными моделями, работа с изображениями, голосовые инструменты.

Если нужна именно «смотрю в камеру и общаюсь в реальном времени» — такого формата пока нет ни у кого из российских сервисов. Это реально инновация Google. Но если задача «проанализировать видеоматериал» или «сгенерировать видеоконтент» — справятся и отечественные инструменты, и зарегистрироваться там можно прямо сейчас без VPN.

Что выбирать — зависит от задачи. И от того, насколько ты готов возиться с VPN ради 20 минут демки.