Поиск с помощью видео и голоса появился в Google Lens

В мае этого года на конференции I/O 2024 Google анонсировала новые возможности голосового и видеопоиска в Google Lens. Теперь компания внедряет эти новшества в Lens, что, несомненно, сделает поиск на наших устройствах гораздо проще и удобнее.

 

Видеопоиск в Google Lens с использованием модели Gemini

 

Google в настоящее время внедряет эту функцию в Search Labs на Android и iOS. Однако на данный момент функция голосового поиска в Lens доступна только для запросов на английском языке.

 

Функция видеопоиска использует возможности ИИ и предоставляет результаты поиска, основанные на содержимом видео и вашем вопросе.

 

 Как ею воспользоваться? В демонстрационном видео, показанном на мероприятии I/O, компания Google продемонстрировала, как человек, интересующийся рыбами в аквариуме, открывает приложение Google Lens,  и запускает поиск долгим нажатием на кнопку затвора.

 

Когда Lens начинает запись, пользователи могут задавать вопросы на основе того, что они видят. В ответ на вопрос “Почему они плавают вместе?” Lens ответила с помощью Google Gemini.

 

Возможность поиска с помощью видео позволяет показать поисковой системе, как объекты движутся, и задавать вопросы об этом, что делает Google Lens гораздо более полезным для определенных сценариев. Вы можете использовать эту функцию, присоединившись к эксперименту “AI Overviews and more” в экспериментальных функциях поиска Search Labs.

 

Как работает функция

 

Для тех, кто интересуется, как работает эта функция, вице-президент по инженерии Google, Раджан Патель, объяснил, что Google захватывает видео “как серию кадров изображения и затем применяет те же методы компьютерного зрения”, которые уже использует Lens. Ответы поступают от пользовательской модели Gemini, которую компания разработала для понимания нескольких кадров в последовательности. После обработки кадров модель использует информацию из интернета, связанную с темой, для генерации ответа.