Фото Getty Images Ученые научно-исследовательского Института искусственного интеллекта AIRI разработали первую в России мультимодальную модель ИИ, способную поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, выяснил Forbes. Она получила название OmniFusion, поддерживает русский язык, а open-source-код для обучения доступен к использованию и может применяться в том числе при разработке коммерческих продуктов. Мультимодальные модели открывают новые возможности для анализа информации и выводов, но для обучения и корректной работы продуктов на их основе нужен гигантский объем качественно размещенного контента, предупреждают аналитики Изобразительное искусство

Как сообщили Forbes в научно-исследовательском Институте искусственного интеллекта AIRI, OmniFusion — мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например изображений, а в перспективе — аудио, 3D- и видеоконтента. Ее обучением занимается научная группа FusionBrain Института AIRI при участии ученых из Sber AI и SberDevices. Модель распознает и описывает изображения, с ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей, приводят примеры в AIRI.

OmniFusion также умеет распознавать текст и решать логические задачи. Например, с ее помощью можно решить написанный на доске математический пример или распознать формулу, а также получить их представления в формате LaTeX (ПО, в котором работают ученые, в том числе из сферы ИИ и компьютерных наук, математики, позволяет проще и удобнее работать с длинными и сложными формулами). «Спектр возможностей широкий: уже сейчас модель может проанализировать медицинское изображение [снимок] и указать на нем какую-то проблему. Разумеется, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины», — указывают в AIRI.

Источник