Команда Яндекса представила новое поколение визуальной нейросети — YandexART 2.0. Как сообщили в пресс-службе, модель научилась лучше понимать запросы пользователя и учитывать больше деталей. Также она может комбинировать разные стили в одном изображении, генерировать логотипы и добавлять на изображения текст на латинице.
В Яндекс рассказали:
Пользователи могут применять новые возможности, чтобы развивать своё дело, например: создать логотип для бренда, этикетку продукта, иллюстрации для сайта и постов в социальных сетях, а компании — чтобы повысить эффективность рекламных и маркетинговых кампаний.
В основу YandexART 2.0 легла собственная разработка компании — новая гибридная архитектура модели, которая сочетает качество работы свёрточной и трансформерной нейросетей. Свёрточная модель работает по принципу человеческого глаза и выявляет на картинке важные признаки — края, текстуры и формы. При этом нейросеть с такой архитектурой не умеет учитывать длинный контекст (поэтому ей трудно справляться с большим количеством деталей в описаниях), зато это умеет трансформер. Объединение двух этих моделей в YandexART 2.0 позволило ей точнее следовать текстовым запросам.
YandexART обучалась на сотнях миллионов пар картинок и текстовых описаний к ним. Чтобы повысить качество этих текстов и сделать их более точными, Яндекс использовал собственную VLM-модель. Она анализировала изображения и детально описывала, что на них находится. YandexART 2.0 обучили на улучшенных данных, что помогло нейросети учитывать больше деталей из запроса пользователя.