# Мультимодальные модели

![Снимок экрана 2024-02-20 в 17.10.02.png](attachment:d75a1763-c7bb-4d69-8b80-e14b7b4b5c90.png)

## Визуальные мультимодальные модели

![image.png](attachment:beb8a0e9-eab4-4694-aaca-328a89975560.png)

### Какие задачи решает?

![image.png](attachment:7a663432-d4ea-4ba4-a68c-f7194566d36b.png)

#### VQA, Visual Question Answering

это процесс, где ответ на вопрос генерируется с учетом визуальных входных данных (изображений или видео)

![image.png](attachment:8c93aa5c-018f-4a86-bb7d-908b6a064b25.png)

#### VC, Visual Captioning

это процесс, где генерируется описание к визуальным входным данным

![image.png](attachment:e2a18676-5b7c-41aa-8541-be520f1cdac1.png)

#### VCR, Visual Commonsense Reasoning

процесс, где визуальные данные интерпретируются с точки зрения общего понимания и когнитивного восприятия

#### VG, Visual Generation

процесс, при котором визуальные данные создаются на основе текстового запроса

![image.png](attachment:8ef77a7a-be7c-4d33-8bbe-b783f54901b6.png)

#### MAC, Multimodal Affective Computing

интерпретация визуальных эмоциональных проявлений на основе визуальных и текстовых данных или, в некотором смысле, мультимодальный анализ настроения

#### NLVR, Natural Language for Visual Reasoning

оценка истинности того или иного утверждения о визуальных входных данных

#### VR, Visual Retrieval

сбор изображений исключительно на основании текстового описания

![image.png](attachment:2f90f947-8a34-429f-956a-51f3b764d1d7.png)

#### VLN, Vision-Language Navigation

движение в пространстве, которым программа управляет на основе текстовых инструкций

![image.png](attachment:1d93c2e7-151a-4ea9-bb98-173a5e2cb7f7.png)

#### MMT, Multimodal Machine Translation

перевод описания с одного языка на другой с учетом дополнительной визуальной информации


### Какие архитектуры используются?

#### Двухпотоковые модели: ViLBERT

«Двухпотоковая модель» обозначает VL-модели, где текст и изображения обрабатываются в двух отдельных модулях. В эту категорию входят ViLBERT и LXMERT.

При обучении ViLBERT используются пары «изображение + текст». Текст кодируется через токены и позиционные эмбеддинги — стандартные для трансформеров процессы. Затем он обрабатывается в модуле внутреннего внимания (self-attention) трансформера. Изображение декомпозируется до отдельных, неперекрывающих друг друга фрагментов, которые затем представляются в виде векторов, подобно эмбеддингам фрагментов из визуальных трансформеров.

Для обучения с использованием пар «изображение + текст» используется модуль co-attention — он определяет значения важности по обоим эмбеддингам — изображений, и текста.

![image.png](attachment:f7a28b19-c5bb-403a-967f-20f0bedb73f7.png)

![image.png](attachment:c11b7114-1949-4ed1-8bdf-cebab7e4fcdb.png)

#### Однопотоковые модели

Модели типа VisualBERT, VL-BERT, UNITER работают иначе — они с обеими модальностями работают внутри одного модуля. Например, в VisualBERT используется трансформер, который объединяет области изображения с текстом и обнаруживает соответствия между ними. То есть к стандартной модели BERT добавляются эмбеддинги визуальных данных. В состав эмбеддинга входят:

- представление визуальных характеристик области изображения, генерируется через CNN;

- эмбеддинг фрагмента, который позволяет отличать эмбеддинг изображения от эмбеддинга текста;

- позиционный эмбеддинг, который устанавливает соответствие между областью изображения и словами, если они есть во входных данных.

![image.png](attachment:020e3b3a-b7b8-4fa8-8a55-d52e4167ef46.png)

### Как их обучать?

- Маскированное языковое моделирование (Masked Language Modeling) часто применяется, когда трансформер обучается только на тексте. Токены входного текста маскируются рандомно. Модель учится предугадывать значения замаскированных токенов (слов). В случае с BERT, модель может использовать соседние токены в качестве контекста благодаря двунаправленному обучению.

![image.png](attachment:4eb835c1-63ec-482a-bf07-d11ef546f9dd.png)

- Прогнозирование следующего предложения (Next Sequence Prediction) тоже применимо только для текста в качестве входных данных; здесь оценивается, подходит ли то или иное предложение в качестве продолжения входного. Обучаясь на верных и ложных предложениях, модель может выявлять долгосрочные зависимости.

![image.png](attachment:004510f4-d6db-4017-97ae-7deb4284b392.png)

- Маскированное моделирование области (Masked Region Modeling): аналогично маскированному языковому моделированию, здесь маскируются области изображения. Модель учится предугадывать характеристики замаскированной области.

- Сопоставление изображения и текста (Image-Text Matching): модель учится прогнозировать, подойдет ли предложение для конкретного изображения.

- Соотношение слова и области (Word-Region Alignment): модель ищет соответствия между словами и областями изображения.

- Маскированная классификация областей (Masked Region Classification): модель предугадывает класс объекта на каждой замаскированной области изображения.

- Регрессия признаков замаскированной области (Masked Region Feature Regression): модель связывает замаскированную область изображения с ее визуальными признаками

- Предобучение VL-модели без учителя обычно предполагает, что модель предобучается на входных данных одной модальности, то есть без подготовленных пар «изображение + текст». Но затем, уже при тонкой настройке, она полноценно «доучивается с учителем».

- Многозадачное обучение — модель обучается на нескольких задачах одновременно, чтобы изученное в рамках одной задачи применялось в другой.

- Контрастное обучение применяется, чтобы модель в полуавтоматическом режиме изучала эмбеддинги визуально-семантических данных. Основная идея — изучить пространство эмбеддингов, где схожие пары располагаются близко друг к другу, а непохожие — далеко.

- Zero-shot learning (обучение с нуля) — в момент вывода данных модель обобщает информацию и применяет ее к еще незнакомым классам.

### Генеративные модели VL

#### DALL-E

DALL-E используется для визуальной генерации (VG) и создает точные изображения на основе текстового описания. Обучение также производится на основе пар «изображение + текст».

DALL-E использует скрытый вариационный автоэнкодер (dVAE), чтобы преобразовывать изображения в токены. В отличие от стандартного VAE, dVAE в основном использует скрытое пространство. Текст токенизируется через кодирование пар байтов. Токены изображения и текста объединяются и обрабатываются как единый поток данных.

![image.png](attachment:0f5f971d-c25b-4e8a-ba05-f1f2f6385a80.png)

![image.png](attachment:581a773d-2322-41a4-a577-d971ac6f3a5b.png)

### GLIDE

Как и DALL-E, GLIDE — это еще одна генеративная модель, но по производительности она превосходит предыдущие. GLIDE — это, по свой структуре, диффузионная модель.

![image.png](attachment:50faeeb5-6d78-473f-a4f4-c46c88931886.png)

### VL-модели с контрастным обучением

CLIP решает задачу использования естественного языка в оценке визуальных данных (NLVR, Natural Language for Visual Reasoning), и пытается соотносить изображение с конкретной меткой на основе контекста. Обычно метка — это фраза или предложение, описывающие изображение. Интересно, что классификатор умеет работать «с нуля»: его можно использовать для меток, не встречавшихся модели ранее.

![image.png](attachment:a77f4b1c-bd72-4e89-953d-dac2e1f6b080.png)

In [None]:
# image_encoder - ResNet, или визуальный трансформер
# text_encoder - CBOW, или текстовый трансформер


# I[n, h, w, c] - мини-пакет связанных изображений
# T[n, l] - мини-пакет связанных текстов
# W_i[d_i, d_e] - изученная проекция эмбеддингов изображения
# W_t[d_t, d_e] - изученная проекция эмбеддингов текста
# t - изученное значение температуры


# полученные представления признаков данных каждой модальности
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T) #[n, d_t]


# общий эмбеддинг мультимодальных входных данных [n, d_e]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)


# попарно масштабированные косинусные сходства [n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)


# функция симметричных потерь
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t)/2

CLIP плохо справляется с абстрактными понятиями и слабо генерализирует изображения, не охваченные данными для предобучения.

![image.png](attachment:f4eeb1b9-8fbf-478f-a20f-6dd717fa8616.png)

### Улучшенные векторные представления визуальных данных

Если тексты в основном кодируются модулями типа трансформеров, то кодирование визуальных данных остается полем для исследований. За несколько лет испытывались различные подходы. Изображения обрабатывались с помощью стандартного CNN, ResNet или трансформеров. В DALL-E для сжатия визуальной информации в скрытом пространстве даже использовался dVAE. Это можно сравнить с преобразованием слов в скрытый набор эмбеддингов, из которых составлялся словарь, только для фрагментов изображений. Сейчас, однако, в приоритете разработка улучшенных модулей кодирования изображений.

#### VinVL
С этой целью создатели VinVL, используя четыре публичных набора данных, предобучили новую модель обнаруживать объекты. Затем они добавили ветвь attribute/атрибут (=небольшое текстовое описание к изображению) и доработали ее, после чего модель научилась обнаруживать и объекты, и атрибуты.

Созданная объектно-атрибутная модель — по сути модификация модели Faster-RCNN. Ее можно использовать для получения точных представлений изображений.

#### SimVLM

В SimVLM, напротив, используется версия визуального трансформера (Vit). Здесь хорошо известный алгоритм проекции фрагментов изображений заменили тремя блоками ResNet, чтобы получить векторы этих фрагментов (см. этап “Conv Stage” на рисунке ниже). Эти блоки обучаются вместе со всей моделью, в отличие от других методов, где используется полностью предобученный модуль изображения.

![image.png](attachment:b54bb278-8543-4b36-bf15-5485929798cb.png)

# ML часть финального проекта

Необходимо написать пайплан, который на вход принимает русский текст и генерирует видео по запросу

## Как выглядят text2video модели?

Вот пример диффузионной модели

![image.png](attachment:00eeacf8-fe3e-4f67-98a6-f5886bf7b223.png)

Можно также потыкать https://github.com/AUTOMATIC1111/stable-diffusion-webui