# Бимодальные модели

## 1. Что такое бимодальные модели

### 1.1 Что такое модальность?

**Модальность** - это тип данных, несущий информацию определенным способом.

Примеры модальностей:
- **Текст** - слова, предложения, статьи
- **Изображения** - пиксели, RGB-значения
- **Аудио** - волны, спектрограммы
- **Видео** - последовательность изображений + звук

### 1.2 Модели: одно- vs мультимодальные

In [8]:
# скриптик для вывода красивой таблички
import pandas as pd

pd.set_option('display.max_colwidth', None)

df = pd.DataFrame({'Тип модели': ['Одномодальная',
                                  'Мультимодальная'],
                   'Что обрабатывает': ['Только одну модальность (например, только текст)',
                                        'Две или больше модальностей (например, текст + изображение)']
                                        })
df.style.set_table_styles([
    {'selector': 'th', 'props': [('text-align', 'left')]},  # Заголовки
    {'selector': 'td', 'props': [('text-align', 'left')]}   # Ячейки
])

Unnamed: 0,Тип модели,Что обрабатывает
0,Одномодальная,"Только одну модальность (например, только текст)"
1,Мультимодальная,"Две или больше модальностей (например, текст + изображение)"


**Бимодальная модель** - частный случай мультимодальной: она объединяет ровно две модальности, чаще всего:
- Текст
- Изображение

## 2. Как работают бимодальные модели

### 2.1 Общее векторное пространство
Нужно, чтобы модель:
- Преобразовывала текст и изображения в векторные представления (эмбеддинги)
- Эти векторы находились в одном векторном пространстве, имели одну размерность
Такое векторное пространство называется совместным (**joint embedding space**)

### 2.2 Компоненты бимодальной модели

In [7]:
df = pd.DataFrame({
    'Компонент': ['Текстовый энкодер', 'Визуальный энкодер', 'Обучение (loss)'],
    'Что делает': [
        'Преобразует текст в вектор',
        'Преобразует изображение в вектор',
        'Делает так, чтобы текст и картинка "сходились", если они относятся к одному смыслу'
    ]
})
df.style.set_table_styles([
    {'selector': 'th', 'props': [('text-align', 'left')]},  # Заголовки
    {'selector': 'td', 'props': [('text-align', 'left')]}   # Ячейки
])

Unnamed: 0,Компонент,Что делает
0,Текстовый энкодер,Преобразует текст в вектор
1,Визуальный энкодер,Преобразует изображение в вектор
2,Обучение (loss),"Делает так, чтобы текст и картинка ""сходились"", если они относятся к одному смыслу"


### 2.3 Эмбеддинги
**Эмбеддинг** - это вектор (набор чисел), который отражает смысл входных данных.
Если смысловое содержание текста и картинки схоже, то их эмбеддинги должны быть близки по косинусной мере (расстояние между векторами должно быть небольшим).