<a href="https://colab.research.google.com/github/Alvise84/machine_learning/blob/main/ContextAwareAttention.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ContextAware

Проект, который объединяет различные виды механизма Attention для улучшения качества предсказаний и обучения.

## Шаг 1: Введение и импорт библиотек

### Введение

В этом ноутбуке мы реализуем два вида механизма Attention: Multiplicative Attention и Additive Attention. Мы будем использовать библиотеку NumPy для вычислений и библиотеку Matplotlib для визуализации результатов.

## Что такое Attention?

Attention — это механизм, который позволяет модели фокусироваться на определенных частях входных данных при выполнении задачи. Это особенно полезно в задачах, где входные данные имеют различную важность для конечного результата.

## Зачем нужен Attention?

Attention помогает модели лучше понимать контекст и важность различных частей входных данных, что улучшает качество предсказаний и обучения.

## Почему именно так?

Мы используем NumPy для вычислений, так как это мощная библиотека для работы с массивами и матрицами. Matplotlib используется для визуализации, чтобы мы могли наглядно увидеть результаты.

## Где это может использоваться на практике?

Механизм Attention широко используется в различных областях, таких как:

1. **Машинный перевод**: Attention позволяет модели фокусироваться на определенных частях предложения при переводе, что улучшает качество перевода.
2. **Распознавание речи**: Attention помогает модели фокусироваться на определенных частях аудиосигнала, что улучшает точность распознавания речи.
3. **Генерация текста**: Attention используется для генерации более качественного и контекстуально релевантного текста.
4. **Анализ изображений**: Attention помогает модели фокусироваться на определенных частях изображения, что улучшает задачи классификации и сегментации изображений.
5. **Рекомендательные системы**: Attention используется для улучшения качества рекомендаций, фокусируясь на наиболее релевантных элементах данных пользователя.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## Шаг 2: Реализация функции Softmax

### Функция Softmax

Функция Softmax используется для преобразования вектора значений в вектор вероятностей. Это важно для вычисления attention weights.

Функция Softmax преобразует вектор значений в вектор вероятностей. Это необходимо для вычисления attention weights, которые используются для взвешивания входных данных. Softmax позволяет преобразовать любые значения в вероятности, что делает их удобными для использования в моделях машинного обучения.

In [None]:
def softmax(vector):
    '''
    vector: np.array of shape (n, m)

    return: np.array of shape (n, m)
        Matrix where softmax is computed for every row independently
    '''
    nice_vector = vector - vector.max(axis=1, keepdims=True)
    exp_vector = np.exp(nice_vector)
    exp_denominator = np.sum(exp_vector, axis=1, keepdims=True)
    softmax_ = exp_vector / exp_denominator
    return softmax_

## Шаг 3: Реализация Multiplicative Attention

### Multiplicative Attention

Multiplicative Attention использует матричное умножение для вычисления attention scores. Это позволяет работать с состояниями энкодера и декодера различных размерностей.

Multiplicative Attention вычисляет attention scores с помощью матричного умножения. Это позволяет модели фокусироваться на определенных частях входных данных, что улучшает качество предсказаний. Матричное умножение позволяет эффективно вычислять attention scores для состояний энкодера и декодера различных размерностей.

In [None]:
def multiplicative_attention(decoder_hidden_state, encoder_hidden_states, W_mult):
    '''
    decoder_hidden_state: np.array of shape (n_features_dec, 1)
    encoder_hidden_states: np.array of shape (n_features_enc, n_states)
    W_mult: np.array of shape (n_features_dec, n_features_enc)

    return: np.array of shape (n_features_enc, 1)
        Final attention vector
    '''
    # Вычисление attention scores
    attention_scores = np.dot(decoder_hidden_state.T, np.dot(W_mult, encoder_hidden_states))

    # Вычисление attention weights
    attention_weights = softmax(attention_scores)

    # Вычисление итогового вектора
    attention_vector = attention_weights.dot(encoder_hidden_states.T).T
    return attention_vector


## Шаг 4: Реализация Additive Attention

### Additive Attention

Additive Attention использует нейронную сеть для вычисления attention scores. Это позволяет более гибко моделировать взаимодействие между состояниями энкодера и декодера.

Additive Attention вычисляет attention scores с помощью нейронной сети. Это позволяет модели фокусироваться на определенных частях входных данных, что улучшает качество предсказаний. Нейронная сеть позволяет более гибко моделировать взаимодействие между состояниями энкодера и декодера.

In [None]:
def additive_attention(decoder_hidden_state, encoder_hidden_states, v_add, W_add_enc, W_add_dec):
    '''
    decoder_hidden_state: np.array of shape (n_features_dec, 1)
    encoder_hidden_states: np.array of shape (n_features_enc, n_states)
    v_add: np.array of shape (n_features_int, 1)
    W_add_enc: np.array of shape (n_features_int, n_features_enc)
    W_add_dec: np.array of shape (n_features_int, n_features_dec)

    return: np.array of shape (n_features_enc, 1)
        Final attention vector
    '''
    # Вычисление скрытых состояний
    hidden_states = np.tanh(np.dot(W_add_enc, encoder_hidden_states) + np.dot(W_add_dec, decoder_hidden_state))

    # Вычисление attention scores
    attention_scores = np.dot(v_add.T, hidden_states)

    # Вычисление attention weights
    attention_weights = softmax(attention_scores)

    # Вычисление итогового вектора
    attention_vector = attention_weights.dot(encoder_hidden_states.T).T
    return attention_vector

## Шаг 5: Пример использования функций

### Пример использования функций

Теперь мы продемонстрируем, как использовать реализованные функции для вычисления итоговых векторов с использованием Multiplicative и Additive Attention.

Мы используем реализованные функции для вычисления итоговых векторов. Это позволяет нам увидеть, как работают механизмы Attention на практике. Примеры помогают лучше понять, как работают механизмы Attention и как они могут быть применены на практике.

In [None]:
# Пример состояния декодера
decoder_hidden_state = np.array([7, 11, 4]).astype(float)[:, None]

# Пример состояний энкодера
encoder_hidden_states_complex = np.array([[1, 5, 11, 4, -4], [7, 4, 1, 2, 2], [8, 12, 2, 11, 5], [-9, 0, 1, 8, 12]]).astype(float).T

# Вектор весов v_add
v_add = np.array([[-0.35, -0.58, 0.07, 1.39, -0.79, -1.78, -0.35]]).T

# Матрица весов W_add_enc
W_add_enc = np.array([
    [-1.34, -0.1, -0.38, 0.12, -0.34],
    [-1.0, 1.28, 0.49, -0.41, -0.32],
    [-0.39, -1.38, 1.26, 1.21, 0.15],
    [-0.18, 0.04, 1.36, -1.18, -0.53],
    [-0.23, 0.96, 1.02, 0.39, -1.26],
    [-1.27, 0.89, -0.85, -0.01, -1.19],
    [0.46, -0.12, -0.86, -0.93, -0.4],
])

# Матрица весов W_add_dec
W_add_dec = np.array([
    [-1.62, -0.02, -0.39],
    [0.43, 0.61, -0.23],
    [-1.5, -0.43, -0.91],
    [-0.14, 0.03, 0.05],
    [0.85, 0.51, 0.63],
    [0.39, -0.42, 1.34],
    [-0.47, -0.31, -1.34],
])

# Матрица весов W_mult
W_mult = np.array([
    [-0.78, -0.97, -1.09, -1.79, 0.24],
    [0.04, -0.27, -0.98, -0.49, 0.52],
    [1.08, 0.91, -0.99, 2.04, -0.15],
])

# Вычисление итогового вектора с использованием Multiplicative Attention
multiplicative_attention_vector = multiplicative_attention(decoder_hidden_state, encoder_hidden_states_complex, W_mult)
print("Multiplicative Attention Vector:", multiplicative_attention_vector)

# Визуализация итогового вектора для Multiplicative Attention
plt.figure(figsize=(2, 5))
plt.pcolormesh(multiplicative_attention_vector, cmap="spring")
plt.colorbar()
plt.title("Multiplicative Attention Vector")
plt.show()

# Вычисление итогового вектора с использованием Additive Attention
additive_attention_vector = additive_attention(decoder_hidden_state, encoder_hidden_states_complex, v_add, W_add_enc, W_add_dec)
print("Additive Attention Vector:", additive_attention_vector)

# Визуализация итогового вектора для Additive Attention
plt.figure(figsize=(2, 5))
plt.pcolormesh(additive_attention_vector, cmap="spring")
plt.colorbar()
plt.title("Additive Attention Vector")
plt.show()

## Шаг 6: Заключение

### Заключение

В этом ноутбуке мы реализовали и продемонстрировали работу двух видов механизма Attention: Multiplicative Attention и Additive Attention. Мы использовали библиотеку NumPy для вычислений и библиотеку Matplotlib для визуализации результатов. Эти механизмы позволяют модели фокусироваться на определенных частях входных данных, что улучшает качество предсказаний и обучения.

### Где это может использоваться на практике?

Механизм Attention широко используется в различных областях, таких как:

1. **Машинный перевод**: Attention позволяет модели фокусироваться на определенных частях предложения при переводе, что улучшает качество перевода.
2. **Распознавание речи**: Attention помогает модели фокусироваться на определенных частях аудиосигнала, что улучшает точность распознавания речи.
3. **Генерация текста**: Attention используется для генерации более качественного и контекстуально релевантного текста.
4. **Анализ изображений**: Attention помогает модели фокусироваться на определенных частях изображения, что улучшает задачи классификации и сегментации изображений.
5. **Рекомендательные системы**: Attention используется для улучшения качества рекомендаций, фокусируясь на наиболее релевантных элементах данных пользователя.


## Шаг 7: Сохранение функций в файл

### Сохранение функций в файл

Теперь мы сохраним реализованные функции в файл `Attention_ML.py`.

In [None]:
# Создание словаря с функциями
out_dict = {
    'multiplicative_attention': multiplicative_attention,
    'additive_attention': additive_attention
}

# Сохранение словаря в файл
np.save("submission_dict_hw08.npy", out_dict, allow_pickle=True)
print("File saved to `submission_dict_hw08.npy`")

# Сохранение функций в файл Attention_ML.py
with open("Attention_ML.py", "w") as f:
    f.write("import numpy as np\n\n")
    f.write("def softmax(vector):\n")
    f.write("    '''\n")
    f.write("    vector: np.array of shape (n, m)\n\n")
    f.write("    return: np.array of shape (n, m)\n")
    f.write("        Matrix where softmax is computed for every row independently\n")
    f.write("    '''\n")
    f.write("    nice_vector = vector - vector.max(axis=1, keepdims=True)\n")
    f.write("    exp_vector = np.exp(nice_vector)\n")
    f.write("    exp_denominator = np.sum(exp_vector, axis=1, keepdims=True)\n")
    f.write("    softmax_ = exp_vector / exp_denominator\n")
    f.write("    return softmax_\n\n")

    f.write("def multiplicative_attention(decoder_hidden_state, encoder_hidden_states, W_mult):\n")
    f.write("    '''\n")
    f.write("    decoder_hidden_state: np.array of shape (n_features_dec, 1)\n")
    f.write("    encoder_hidden_states: np.array of shape (n_features_enc, n_states)\n")
    f.write("    W_mult: np.array of shape (n_features_dec, n_features_enc)\n\n")
    f.write("    return: np.array of shape (n_features_enc, 1)\n")
    f.write("        Final attention vector\n")
    f.write("    '''\n")
    f.write("    # Вычисление attention scores\n")
    f.write("    attention_scores = np.dot(decoder_hidden_state.T, np.dot(W_mult, encoder_hidden_states))\n\n")
    f.write("    # Вычисление attention weights\n")
    f.write("    attention_weights = softmax(attention_scores)\n\n")
    f.write("    # Вычисление итогового вектора\n")
    f.write("    attention_vector = attention_weights.dot(encoder_hidden_states.T).T\n")
    f.write("    return attention_vector\n\n")

    f.write("def additive_attention(decoder_hidden_state, encoder_hidden_states, v_add, W_add_enc, W_add_dec):\n")
    f.write("    '''\n")
    f.write("    decoder_hidden_state: np.array of shape (n_features_dec, 1)\n")
    f.write("    encoder_hidden_states: np.array of shape (n_features_enc, n_states)\n")
    f.write("    v_add: np.array of shape (n_features_int, 1)\n")
    f.write("    W_add_enc: np.array of shape (n_features_int, n_features_enc)\n")
    f.write("    W_add_dec: np.array of shape (n_features_int, n_features_dec)\n\n")
    f.write("    return: np.array of shape (n_features_enc, 1)\n")
    f.write("        Final attention vector\n")
    f.write("    '''\n")
    f.write("    # Вычисление скрытых состояний\n")
    f.write("    hidden_states = np.tanh(np.dot(W_add_enc, encoder_hidden_states) + np.dot(W_add_dec, decoder_hidden_state))\n\n")
    f.write("    # Вычисление attention scores\n")
    f.write("    attention_scores = np.dot(v_add.T, hidden_states)\n\n")
    f.write("    # Вычисление attention weights\n")
    f.write("    attention_weights = softmax(attention_scores)\n\n")
    f.write("    # Вычисление итогового вектора\n")
    f.write("    attention_vector = attention_weights.dot(encoder_hidden_states.T).T\n")
    f.write("    return attention_vector\n")
