# Neural Networks: Learning Techniques and Natural Language Processing

**Исполнители (ФИО):** Your answer here

---

Здравствуйте, подходит к концу курс Машинного Обучения

В рамках изучения нейронных сетей существует огромное количество тем и задач, однако охватить все и сразу невозможно

Поэтому в этом блокноте вы познакомитесь со способами улучшения сходимости нейросетей и борьба с переобучением, а также задачей обработки естественного языка

`В данном блокноте вы будете работать с библиотекой PyTorch, для комфортной работы и чтобы не тратить время на установку, воспользуйтесь сервисом Google Collab, в котором этот инструмент уже предустановлен`

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import torch
import torch.nn as nn

Как улучшить сходимость нейронной сети? Казалось бы, добавим много скрытых слоев. Да, модель будет дольше учиться, зато выучит больше признаков и результат станет лучше. Однако, как вы могли заметить в предыдущем блокноте, этого не происходит. Причиной этому служит [затухание/взрыв градиента](https://neerc.ifmo.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B1%D0%BB%D0%B5%D0%BC%D1%8B_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9)

Поскольку для вычисления градиента функции потерь необходимо последовательно перемножать производные, то градиент может уменьшаться/расти экспоненциально, если множители в нашем произведении будут слишком маленькими/большими

Для решения этой проблемы существует несколько способов, которые можно сочетать:
1. Нормализация данных
2. Инициализация весов
3. Нормализация выходов нейронов (Batch Normalization)
4. Регуляризация (L1, L2, Dropout)

Помимо L1, L2 регуляризации, существует так называемый Dropout подход. Суть его заключается в том, чтобы выключать(занулять) случайную долю выходов нейронов, чтобы блокировать обновление весов

## Задача 1

Загрузите датасет *CIFAR10*

Этот датасет содержит картинки размера 32 x 32 реальных объектов, представленных 10 классами: самолеты, машины, птицы, олени, кошки, собаки, лягушки, лошади, корабли и грузовики

In [None]:
# Your code here

Слой нормализации выходов нейронов представлен классом *nn.BatchNorm1d*

Слой случайного выключения связей между нейронами представлен классом *nn.Dropout1d* 

Опишите базовую архитектуру глубокой нейронной сети для решения задачи классификации на этом датасете. Можете использовать любые слои из *torch.nn*, кроме *BatchNorm* и *Dropout*-подобных. Добавьте по меньшей мере 7 скрытых слоев с обучаемыми параметрами

In [None]:
class NeuralNetwork(nn.Module):
    
    # Your code here

**Вопрос:** Обоснуйте выбор архитектуры нейронной сети. Какие слои использовали и почему?

*Your answer here:*

Сделайте ещё три нейросети, в двух из которых используете по отдельности BatchNorm в каждом скрытом слое, а Dropout в нескольких последних слоях. А в третьей объедините этих два подхода

In [None]:
# Your code here

Обучите все четыре нейросети решать задачу классификации картинок, по желанию используйте L1, L2 регуляризацию

In [None]:
# Your code here

Сравните все 4 классификатора между собой по качеству и скорости обучения. Постройте графики обучения моделей и ROC кривые

In [None]:
# Your code here

**Вопрос:** Улучшают ли два данных подхода качество обучения?

*Your answer here:*

## Задача 2

Ещё одним подходом для ускорения и улучшения качества обучения является [Иницализация весов](https://en.wikipedia.org/wiki/Weight_initialization)

Классическая инициализация весов нормальным шумом с нулевым матожиданием и небольшой дисперсией не решает проблему затухания/взрыва градиента

Условиями непоявления этой проблемы являются:
1. Равенство дисперсий признаков на каждом слое
2. Равенство дисперсий градиентов на каждом слое

Из этих условий выводится инициализация весов по *Xavier* для Sigmoid - подобных функций активации, а также инициализация по *Kaiming* для ReLU - подобных функций активации

В PyTorch веса инициализируются с помощью [torch.nn.init](https://docs.pytorch.org/docs/stable/nn.init.html)

In [None]:
# Пример инициализации весов

activation_type = "sigmoid"
init_gain = torch.nn.init.calculate_gain(activation_type)

@torch.no_grad()
def init_weights(layer):
    if isinstance(layer, (nn.Linear, ...)): # Cписок слоев с обучаемымми параметрами
        torch.nn.init.xavier_normal_(layer.weight, gain = init_gain) # инициализация весов
        if layer.bias is not None:
            torch.nn.init.zeros_(layer.bias)
            
model = NeuralNetwork()
model.apply(init_weights)

Возьмите базовую архитектуру нейронной сети из предыдущей задачи, сделайте её неглубокой, с одинаковой функцией активации для каждого слоя и с возможностью менять эту функцию активации

In [None]:
# Your code here

Выполните эксперимент по обучению четырех нейросетей с различными функциями активации и инициализациями весов на данных из предыдущей задачи

In [None]:
# Your code here

Обучите нейронную сеть с функцией активации *nn.Tanh* и стандартной инициализацией весов

In [None]:
# Your code here

Обучите нейронную сеть с функцией активации *nn.ReLU* и стандартной инициализацией весов

In [None]:
# Your code here

Обучите нейронную сеть с функцией активации *nn.Tanh* и инициализацией весов по *Xavier*

In [None]:
# Your code here

Обучите нейронную сеть с функцией активации *nn.ReLU* и инициализацией весов по *Kaiming*

In [None]:
# Your code here

Сравните все 4 классификатора между собой по качеству и скорости обучения. Постройте графики обучения моделей и ROC кривые

In [None]:
# Your code here

**Вопрос:** Улучшает ли подход с инициализацией весов качество обучения?

*Your answer here:*

## Задача 3

В задаче Обработки естественного языка (NLP) есть огромное количество подзадач:
1. Эмоциональный анализ текста
2. Машинный перевод
3. Распознавание именованных сущностей
4. Фильтр спама
5. Генерация текста
6. Распознавание речи
7. Суммаризация

и т.д.

При этом любые текстовые данные необходимо предобработать и преобразовать в токены, то есть базовые единицы слов. Токенизацию текста можно разделить на следующие этапы:
1. Разделение текста на слова или н-граммы
2. Удаление пунктуационных знаков и чисел
3. Удаление слов, имеющих слабую семантику (артикли, предлоги) - стоп-слова
4. Извелечение токенов (корней, лемм) из слов - Стемминг или Лемматизация 

После токенизации текст превращают в векторное представление - *Embedding*. Его можно получать как с помощью простых моделей *BagOfWords*, так и с помощью нейросетевых методов *Word2Vec*, которые реализованы в Больших Языковых Моделях (LLM)

Загрузите датасет с отзывами на фильмы с сайта [IMDb](https://www.imdb.com/) с помощью метода *datasets.load_dataset*

В данном случае метка класса означает положительный отзыв или отрицательный

In [None]:
!pip install -qU datasets==2.16.1

# Your code here

Приведите текст к нижнему регистру и удалите знаки пунктуации и другие спецсимволы

In [None]:
# Your code here

Для удобной работы c текстом существует библиотека [nltk](https://www.nltk.org/)

Токенизируйте отзывы с помощью метода *nltk.tokenizer.word_tokenize*

In [None]:
import nltk

# загрузка токенизатора
nltk.download("punkt_tab")

# Your code here

Удалите стоп-слова из отзывов. Для этого получите слова с помощью метода *nltk.corpus.stopwords*

In [None]:
# загрузка стопслов
nltk.download("stopwords")

# Your code here

Лемматизируйте слова с помощью *nltk.stem.WordNetLemmatizer*, используйте *nltk.pos_tag* для определения части речи

In [None]:
# Your code here

Теперь у нас есть лемматизированные предложения. Составьте словарь из *50* наиболее встречающихся лемм в отзывах

In [None]:
#Your code here

Превратим эти предложения в векторы с помощью меры [TF-IDF](https://ru.wikipedia.org/wiki/TF-IDF), которая показывает важность слова в документе, который является частью корпуса текстов 

$w_{t,d} = tf(t,d)\cdot idf(t)$, 

где $w_{t,d}$ - важность слова $t$ в документе $d$, 

$tf(t,d)$ - частота слова $t$ в документе $d$,

$idf(t)$ - логарифм отношения количества документов в корпусе к количеству документов $d$, в которых встречается слово $t$

In [None]:
# Your code here

Обучите любой известный вам классический или нейросетевой классификатор определять положитетельность/отрицательность отзыва на полученных векторах, являющихся репрезентацией отзывов

In [None]:
# Your code here

Возьмите готовую [BERT](https://neerc.ifmo.ru/wiki/index.php?title=BERT_(%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C))-подобную модель, из семейства [моделей](https://neptune.ai/blog/bert-and-the-transformer-architecture), которая натренирована выполнять эмоциональный анализ текста

Посмотрите, как она классифицирует несколько отзывов из датасета IMDb

In [None]:
# Пример готовой модели из модуля transformers

from transformers import pipeline

classifier = pipeline("sentiment-analysis",
                      model="distilbert-base-uncased-finetuned-sst-2-english")

text = "I love this movie!"
print(classifier(text))

# Your code here

Возьмите несколько понравившихся вам фильмов разных жанров и по три различных типа отзыва к ним с сайта IMDB: положительный, смешанный, отрицательный

Классифицируйте эти отзывы с помощью натренированной вами модели и с помощью готовой предтренированной модели

Сравните результаты этих двух моделей

In [None]:
#Your code here

**Вопрос:** Совпадает ли эмоциональная оценка отзывов двумя этими моделями? Какая модель справилась лучше?

*Your answer here:*

## Задача 4

Другой полезной и интересной задачей является генерация текста. Идея состоит в том, чтобы на основе некоторого запроса, контекста и предыдущих слов ответа сгенерировать следующее слово. Такая задача достаточно успешно решена с помощью Генеративных Предобученных Трансформеров (GPT)

Отдельно про трансформеры можно говорить долго, основная статья, в которой они впервые появились [*Attention Is All You Need*](https://arxiv.org/abs/1706.03762)

Основной техникой в глубоком обучении, позволяющей решать свои задачи на основе уже существующих предобученных моделей является *Fine Tuning* (Дообучение). Идея в том, что модель уже выучила какие то представления из данных, у неё уже достаточно хорошо подобранные веса, и необходимо только немного их подкорректировать под данные нашей задачи

Загрузите модель *sberbank-ai/rugpt2-small* и токенайзер слов для неё из модуля *transformers* с помощью методов *GPT2LMHeadModel, GPT2TokenizerFast*

In [None]:
# Your code here

Найдите и загрузите понравившийся вам текст на русском языке с несколькими сотнями/тысячами предложений

In [None]:
# Your code here

Токенизируйте текст с помощью загруженного токенайзера

In [None]:
# Your code here

Дообучите GPT2 на вашем тексте с помощью класса *transformers.Trainer*

In [None]:
# Your code here

Сгенерируйте несколько предложений с помощью дообученой модели и её метода *generate*

In [None]:
# Your code here

Попросите продукт [ChatGPT](https://chatgpt.com/) компании OpenAI или любую другую доступную GPT-подобную модель сгенерировать несколько предложений в стиле вашего текста. Сравните ответы двух моделей между собой

In [None]:
# Your code here

**Вопрос:** Получились ли ответы трансформеров реалистичными? Какая модель справилась лучше с генерацией текста?

*Your answer here:*