# Вопросы по лекции для закрепления материала

* В чем состоит задача языкового моделирования?
* Как можно использовать n-граммы для языкового моделирования?
* Какие виды токенизации вы знаете?
* Какие стратегии генерации текстов вы помните?

# Установка PyTorch

In [None]:
# ! pip install torch torchvision torchaudio

См. [здесь](https://pytorch.org/get-started/locally/), как установить PyTorch с поддержкой GPU для различных операционных систем.

### Проверяем, что все работает

In [None]:
import torch

In [None]:
print(torch.tensor([1, 2, 3]))

# Работа с основными объектами PyTorch

Познакомимся с основными объектами в PyTorch: тензоры, оптимизаторы, модули для создания нейросетей, классы для работы с данными.

## Тензоры

По сути, тензоры - это многомерными массивами. Как вы увидите ниже, работа с тезорами в PyTorch очень похожа на работу с numpy-массивами.

In [None]:
import torch

### Создание тензоров

Создать вектор из данных:

In [None]:
print(torch.tensor([1, 2, 3, 4.5]))

Создать матрицу из данных:

In [None]:
print(torch.tensor([[1, 2, 3], [4, 5, 6]]))

Создать случайную матрицу:

In [None]:
print(torch.rand(5, 6))

Создать тензор чисел от 0 до 9 включительно:

In [None]:
print(torch.arange(10))

### Атрибуты тензоров

In [None]:
a = torch.tensor([[1, 2, 3],
                  [4, 5, 6]])
print(a)

Размерность:

In [None]:
print(a.shape)

Тип данных:

In [None]:
print(a.dtype)

Устройство, на котором расположен тензор:

In [None]:
print(a.device)

### Преобразования тензоров

In [None]:
A = torch.rand(2, 6)
print(A)

Изменить размерность тензора:

In [None]:
print(A.reshape(3, 4))

Превратить тензор в одномерный массив:

In [None]:
print(A.flatten())

Транспонировать матрицу:

In [None]:
print(A.T)

Для тензоров более высокой размерности нужно указать, какие измерения переставить.

In [None]:
print(A.transpose(0, 1))

### Операции с тензорами одинаковой размерности

In [None]:
a = torch.tensor([1, 2, 3])
b = torch.tensor([-1, 0, 1])
A = torch.tensor([[ 0, 1, 2], 
                  [-1, 0, 1]])
B = torch.tensor([[1, 2, 3],
                  [7, 0, 5]])
print(a)
print(b)
print(A)
print(B)

Покомпонентное сложение:

In [None]:
print(a + b)
print(A + B)

Покомпонентное умножение:

In [None]:
print(a * b)
print(A * B)

Покомпонентное возведение в степень:

In [None]:
print(a**b)
print(A * B)

Скалярное произведение:

In [None]:
print(a @ b)

Умножение матрицы на вектор:

In [None]:
print(A @ a)

### Операции с тензорами разной размерности

In [None]:
A = torch.tensor([[1, 2, 3],
                  [4, 5, 6]])
v_row = torch.tensor([0, 1, 2])
v_col = torch.tensor([[0], [1]])
print(A)
print(v_row)
print(v_col)

Прибавить к каждой строке матрицы один и тот же вектор:

In [None]:
print(A + v_row)

Прибавить к каждому столбцу матрицы один и тот же вектор:

In [None]:
print(A + v_col)

Это частные случаи [broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html)

### Автоматическое дифференцирование

![image](img/forward_backward.svg)

In [None]:
x = torch.tensor([-1.0, 3.0, -3.0], requires_grad=True)
c = torch.tensor([0.0, 1.0, 2.0], requires_grad=False)
L = torch.sum((x - c)**2)
print(x)
print(c)
print(L)

Считаем градиент переменной `L` по параметрам `x`:

In [None]:
L.backward()

Градиент по `x`:

In [None]:
print(x.grad)

Минимизируем `L` методом [градиентного спуска](https://en.wikipedia.org/wiki/Gradient_descent):

In [None]:
optimizer = torch.optim.SGD(params=[x], lr=0.1)

for _ in range(100):
    optimizer.zero_grad()
    L = torch.sum((x - c)**2)
    L.backward()
    optimizer.step()
    
L = torch.sum((x - c)**2)
    
print(L, x)

### Упражнение

Найти градиент функции

$$
f(x) = (Ax - b)^2
$$

в точке $x_0 = (1, -1, 0)$, где

$$
A = \begin{pmatrix}
0 & 3 & -1\\
-2 & 2 & 6
\end{pmatrix},
$$

$$
b = \begin{pmatrix}
-1 \\
2
\end{pmatrix}.
$$

Минимизируйте $f$ методом градиентного спуска, укажите полученное значение $x$ и соответствующее значение $f(x)$.

In [None]:
x = torch.tensor([1.0, -1.0, 0.0], requires_grad=True)

A = torch.tensor([[0.0, 3.0, -1.0], 
                  [-2.0, 2.0, 6.0]])
b = torch.tensor([[-1.0], 
                  [2.0]])

L = torch.sum((A*x - b)**2)


optimizer = torch.optim.SGD(params=[x], lr=0.01)

for _ in range(100):
    optimizer.zero_grad()
    L = torch.sum((A*x - b)**2)
    L.backward()
    optimizer.step()
    
L = torch.sum((A*x - b)**2)
    
print(L, x)

# Работа с torch.nn

В `torch.nn` содержатся компоненты для создания нейросетей (слои, функции потерь, ...).

In [None]:
import torch.nn as nn

Линейный слой:

In [None]:
layer = nn.Linear(5, 3)
print(layer(torch.randn(2, 5)))

Функция активации `ReLU`:

In [None]:
layer = nn.ReLU()
print(layer(torch.tensor([[-1.0, 1.0, 2.0, 3.0, -5.0]])))

Слой `Dropout`:

In [None]:
layer = nn.Dropout(0.5)
print(layer(torch.tensor([[10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]], dtype=torch.float)))

Объединяем всё в один пайплайн:

In [None]:
layer = nn.Sequential(
    nn.Linear(5, 3),
    nn.ReLU(),
    nn.Dropout(0.5)
)
print(layer(torch.randn((2, 5))))

Реализовать свой модуль можно следующим образом:
1) Создать производный от `nn.Module` класс.
2) В методе `__init__` вызвать этот же метод базового класса и определить необходимые элементы.
3) Определить метод `forward` (вычисление итогового результата).

Для примера создадим простую нейросеть, решающую задачу регрессии.

In [None]:
class RegressionModel(nn.Module):
    def __init__(self, n_inputs):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(n_inputs, 128),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(128, 64),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(64, 1)
        )
        
    def forward(self, x):
        return self.model(x)

Создаем нейросеть со случайно инициализированными весами:

In [None]:
model = RegressionModel(n_inputs=3)
print(model)

Применяем нейросеть к случайным входам:

In [None]:
inputs = torch.randn((16, 3))
outputs = model(inputs)
print(inputs)
print(outputs)

### Упражнение

Реализовать нейросеть, которая решает многоклассовую задачу классификации.

In [None]:
class ClassificationModel(nn.Module):
    def __init__(self, n_inputs, n_outputs):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(n_inputs, 128),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(128, 64),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(64, n_outputs)
        )
        

    def forward(self, x):
        return self.model(x)

In [None]:
model = ClassificationModel(n_inputs=3, n_outputs=5)
print(model)

In [None]:
inputs = torch.randn((16, 3))
outputs = model(inputs)
print(inputs)
print(outputs)

# Работа с данными

In [None]:
import pandas as pd
import numpy as np

Загрузим классический датасет ["Ирисы Фишера"](https://en.wikipedia.org/wiki/Iris_flower_data_set)

In [None]:
df = pd.read_csv('Iris.csv').sample(frac=1, random_state=42, ignore_index=True)
df.head()

Размеры датасета:

In [None]:
print(df.shape)

Распределение классов:

In [None]:
df['Species'].value_counts()

Получим матрицу признаков `X` и вектор ответов `y`. При обучении мы можем оперировать только с числами, поэтому закодируем каждый класс числом (0, 1, 2).

In [None]:
def preprocess(df):
    X = df[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']].values.astype(np.float32)
    y = df['Species'].map({'Iris-setosa': 0, 'Iris-versicolor': 1, 'Iris-virginica': 2}).values
    return X, y

In [None]:
X, y = preprocess(df)
X_train, y_train = X[:50], y[:50]
X_valid, y_valid = X[50:100], y[50:100]
X_test, y_test = X[100:150], y[100:150]

In [None]:
print(X[0], y[0])

Для того, чтобы удобно обучать нейросети с помощью PyTorch, в нем реализованы два класса работы с данными: `Dataset`, `DataLoader`.

In [None]:
from torch.utils.data import Dataset, DataLoader

### Упражнение

1) Создайте класс `MyDataset` -- потомок класс Dataset. 
2) Реализуйте метод `__getitem__`, который принимает индекс элемента и возвращает пару (x, y)
3) Реализуйте медов `__len__`, который возвращает размер датасета

In [None]:
class MyDataset(Dataset):
    def __init__(self, X, y):
        self.X = X
        self.y = y
        
    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]
    
    def __len__(self):
        return len(self.X)

In [None]:
train_dataset = MyDataset(X_train, y_train)
valid_dataset = MyDataset(X_valid, y_valid)
test_dataset = MyDataset(X_test, y_test)

Посмотрим, что можно делать с датасетами. Мы можем получить его размер с помощью len(...). Для этого мы реализовали метод `__len__`:

In [None]:
print(len(train_dataset))

Мы также можем обращаться к массиву, используя различные виды индексирования:

In [None]:
x, y = train_dataset[0]
print(x, y)

In [None]:
X_batch, y_batch = train_dataset[:5]
print(X_batch)
print(y_batch)

In [None]:
X_batch, y_batch = train_dataset[[0, 2, 5]]
print(X_batch)
print(y_batch)

Класс `DataLoader` нужен для автоматического формирования батчей для заданного датасета. 

In [None]:
train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True, drop_last=True)
valid_loader = DataLoader(valid_dataset, batch_size=8, shuffle=True, drop_last=True)
test_loader = DataLoader(test_dataset, batch_size=8, shuffle=True, drop_last=True)

In [None]:
batches = [x for x in train_loader]
print(len(batches))
print(batches[0])
print(batches[1])

# Обучение модели

In [None]:
import random
import numpy as np
from tqdm import tqdm

Сделаем эксперименты воспроизводимыми

In [None]:
torch.manual_seed(42)
np.random.seed(42)
random.seed(42)

Зададим параметры обучения

In [None]:
# Количество эпох (полных проходов по датасету)
n_epochs = 128

# Размерность входа
n_inputs = 4

# Размерность выхода (кол-во классов)
n_outputs = 3

# Скорость обучения (learning rate)
lr = 1e-3

Инициализируем модель, функцию потерь и оптимизатор

In [None]:
model = ClassificationModel(n_inputs=n_inputs, n_outputs=n_outputs)
loss_func = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(params=model.parameters(), lr=lr)

Реализуем вычисление потерь на валидационном датасете

In [None]:
def compute_validation_loss(model, loader, loss_func):
    loss = 0
    # Используем нейросеть в режиме применения (отключаем Dropout, ...)
    model.eval()
    for x, y in loader:
        # Нам не нужно вычислять градиенты, поэтому можно сэкономить память
        with torch.no_grad():
            logits = model(x)
        loss += loss_func(logits, y).item() / len(loader)
    return loss

Реализуем цикл обучения нейросети (внешний цикл по эпохам, а внутренний -- по батчам). В конце каждой эпохи будем считать потери на валидационном датасете.

In [None]:
for i in range(1, n_epochs + 1):
    print(f'Epoch {i}')
    for x, y in tqdm(train_loader):
        # Переводим модель в режим обучения (включаем Dropout, ...)
        model.train()
        logits = model(x)
        loss = loss_func(logits, y)
        # Сбрасываем градиенты (.backward() только прибавляет новые градиенты к текущим)
        optimizer.zero_grad()
        # Вычисляем градиенты
        loss.backward()
        # Обновляем параметры нейросети
        optimizer.step()
        
    # Считаем и выводим потери на валидационном датасете
    eval_loss = compute_validation_loss(model, valid_loader, loss_func)
    print(f'train_loss={loss.item()}, eval_loss={eval_loss}')