# 1 - Введение в PyTorch и нейронные сети
![img](assets/pytorch-logo-dark.svg)

PyTorch -- это фреймворк для глубокого обучения, который значительно облегчает жизнь, вычисляя за Вас градиенты, оптимизируя параметры и предоставляя готовые блоки для построения собственных моделей. В данном туториале мы познакомимся с тензорами и посмотрим на работу автоматического дифференцирования, рассмотрим основные компоненты и этапы обучения любой нейронной сети на PyTorch и в конце решим реальную задачу с использованием полносвязной нейронной сети.

Сначала импортируем необходимые модули:

In [None]:
import torch
import torch.nn as nn
import numpy as np
import pandas as pd
import nltk
from nltk import word_tokenize
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
nltk.download('punkt')

## Часть 1: Тензоры

Эта часть основана на туториале курса ["CS224N Обработка естественного языка с использованием глубокого обучения" в Стэнфорде](https://web.stanford.edu/class/cs224n/)

**Тензоры (tensors)** -- самый базовый компонент для построения моделей в PyTorch. Каждый тензор -- это матрица с любым возможным числом измерений. Например, цветное квадратное изобрежение 256x256 будет представлено тензором с размерами `3x256x256`, в котором первое измерение отвечает за цвет. Вот как создать тензор:

In [None]:
list_of_lists = [
  [1, 2, 3],
  [4, 5, 6],
]
print(list_of_lists)

In [None]:
# Инициализация тензора
data = torch.tensor([
                     [0, 1],
                     [2, 3],
                     [4, 5]
                    ])
print(data)

У каждого тензора есть **тип данных**. Обычно используются `torch.float32` для чисел с плавающей точкой и `torch.int` для целых чисел. При создании тензора можно самостоятельно задать тип содержимого:

In [None]:
# Точки после чисел символизируют о том, что это числа с плавающей точкой.

data = torch.tensor([
                     [0, 1],
                     [2, 3],
                     [4, 5]
                    ], dtype=torch.float32)
print(data)

In [None]:
data = torch.tensor([
                     [0.11111111, 1],
                     [2, 3],
                     [4, 5]
                    ])
print(data)

Также есть функции для создания тензоров определенной формы и содержания:

In [None]:
zeros = torch.zeros(2, 5)  # Тензор состоящий из нулей
print(zeros)

In [None]:
ones = torch.ones(3, 4)   # Тензор состоящий из единиц
print(ones)

In [None]:
rr = torch.arange(1, 10) # диапозон чисел [1, 10)
print(rr)

**Форма (shape)** матрицы:

In [None]:
matr_2d = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(matr_2d.shape)
print(matr_2d)

In [None]:
matr_3d = torch.tensor([[[1, 2, 3, 4], [-2, 5, 6, 9]], [[5, 6, 7, 2], [8, 9, 10, 4]], [[-3, 2, 2, 1], [4, 6, 5, 9]]])
print(matr_3d)
print(matr_3d.shape)

Мы можем выполнять различные операции с тензорами:

In [None]:
rr + 2 # прибавление числа ко всем элементам

In [None]:
rr * 2 # умножение всех элементов на одно число

In [None]:
a = torch.tensor([[1, 2], [2, 3], [4, 5]])
b = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]])

print("Тензор A:", a)
print("Тензор B:", b)
print("Произведение:", a.matmul(b))
print("Через оператор:", a @ b) # +, -, *, @

In [None]:
print("Размер тензора A:", a.shape)
print("Размер тензора B:", b.shape)
print("Размер произведения:", a.matmul(b).shape)

In [None]:
# Сложить тензоры с разными размерами не получится (на самом деле иногда можно, но лучше об этом не думать)
# print("Сумма матриц:", a + b) # +, -, *, @

In [None]:
a = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]])
b = torch.tensor([[9, 10, 11, 12], [13, 14, 15, 16]])

print("Тензор A:", a)
print("Тензор B:", b)
print("Сложение:", a + b)
print("Вычитание:", a - b)
print("Поэлементное произведение:", a * b)
print("Поэлементное деление:", a / b)

Мы можем изменять форму тензора:

In [None]:
rr = torch.arange(1, 16)
print("Форма сейчас:", rr.shape)
print("Содержимое сейчас:", rr)
print()
rr = rr.view(5, 3)
print("Форма после изменения:", rr.shape)
print("Содержимое после изменения:", rr)

При изменении формы, можно не указывать одну из размерностей, вместо нее указав -1:

In [None]:
print("Форма сейчас:", rr.shape)
print("Содержимое сейчас:", rr)
print()
rr = rr.view(3, -1)
print("Форма после изменения:", rr.shape)
print("Содержимое после изменения:", rr)

Мы можем выполнять операции вдоль определенного измерения:

In [None]:
data = torch.arange(1, 36, dtype=torch.float32).reshape(5, 7)
print("Data is:", data)
print(data.shape)
print('--------------------')

# We can perform operations like *sum* over each row...
print("Taking the sum over columns:")
print(data.sum(dim=0))
print(data.sum(dim=0).shape)
print('--------------------')

# or over each column.
print("Taking thep sum over rows:")
print(data.sum(dim=1))
print(data.sum(dim=1).shape)
print('--------------------')

# Other operations are available:
print("Taking the stdev over rows:")
print(data.std(dim=1))
print(data.std(dim=1).shape)
print('--------------------')

Ну и, наконец, можно конвертировать массивы Numpy в тензоры и обратно:

In [None]:
# numpy.ndarray --> torch.Tensor:
arr = np.array([[1, 0, 5]])
data = torch.tensor(arr)
print("This is a torch.tensor", data)

# torch.Tensor --> numpy.ndarray:
new_arr = data.numpy()
print("This is a np.ndarray", new_arr)

Да и вообще массивы Numpy и тензоры Torch похожи:

In [None]:
# numpy world

x = np.arange(16).reshape(4, 4)

print("X :\n%s\n" % x)
print("X.shape : %s\n" % (x.shape,))
print("add 5 :\n%s\n" % (x + 5))
print("X*X^T  :\n%s\n" % np.dot(x, x.T))
print("mean over cols :\n%s\n" % (x.mean(axis=-1)))
print("cumsum of cols :\n%s\n" % (np.cumsum(x, axis=0)))

In [None]:
# pytorch world

x = np.arange(16).reshape(4, 4)

x = torch.tensor(x, dtype=torch.float32)  # or torch.arange(0,16).view(4,4)

print("X :\n%s" % x)
print("X.shape : %s\n" % (x.shape,))
print("add 5 :\n%s" % (x + 5))
print("X*X^T  :\n%s" % torch.matmul(x, x.transpose(1, 0)))  # short: x.mm(x.t())
print("mean over cols :\n%s" % torch.mean(x, dim=-1))
print("cumsum of cols :\n%s" % torch.cumsum(x, dim=0))

Мы можем обращаться к любым элементам используя `[]`:

In [None]:
x = torch.Tensor([
                  [[1, 2], [3, 4]],
                  [[5, 6], [7, 8]],
                  [[9, 10], [11, 12]]
                 ])
x

In [None]:
x.shape

In [None]:
# Обратиться к нулевому элементу (первой строке)
x[0] # Эквивалентно to x[0, :]

In [None]:
x[0, :]

In [None]:
x[:, 0]

In [None]:
x[:, :, 0]

In [None]:
matr = torch.arange(1, 16).view(5, 3)
print(matr)

In [None]:
matr[0]

In [None]:
matr[0, :]

In [None]:
matr[:, 0]

In [None]:
matr[0:3]

In [None]:
matr[:, 0:2]

In [None]:
matr[0:3, 0:2]

In [None]:
matr[0][2]

In [None]:
matr[0:3, 2]

In [None]:
matr[0:3][2]

In [None]:
matr[0:3]

In [None]:
matr[[0, 2, 4]]

Также можем обращаться в нескольких измерениях:

In [None]:
print(x)

In [None]:
x[:, 0, 0]

In [None]:
x[:, :, :]

Можем получить числовое значение из тензора с помощью `item()`.

In [None]:
x[0, 0, 0].item()

## Часть 2: Автоматическое дифференцирование

Эта часть взята из практических материалов курса ["Глубокое обучение" в ШАДе](https://github.com/yandexdataschool/Practical_DL).

Любой фреймворк для глубокого обучения выполняет обратный проход по сети и вычисляет градиенты за вас.

Основной пайплайн использования автоматического вычисления градиентов:
* При создании тензора пометить, что по нему требуется вычислять градиент(`requires_grad`):
    * __```torch.zeros(5, requires_grad=True)```__
    * torch.tensor(np.arange(5), dtype=torch.float32, requires_grad=True)
* Вычислить дифференцируемую функцию `loss = arbitrary_function(a)`
* Вызвать обратный проход по сети `loss.backward()`
* Градиенты теперь доступны через ```a.grads```

В качестве примера обучим линейную регрессию для предсказания цены дома:

In [None]:
data = pd.read_csv('data/boston/BostonHousing.csv')

In [None]:
data.head()

В качестве входа будем использовать только один признак:

In [None]:
x = data['lstat'].values / 10 # % lower status of the population
y = data['medv'].values # Median value of owner-occupied homes in $1000's

In [None]:
plt.scatter(x, y)

Входной признак и предсказываемые значения переводим в тензоры:

In [None]:
x = torch.tensor(x, dtype=torch.float32)
y = torch.tensor(y, dtype=torch.float32)

Задаем необходимые параметры и инициализируем их:

In [None]:
w = torch.randn(1)
w.requires_grad = True
b = torch.zeros(1, requires_grad=True)

Пытаемся предсказать значение, вычисляем ошибку и вызываем обратный проход:

In [None]:
y_pred = w[0] * x + b
loss = torch.mean((y_pred - y) ** 2) # Mean Square Error

# propagete gradients
loss.backward()

In [None]:
loss

Градиенты доступны в параметре `.grad` тех переменных, для которых они нужны:

In [None]:
print("dL/dw = \n", w.grad)
print("dL/db = \n", b.grad)

После использования градиента их надо было "обнулить":

In [None]:
w.grad.data.zero_()
b.grad.data.zero_()

In [None]:
w.grad, b.grad

Запускаем процесс обучения и смотрим, как наш график подстраивается под данные:

In [None]:
from IPython.display import clear_output

for i in range(1000):

    y_pred = w[0] * x + b
    loss = torch.mean((y_pred - y) ** 2)
    loss.backward()

    w.data -= 0.05 * w.grad.data
    b.data -= 0.05 * b.grad.data

    # zero gradients
    w.grad.data.zero_()
    b.grad.data.zero_()

    # the rest of code is just bells and whistles
    if (i+1) % 5 == 0:
        clear_output(True)
        plt.scatter(x.data.numpy(), y.data.numpy())
        plt.scatter(x.data.numpy(), y_pred.data.numpy(),
                    color='orange', linewidth=5)
        plt.show()

        print("loss = ", loss.data.numpy())
        if loss.data.numpy() < 0.5:
            print("Done!")
            break

# Часть 3: Высокоуровневый PyTorch

Теперь мы попробуем с помощью PyTorch решить реальную задачу классификации, а именно: попробуем с помощью Tf-Idf и одно/многослойной полносвязной нейронной сети находить чувствительный контент.

До этого мы пользовались низкоуровневыми операциями. В дальнейшем они нам понадобятся для реализации собсвенных классов, слоев и функций ошибок. Но в PyTorch очень много реализованных слоев и функций активации, которые можно комбинировать.

Но сначала прочитаем данные:

Данные являются частью набора [Sensitive topics dataset](https://github.com/s-nlp/inappropriate-sensitive-topics).  Подробнее о датасете и поиске чувствительного контента можно прочитать в статье [Detecting Inappropriate Messages on Sensitive Topics that Could Harm a Company's Reputation](https://arxiv.org/abs/2103.05345).

*Использованные здесь данные могут быть расценены как оскорбительные и неприемлемые. Все приведенные мнения и цитаты принадлежат пользователям сети "Интернет" и могут не разделяться автором туториала.*

In [None]:
def read_data(filepath, lower=True):
    texts, labels = [], []
    with open(filepath) as f:
        for line in f:
            text, label = line.strip().split('\t')
            tokens = word_tokenize(text, language='russian')
            if lower:
                tokens = [token.lower() for token in tokens]
            texts.append(' '.join(tokens))
            labels.append(label)

    return texts, labels

In [None]:
train_texts, train_labels = read_data('data/sensitive_topics/train.tsv')
test_texts, test_labels = read_data('data/sensitive_topics/test.tsv')

In [None]:
len(train_texts), len(train_labels), len(test_texts), len(test_labels)

Посмотрим на примеры данных:

In [None]:
len(set(train_labels))

In [None]:
set(train_labels)

In [None]:
for label in set(train_labels):
    idx = train_labels.index(label)
    print(label)
    print(train_texts[idx])
    print('--------------------')

Теперь нам надо векторизовать наши тексты и лейблы:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import LabelEncoder

In [None]:
vectorizer = TfidfVectorizer(max_features=1000)

In [None]:
X_train = vectorizer.fit_transform(train_texts).toarray()
X_test = vectorizer.transform(test_texts).toarray()

In [None]:
X_train.shape, X_test.shape

In [None]:
X_train

In [None]:
vectorizer.vocabulary_

In [None]:
le = LabelEncoder()

In [None]:
y_train = le.fit_transform(train_labels)
y_test =le.transform(test_labels)

In [None]:
y_train.shape, y_test.shape

In [None]:
y_train[:10]

In [None]:
le.classes_

In [None]:
len(le.classes_)

В качестве функции ошибки мы будем использовать кросс-энтропию (Cross Entropy Loss). В качестве тренировки реализуем ее самостоятельно:

$$-\frac{1}{N}\sum_{i=1}^N\sum_{c=1}^My_{i,c}\log(p_{i,c}) = -\frac{1}{N}\sum_{i=1}^N\log(p_{i, correct})$$


In [None]:
def crossentropy_loss(preds, true):
    preds_for_true = preds[np.arange(true.shape[0]), true]
    return - preds_for_true.log().mean()

Теперь займемся построением нашей модели.

Для вычисления вероятности принадлежности к определенному классу мы используем в последнем слое функцию Softmax:

$\text{softmax}(x)_i = \frac{\exp x_i} {\sum_j \exp x_j}$

Между линейными слоями мы можем (а иначе в них нет смысла) использовать различные функции активации:

$\text{Tanh}(x) = \tanh(x) = \frac{\exp(x) - \exp(-x)} {\exp(x) + \exp(-x)}$

$\text{ReLU}(x) = (x)^+ = \max(0, x)$

$\text{LeakyReLU}(x) =
        \begin{cases}
        x, & \text{ if } x \geq 0 \\
        \text{negative\_slope} \times x, & \text{ otherwise }
        \end{cases}$

In [None]:
model = nn.Sequential()
model.add_module('L1', nn.Linear(len(vectorizer.vocabulary_), len(le.classes_)))
model.add_module('Softmax', nn.Softmax(dim=1))

In [None]:
print("Weight shapes:", [w.shape for w in model.parameters()])

In [None]:
# Проверим нашу модель на небольшом фрагменте данных
x = torch.tensor(X_train[:3], dtype=torch.float32)
y = torch.tensor(y_train[:3], dtype=torch.long)

# Предсказываем значения
y_predicted = model(x)

y_predicted  # Выводим результат

In [None]:
loss = crossentropy_loss(y_predicted, y) # Считаем ошибку
loss

В то время как в задаче с предсказанием цены дома мы сами корректировали веса модели, в реальной жизни за это отвечает оптимизатор. В последнее время наиболее распространенным является Adam (есть также, например, SGD, RMSprop).

In [None]:
opt = torch.optim.Adam(model.parameters(), lr=0.01)

# Как его использовать:
loss.backward()      # Считаем градиенты
opt.step()           # Делаем шаг оптимизации, корректируем веса
opt.zero_grad()      # Обнуляем градиенты

In [None]:
# dispose of old variables to avoid bugs later
del x, y, y_predicted, loss

In [None]:
history = []

for i in range(1000):

    # sample 256 random images
    ix = np.random.randint(0, len(X_train), 256)
    x_batch = torch.tensor(X_train[ix], dtype=torch.float32)
    y_batch = torch.tensor(y_train[ix], dtype=torch.long)

    # predict probabilities
    y_predicted = model.forward(x_batch)

    # compute loss, just like before
    loss = crossentropy_loss(y_predicted, y_batch)

    # compute gradients
    loss.backward()

    # Adam step
    opt.step()

    # clear gradients
    opt.zero_grad()

    history.append(loss.data.numpy())

    if i % 100 == 0:
        print("step #%i | mean loss = %.3f" % (i, np.mean(history[-10:])))

Тестируем нашу модель на отложенных данных:

In [None]:
predicted_y_test = model(torch.tensor(X_test, dtype=torch.float32)).detach().numpy()

In [None]:
predicted_y_test.shape

In [None]:
predicted_idxs = predicted_y_test.argmax(axis=1)

In [None]:
predicted_idxs.shape

In [None]:
predicted_idxs[:10]

In [None]:
accuracy = np.mean(predicted_idxs == y_test)
accuracy

Можем построить матрицу ошибки, чтобы узнать в каких именно классах модель ошибается:

In [None]:
cm = confusion_matrix(predicted_idxs, y_test, normalize='true') # , normalize='pred'

In [None]:
cm

In [None]:
cmd_obj = ConfusionMatrixDisplay(cm, display_labels=le.classes_)
cmd_obj.plot(include_values=False, xticks_rotation='vertical')

Можем также написать функцию для обработки произвольных запросов:

In [None]:
def process_line(model, vectorizer, le, line, lower=True):
    preprocessed = ' '.join(word_tokenize(line, language='russian'))
    if lower:
        preprocessed = preprocessed.lower()
    x = torch.tensor(vectorizer.transform([line]).toarray(), dtype=torch.float32)
    predicted_probs = model(x).detach().numpy()
    predicted_idx = predicted_probs.argmax(axis=1)[0]
    return le.classes_[predicted_idx]

In [None]:
line = 'Все ложь, макаронного монстра не существует, пастафарианство было ошибкой!'
process_line(model, vectorizer, le, line, lower=True)

In [None]:
line = 'Я куплю арбалет и пойду охотиться на единорогов!'
process_line(model, vectorizer, le, line, lower=True)