## Введение в нейронные сети

##### Автор: [Радослав Нейчев](https://www.linkedin.com/in/radoslav-neychev/), @neychev

#### План занятия:
1. История развития нейронных сетей
2. Базовые понятия при работе с нейронными сетями
3. Интерактивный пример работы нейронной сети
4. Построение нейронной сети для (почти) реальной задачи и ее проверка на реальных данных

К началу 2021 года нейронные сети являются стандартом во множестве прикладных задач. Особенно показательны результаты в области работы с тектом, изображениями, звуком, видео и др. Все они отличаются тем, что данные обладают некоторой _сложной структурой_.

Во многом нейронные сети обязаны успеху своей способности строить информативные признаковые описания в автоматическом режиме, учитывая при этом структуру данных. Но перед непосредственным введением основных понятий, рассмотрим историю становления нейронных сетей.

### История развития нейронных сетей
Нейронные сети появились задолго до "революции", произошедшей в начале 2010-ых годов. Воспользуемся замечательной иллюстрацией за авторством [Favio Vázquez](https://medium.com/@faviovazquez), чтобы обратить внимание на наиболее значимые события:
<!-- ![](https://cdn-images-1.medium.com/max/1024/1*kXqXVYSKjsNPPHaS4l4btw.png) -->
![](https://miro.medium.com/max/3840/1*Z_DnCyKt18RM0aCCrFzaIQ.png)

### Базовые понятия при работе с нейронными сетями

__Нейронная сеть (neural network)__ – композиция линейных и нелинейных преобразований. В целом, нейронная сеть представляет собой сложную (параметрическую) функцию $f$, задающую отображение из исходного признакового пространства $\mathbb{X}_O$ в целевое пространство $\mathbb{Y}$:
$$
f: \;\;\; \mathbb{X}_O \longrightarrow \mathbb{Y}.
$$
Часто нейронные сети представляют собой последовательность преобразований, представленных слоями и функциями активации.

__Слой (layer)__ – некоторая функция/преобразование над исходными данными. Простейший пример: линейный слой, являющийся линейным преобразованием над входящими данными (т.е. просто преобразование $WX +b$, как и в линейной регрессии).

__Функция активации (activation function)__ – нелинейное преобразование, применяющееся ко всем данным пришедшим на вход поэлементно. Благодаря функциям активации нейронные сети способны преобразовывать данные *нелинейным образом*, что позволяет порождать более информативные признаковые описания.

__Функция потерь (loss function)__ – функция потерь, оценивающая качество полученного предсказания. Как правило, от функции потерь требуется свойство дифференцируемости.

Рассмотрим простейшую нейронную сеть, реализованную с использованием PyTorch:

In [None]:
import torch
from torch import nn
import numpy as np
from torch.nn import functional as F
from matplotlib import pyplot as plt
from IPython.display import clear_output
import torchvision

In [None]:
simple_nn = nn.Linear(4, 1, bias=False)

example_input = torch.ones(4)

Применим ее к входному вектору размера (4):

In [None]:
output_torch = simple_nn(example_input)

In [None]:
output_torch

tensor([0.1380], grad_fn=<SqueezeBackward3>)

Легко заметить, что это просто линейная модель, и она с легкостью может быть реализована и без использования PyTorch:

In [None]:
params_numpy = next(simple_nn.parameters()).detach().numpy()

In [None]:
output_np = params_numpy.dot(example_input.numpy())

In [None]:
assert output_np.item() == output_torch.item()

Да, линейная регрессия тоже может быть рассмотрена как простая нейронная сеть без скрытых слоев и нелинейных функций активации. Но именно им нейронные сети во многом обязаны своей эффективностью. В дальнейшем мы вернемся к этому вопросу более подробно.

### Интерактивная демонстрация работы нейронных сетей
Воспользуемся замечательной интерактивной "песочницей": https://playground.tensorflow.org/ для демонстрации процессов, происходящих "внутри" нейронной сети.

### (Почти) реальная задача:
В заключение, обратимся к задаче распознавания рукописных цифр. Для этого воспользуемся классическим набором данных [MNIST](http://yann.lecun.com/exdb/mnist/), который содержит около 60 тысяч изображений из десяти классов.

Классификация датасета MNIST является некоторым "Hello world" в мире глубокого обучения и компьютерного зрения в частности.

Конечно, в настоящий момент подобный набор данных выглядит "игрушечным" (как с точки зрения его размеров, так и с точки зрения самой структуры изображений). В научной среде уже не раз упоминалась его излишне простая структура, но своей наглядности и истории он от этого не теряет.

Загрузка и предобработка данных практически полностью сделана за нас.

In [None]:
from torchvision.datasets import MNIST

In [None]:
train_mnist_data = MNIST('.', train=True, transform=torchvision.transforms.ToTensor(), download=True)
test_mnist_data = MNIST('.', train=False, transform=torchvision.transforms.ToTensor(), download=True)


train_data_loader = torch.utils.data.DataLoader(
    train_mnist_data,
    batch_size=32,
    shuffle=True,
    num_workers=2
)

test_data_loader = torch.utils.data.DataLoader(
    test_mnist_data,
    batch_size=32,
    shuffle=False,
    num_workers=2
)

Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz to ./MNIST/raw/train-images-idx3-ubyte.gz


  0%|          | 0/9912422 [00:00<?, ?it/s]

Extracting ./MNIST/raw/train-images-idx3-ubyte.gz to ./MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz to ./MNIST/raw/train-labels-idx1-ubyte.gz


  0%|          | 0/28881 [00:00<?, ?it/s]

Extracting ./MNIST/raw/train-labels-idx1-ubyte.gz to ./MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz to ./MNIST/raw/t10k-images-idx3-ubyte.gz


  0%|          | 0/1648877 [00:00<?, ?it/s]

Extracting ./MNIST/raw/t10k-images-idx3-ubyte.gz to ./MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz to ./MNIST/raw/t10k-labels-idx1-ubyte.gz


  0%|          | 0/4542 [00:00<?, ?it/s]

Extracting ./MNIST/raw/t10k-labels-idx1-ubyte.gz to ./MNIST/raw



In [None]:
print(f'train dataset size: {len(train_mnist_data)}\ntest dataset size: {len(test_mnist_data)}')

train dataset size: 60000
test dataset size: 10000


В обучающей выборке `train_mnist_data` содержатся $60000$ примеров, на которые мы будем настраивать параметры нашей модели. Тестовая выборка `test_mnist_data` (содержит $10000$ примеров) будет использоваться для оценки качества итоговой модели.

Рассмотрим данные внимательно:

In [None]:
random_batch = next(iter(train_data_loader))
_image, _label = random_batch[0][0], random_batch[1][0]
plt.figure()
plt.imshow(_image.reshape(28, 28))
plt.title(f'Image label: {_label}')

По факту, каждое черно-белое изображение можно представить в виде матрицы.

Для решения данной задачи классификации воспользуемся простой нейронной сетью, теперь уже реализованной с помощью PyTorch. На текущем занятии мы не будем погружаться в тонкости ее обучения: для этого необходимо разобрать метод обратного распространения ошибки (или же backpropagation).

Также, напоминаем, что в любой момент можно обратиться к замечательной [документации](https://pytorch.org/docs/stable/index.html) и [обучающим примерам](https://pytorch.org/tutorials/).  

Рассмотрим структуру базового класса `nn.Module` ниже:

In [None]:
print(nn.Module.__doc__)

Построим простую нейронную сеть, представляющую собой один линейный слой (и подходящую функцию активации – softmax). По сути, эта модель аналогична логистической регрессии. На вход будем подавать 784 признака, т.е. значение каждого пикселя изображения. Предсказывать будем ненормированные вероятности для каждого класса (т.е. 10 чисел).

In [None]:
# Creating model instance
model = nn.Sequential()

# Linear layer mapping 784 features (28*28 pixels) to 10 target values
model.add_module('l1', nn.Linear(784, 10))

Не удивляйтесь явному отсутствию функции активации в конце, она появится позднее.

В итоге у нашей модели $7850$ параметров:

In [None]:
print("Weight shapes:", [w.shape for w in model.parameters()])

Проверим поведение модели на случаных данных подходящей размерности и типа:

In [None]:
# create dummy data with 32 (`batch_size`) samples and 784 features
x = random_batch[0].reshape(-1, 784)
y = random_batch[1]

# compute outputs given inputs, both are variables
y_predicted = model(x)

plt.pcolormesh(F.softmax(y_predicted[:4], dim=-1).detach())
plt.colorbar()

В качестве функции ошибки воспользуемся перекрестной энтропией (или кроссэнтропией, как ее принято называть). Она оценивает, насколько предсказанные вероятности принадлежности к тому или иному классу соответствуют истинным (100% верному классу, 0% всем остальным).

Стоит обратить внимание, что `nn.CrossEntropyLos` уже включает в себя функцию активации (`LogSoftMax`). Именно поэтому мы не стали указывать функцию активации явно при построении самой сети. Т.к. нейронная сеть и функция потерь представляют собой единый граф вычислений, это абсолютно корректно и, вдобавок, удобно.

In [None]:
loss_function = nn.CrossEntropyLoss()
loss = loss_function(y_predicted, y)

Значение функции ошибки получилось следующим. Нельзя сказать, что оно слишком информативно.

In [None]:
loss

PyTorch позволяет автоматически вычислять градиенты для моделей (и вообще математических выражений) которые удовлетворяют простым ограничениям. Сам механизм автоматического дифференцирования будет рассмотрен в грядущих занятиях. Сейчас же просто обратим внимание на то, что значение градиентов для градиентного спуска могут быть оценены используя модуль `opt`. Например, воспользуемся уже знакомым вам SGD:

In [None]:
opt = torch.optim.SGD(model.parameters(), lr=0.01)

# Get the gradients
loss.backward()

# Make a step
opt.step()

# Remove the gradients from the previous step
opt.zero_grad()

Одна эпоха обучения включает в себя количество шагов, необходимых для покрытия (примерно) всего датасета.

In [None]:
NUM_EPOCHS = 5
history = []
plot_history = []

for epoch in range(NUM_EPOCHS):
    for _i, batch in enumerate(train_data_loader):
        x_batch, y_batch = batch

        # Get logit predictions
        y_predicted = model(x_batch.reshape(-1, 784))

        # Compute loss
        loss = loss_function(y_predicted, y_batch)

        # Get gradients
        loss.backward()

        # Make a gradient update
        opt.step()

        # Remove the gradients from the previous step
        opt.zero_grad()

        history.append(loss.item())

        if (_i+50)%100==0:
            clear_output(True)
            plt.figure(figsize=(15, 10))
            plot_history.append(np.mean(history[-100:]))
            plt.plot(plot_history,label='loss')
            plt.yscale('log')
            plt.grid()
            plt.xlabel('Iteration')
            plt.ylabel('Loss value (in log scale)')
            plt.legend()
            plt.show()

Оценим качество нашей модели на тестовой (или же отложенной) выборке. Для этого подсчитаем количество правильно классифицированных цифр.

In [None]:
predicted_labels = []
real_labels = []
model.eval()
with torch.no_grad():
    for batch in test_data_loader:
        y_predicted = model(batch[0].reshape(-1, 784))
        predicted_labels.append(y_predicted.argmax(dim=1))
        real_labels.append(batch[1])

predicted_labels = torch.cat(predicted_labels)
real_labels = torch.cat(real_labels)
test_acc = (predicted_labels == real_labels).type(torch.FloatTensor).mean()

In [None]:
print(f'Neural network accuracy on test set: {test_acc:3.5}')

In [None]:
predicted_labels = []
real_labels = []
model.eval()
with torch.no_grad():
    for batch in train_data_loader:
        y_predicted = model(batch[0].reshape(-1, 784))
        predicted_labels.append(y_predicted.argmax(dim=1))
        real_labels.append(batch[1])

predicted_labels = torch.cat(predicted_labels)
real_labels = torch.cat(real_labels)
train_acc = (predicted_labels == real_labels).type(torch.FloatTensor).mean()

In [None]:
print(f'Neural network accuracy on train set: {train_acc:3.5}')

Качество распознавания достаточно неплохое.

Но что будет с данными "из другого домена"? Протестируем нашу модель непосредственно "рукописном" (с помощью мыши/тачпада)  вводе:

In [None]:
from IPython.display import HTML
data = None
HTML(open("input.html").read())

In [None]:
prepared_data = np.array(data).reshape((28, 28)).astype(np.float32)

# If it fails, just comment the code below
import scipy.ndimage as ndimage
prepared_data = ndimage.gaussian_filter(prepared_data, sigma=(0.5))

In [None]:
plt.imshow(prepared_data.squeeze())

In [None]:
transformed_image = torch.FloatTensor(prepared_data.reshape(1, 784))

Ниже можно увидеть вероятности, с которыми модель относит данное изображение к различным классам.

In [None]:
plt.bar(np.arange(10), F.softmax(model(transformed_image), dim=-1).detach().numpy()[0])
plt.grid()
_ = plt.xticks(range(10))
plt.xlabel('predicted class label')
plt.ylabel('class probability')
_ = plt.title('Model confidence')

In [None]:
print("This model predicted your input as", model(transformed_image).argmax().item())

Выглядит неплохо. Для получения лучшиъ результатов могут быть полезны сверточные слои, которые мы рассмотрим в одном из следующих занятий. Но на датасете MNIST не слишком сложно достичь и 100% доли правильных ответов на отложенной выборке.

Если Вы хотите попрактиковаться с более сложным датасетом, Вы можете воспользоваться
[FashionMNIST](https://github.com/zalandoresearch/fashion-mnist). Этот датасет полностью аналогичнен MNIST по структуре (и весь код, который использовался для MNIST может быть использован и для FashionMNIST), но в нем представлены изображения различных предметов одежды (кроссовки, футбоки и т.д.).


### Выводы:
* Нейронные сети не являются некоторым "противопоставлением" классическим моделям, а дополняют их и во многом развивают предложенные в них идеи.
* Для работы с нейронными сетями существует множество различных фреймворков, но в настоящее время наиболее актуальными из них являются TensorFlow и PyTorch. Именно PyTorch будет использоваться в данном курсе в дальнейшем.
* Нейронные сети представляют собой композицию преобразований, которые позволяют выучивать информативное представление данных, что особенно полезно в работе с данными обладающими структурой.
* Нейронные сети позволяют выучивать информативные представления для данных end-to-end, что во многом обуславливает их эффективность. На грядущих занятиях мы рассмотрим данный механизм более подробно.