## Cоздание модели искусственной нейронной сети, состоящей из одного слоя
(ANN --- Artificial Neural Networks)

Напомним, что глубокое обучение базируется на искусственных нейронных сетях, которые получили своё развитие после 1960х годов (в 1965 году вышла статья Розенблатта).

Модель нейрона выглядит следующим образом:

<img src="assets/simple_neuron.png" width=400px>

Математически это можно записать как композицию функций:

$$
y = f(h) = f(w_1 x_1 + w_2 x_2 + b) = f\left(\sum_i w_i x_i +b \right)
$$

$\Sigma$ --- отвечает за умножение на веса и прибавление bias-вектора (напомним, что он необходим для того, чтобы добавить нелинейности, иначе для всех нулевых входных значений будут только нулевые выходные значения), результатом является значение $h$. Оно также может быть записано в векторной форме:

$$
h = \begin{bmatrix}
x_1 \, x_2 \cdots  x_n
\end{bmatrix}
\cdot
\begin{bmatrix}
           w_1 \\
           w_2 \\
           \vdots \\
           w_n
\end{bmatrix}
$$

$f$ --- функция активации, которая необходима для того, чтобы создавать более сложные конструкции и гиперповерхности, разделяющие данные.

Создадим простейшую модель нейронной сети.

## ШАГ 1. Создадим необходимые данные.

Все данные хранятся в векторном виде --- они называются тензорами и основная библиотека работы PyTorch.

In [1]:
# подключить библиотеку PyTorch
import torch

Случайным образом создадим входные данные (features размера $1 \times 5$), веса (weights такого же размера, как входные даннче) и bias-вектор (напомним, это одномерный вектор).

In [2]:
torch.manual_seed(5) # зафиксируем базовое число для случайной генерации

features = torch.rand(1, 5)
weights = torch.rand(5, 5)
bias = torch.rand(1, 5)

Проверьте, что все размерности совпадают для реализации умножения матриц и сложения векторов:

In [3]:
print(features.size())
print(weights.size())
print(bias.size())

torch.Size([1, 5])
torch.Size([5, 5])
torch.Size([1, 5])


## ШАГ 2. Теперь посчитаем значение h как результат операций над векторами.

In [4]:
h = features.matmul(weights) + bias

h

tensor([[1.4975, 2.0610, 1.9144, 1.5370, 3.7060]])

## ШАГ 3. Выберем функцию активации

В данном примере в качестве функции активации будем использовать сигмоиду $\sigma(x)$:

$$\large \sigma(x)=\frac{1}{1+e^{-x}}$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/sigmoid_function.png" width="1000">

In [5]:

def activation(x):
    """ Sigmoid activation function
        Arguments
        x: torch.Tensor
    """
    return 1/(1 + torch.exp(-x))

## ШАГ 4. Посчитаем выходное значение построенной нейронной сети.

Найти значение $y = f(h)$. Какая размерность должна быть у выходного значения?
Проверьте себя, что полученное значение верно.

In [6]:
y = activation(h)

In [7]:
print(y, y.shape)

tensor([[0.8172, 0.8871, 0.8715, 0.8230, 0.9760]]) torch.Size([1, 5])


## Создание нейронной сети, состоящей из двух слоёв

Настоящая мощь нейронной сети начинает проявляться, когда мы формируем из нейронов слои, причём выходное значение для предыдущего слоя является входным значением для последующего слоя:

<img src ="assets/ANN_example.png"  width="1000">

Тогда вектор весов превращается в матрицу весов, значения элементов которой нумеруются следующим образом: на первом месте стоит номер входного значения, на втором месте номер слоя.

<img src='assets/multilayer_diagram_weights.png' width="1000">

Первый слой, состоящий из входных данных, так и называется --- **входной слой** (**input layer**). Промежуточный слой называется **скрытым слоем** (**hidden layer**) и последний слой называется **выходным слоем** (**output layer**).

Нейронную сеть, представленную на картинке, можно математически записать как комбинацию функций. Например, для скрытых слоёв $h_1$ и $h_2$ можно выписать следующее выражение:

$$
\vec{h} = [h_1 \, h_2] =
\begin{bmatrix}
x_1 \, x_2 \, x_3
\end{bmatrix}
\cdot
\begin{bmatrix}
           w_{11} & w_{12} \\
           w_{21} &w_{22} \\
           w_{31} &w_{32}
\end{bmatrix}
$$

Тогда вся нейронная сеть примет вид:

$$
y =  f_2 \! \left(\, f_1 \! \left(\vec{x} \, \mathbf{W_1}\right) \mathbf{W_2} \right)
$$

## ШАГ 1. Создание необходимых данных

Подключите необходимые библиотеки.

In [8]:
## WRITE YOUR CODE HERE
import torch
import torch.nn as nn

Задайте входные значения вектором нужной размерности из случайных чисел.

In [9]:
## WRITE YOUR CODE HERE

features = torch.rand(1, 5)
features

tensor([[0.7432, 0.9697, 0.0609, 0.4385, 0.9868]])

## ШАГ 2. Зададим параметры архитектуры нейронной сети

In [10]:
# Define the size of each layer in our network
n_input = 5                    # Number of input units, must match number of input features
n_hidden = 2                   # Number of hidden units
n_output = 5                   # Number of output units

## ШАГ 3. Создадим веса и bias-векторы для каждого слоя

In [11]:
W1 = torch.rand(n_input, n_hidden)
W2 = torch.rand(n_hidden, n_output)

B1 = torch.rand(1, n_hidden)
B2 = torch.rand(1, n_output)

## ШАГ 4. Посчитаем значение выражения $h_1$

In [12]:
h1 = features.matmul(W1) + B1
h1 = activation(h1)

h1

tensor([[0.8813, 0.8674]])

## ШАГ 5. Определим функцию активации

В этом примере будем использовать функцию активации ReLU

$$ ReLU(x) = max(0,x)=
\begin{cases}
    x, \text{ если } x > 0, \\
    0,  \text{ если } x \le 0
\end{cases} $$

<img src='assets/ReLU.png' width="1000">

In [23]:
def activation(x):
    """ ReLU activation function
        Arguments
        x: torch.Tensor
    """
    return torch.clip(x, min=0)

## ШАГ 6. Применим функцию активации к значению $h_1$

In [24]:
h2 = torch.matmul(h1, W2) + B2
h2 = activation(h2)

h2

tensor([[1.7739, 1.4509, 0.6663, 1.3288, 2.0751]])

## ШАГ 7. Посчитаем выходное значение y

In [25]:
h2

tensor([[1.7739, 1.4509, 0.6663, 1.3288, 2.0751]])

### Задание: записать математически нейронную сеть, указанную на рисунке и закодировать основные параметры.

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/out/modified_model.png"  width="1000">


$$ \large h=W_1 \times x$$

$$ \large S=W_2 \times f(h)=W_2 \times f
(W_1 \times x)$$

На вход подается тензор размерностью 3х3х72 (изображение), количество скрытых слоев - 100, количество выходов - 10. Надо подобрать такие значения весов W1 и W2 (после h) чтобы получить выходную размерность 10

In [26]:
x = torch.rand(3, 3, 72)

x.flatten().shape



torch.Size([648])

In [27]:
# Параметры
input_size = 3 * 3 * 72
hidden_size = 100
output_size = 10

x = torch.randn(1, input_size)  # Размерность (1, input_size)

W1 = torch.randn(input_size, hidden_size)  # Размерность (input_size, hidden_size)
W2 = torch.randn(hidden_size, output_size)  # Размерность (hidden_size, output_size)


h = torch.sigmoid(torch.mm(x, W1))

S = torch.softmax(torch.mm(h, W2), dim=1) 

print(f"First classifier shape: {h.shape}")
print(f"Second classifier shape: {S.size()}")


First classifier shape: torch.Size([1, 100])
Second classifier shape: torch.Size([1, 10])


## Выводы:

Нейронная сеть в общем виде представлена следующей структурой:

<center><img src='assets/nn_sheme_logits_softmax.png' width="1000"><center>

Остановимся подробнее на выходных значениях: после всех операций умножения на веса, прибавления bias-векторов и применения функций активации последний слой нейронной сети возвращает некоторые значения, которые можно интерпретировать как уверенность модели, что изображение принадлежит к какому-то классу.
 <img src ="https://edunet.kea.su/repo/EduNet-content/L02/out/img_to_function_get_scores.png" width="750">


Эти значения называются logits или логиты. Такое название взято из концепции функции $logit(x) = log \frac{x}{1-x}$, поскольку функция logit показывает порядок отношения вероятности верного класса к вероятности неверного класса для данной картинки. То есть эти числа ассоциируются со входными значениями для функции logit.

<img src ="https://edunet.kea.su/repo/EduNet-content/L02/out/scores_to_probability.png" width="750">

Но возникает небольшая путаница, сама функция $logit$ не используется в архитектуре нейронных сетей, но проводится аналогия с её главным свойством, которое можно увидеть на представленной картинке: изначально функция $logit$ создавалась как преобразование, которое переводит вероятности (то есть значения из интервала $(0;1)$) в метки классов (то есть значения на всей числовой оси $(-\infty;+\infty)$).  
    
А функция $softmax (s_k) = \frac{e^{s_k}}{\sum_je^{s_j}}$, где $s_i=f(x_i; W)$ - выходное значение логита для $i$-й картинки, как раз переводит все заданные значения, расположенные на всей числовой оси $(-\infty;+\infty)$ в вероятности принадлежности к классам, то есть в значения, лежащие в интервале $(0;1)$.

То есть можно рассматривать функции $logit$ и $softmax$ как взаимно обратные. Грубо говоря, входными значениями для функции $softmax$ будут выходные значения функции $logit$.


Резюмируем: последний линейный слой нейронной сети возвращает *логиты* — <<сырые>> значения из диапазона $(-\infty; +\infty)$, которые могут быть пропущены через модуль [`nn.Softmax`](https://pytorch.org/docs/stable/generated/torch.nn.Softmax.html). Пропущенные через $\text{sofmax}$ величины могут восприниматься как вероятности, с которыми модель относит данный объект к тому или иному классу. Параметр `dim` определяет размерность, вдоль которой величины должны суммироваться к $1$.