# Нейронные сети

# Что такое нейронная сеть

**Нейронная сеть** — это последовательность нейронов, соединенных между собой синапсами. Структура нейронной сети пришла в мир программирования прямиком из биологии. Благодаря такой структуре, машина обретает способность анализировать и даже запоминать различную информацию. Нейронные сети также способны не только анализировать входящую информацию, но и воспроизводить ее из своей памяти.  
![Нейрон](http://aboutyourself.ru/assets/sinaps.jpg)
**Аксон** — длинный отросток нейрона. Приспособлен для проведения возбуждения и информации от тела нейрона к нейрону или от нейрона к исполнительному органу.  
**Дендриты** — короткие и сильно разветвлённые отростки нейрона, служащие главным местом для образования влияющих на нейрон возбуждающих и тормозных синапсов (разные нейроны имеют различное соотношение длины аксона и дендритов), и которые передают возбуждение к телу нейрона. 


# Модель нейронной сети
### Синапс нейронной сети
<img src="images/LessonsII/synaps.png" alt="Synaps" height=30% width=30%>

## Перцептрон

<img src="https://c.mql5.com/2/41/512210577402.png" alt="Искуственный нейрон" width=40% height=40% >

$X$ - входящий вектор признаков  
$W$ - веса модели  
$b$ - сдвиг модели   
$y$ - результат модели  
$\sigma$ - функция активации

**<center>Смещение</center>**
$$
X_0 = 1
$$
$$
S = \sum_{i=0}^nX_iw_i
$$

x = [x1, x2, x3]; 
W = [w1, w2, w3]
$$
\vec x * \vec W = x_1w_1 + x_2w_2 + x_3w_3
$$

# Полносвязная неронная сеть

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/3d/Neural_network.svg/1200px-Neural_network.svg.png" alt="FCNeuralNetwork" width=30% height=30%>
Схема простой нейросети. Зелёным цветом обозначены входные нейроны, голубым — скрытые нейроны, жёлтым — выходной нейрон

$$
\vec {h_t} = W_h \vec x
$$

$$
\vec h = F_h(\vec{h_t})
$$

$$
\vec {y_t} = W_y \vec h
$$

$$
\vec y = F_y(\vec{y_t})
$$

# Полносвязная нейронная сеть

<img src="https://neurohive.io/wp-content/uploads/2018/10/obuchenie-neironnyh-setei-glubokoe.gif" alt="FCNeuralNetwork" width=60% height=60%>

https://adamharley.com/nn_vis/mlp/2d.html

# Функция активации
## Сигмоида
<img src="images/LessonsII/sigmoid.png" width=30% height=30% />
$$
F(x) = {1 \over 1 + e^{-x}}
$$

## Гиперболический тангенс
<img src="images/LessonsII/tanh.png" width=30% height=30% />

$$
F(x) = {e^{2x}-1 \over e^{2x}+1}
$$

## ReLU (rectified linear unit)
<img src="images/LessonsII/ReLU.png" width=40% height=40% />
$$
F(x) = max(0, x)
$$

# Softmax

Применяется в тех случаях, когда необходимо, чтобы сумма элементов была равно 1, а каждый элемент принадлежал интервалу \[0; 1\] (для задач классификации)
$$
F(x) = {e^{x} \over \sum_j e^{x_j}}
$$

# Метод Обратного Распространения
<img src="https://habrastorage.org/files/dad/168/f54/dad168f54a2d4cf0b6508200eda50eef.png" alt="Example" height=30% width=30%>
Ошибка выходного нейрона
$$
\delta_{output} = (out_{pred} - out_{y})f'(in)
$$
Ошибка внутренного нейрона
$$
\delta_{hid} = f'(in)\sum_i(w_i\delta_i)
$$
Градиент ошибки нейрона
$$
grad_a^b = out_a*\delta_b
$$
Изменение весов
$$
\Delta w_t = E*grad_a^b+\alpha*\Delta w_{t-1}
$$

*E* - скорость обучения  
$\alpha$ - момент

<img src="images/LessonsII/common_act_func.png" width=70% height=70% />
 Скорость обучения logistic-ой функции активации низкая с определенного момента (x > 3)

### Значение момента
![Momentum](https://habrastorage.org/files/4d9/684/061/4d96840618dc44768e57e892033a119a.png)

# Функция потерь
### Регрессия
**Средняя абсолютная ошибка**
$$
MAE = {1\over n}\sum_{i=1}^n|y_i - pred_i|
$$
*n - число признаков в выходном векторе*  
*pred - предсказанный вектор*
  
**Средняя квадратичная ошибка**
$$
MSE = {1\over n}\sum_{i=1}^n(y_i - pred_i)^2
$$
**Средняя абсолютная процентная ошибка**
$$
MAPE = {100\% \over n}\sum_{i=1}^n{|y_i - pred_i|\over y_i}
$$


In [7]:
#!pip install scikit-learn
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error, log_loss

In [8]:
# MAE
def mean_absolute_error(y, pred):
    diff = y - pred # находим разницу между  наблюдаемыми значениями (y) и прогнозируемыми (pred)
    abs_diff = np.absolute(diff) # находим абсолютную разность между прогнозами и фактическими наблюдениями.
    mean_diff = abs_diff.mean() # находим среднее значение
    return mean_diff

y = np.array([1.1,2,1.7]) # создаем список актуальных значений
pred = np.array([1,1.7,1.5]) # список прогнозируемых значений

# mean_absolute_error(y, pred) # sklearn
mean_absolute_error(y, pred)

0.20000000000000004

In [9]:
# MSE
def mean_squared_error(y, pred):
   diff = y - pred # находим разницу между  наблюдаемыми значениями (y) и прогнозируемыми (pred)
   differences_squared = diff ** 2 # возводим в квадрат (чтобы избавиться от отрицательных значений)
   mean_diff = differences_squared.mean() # находим среднее значение
   
   return mean_diff

y = np.array([1.1,2,1.7]) 
pred = np.array([1,1.7,1.5]) 

# mean_squared_error(y, pred) # sklearn
mean_squared_error(y, pred)

0.04666666666666667

In [10]:
# RMSE
def root_mean_squared_error(y, pred):
   diff = y - pred # находим разницу между  наблюдаемыми значениями (y) и прогнозируемыми (pred)
   differences_squared = diff ** 2 # возводим в квадрат
   mean_diff = differences_squared.mean() # находим среднее значение
   rmse_val = np.sqrt(mean_diff) # извлекаем квадратный корень
   return rmse_val

y = np.array([1.1,2,1.7])
pred = np.array([1,1.7,1.5])

# mean_squared_error(y, pred, squared = False) #Если установлено значение False, функция возвращает значение RMSE.
root_mean_squared_error(y, pred)

0.21602468994692867

### Классификация
**Бинарная кросс энтропия**
$$
CE = -y_1log(pred_1)-(1-y_1)log(1-pred_1)
$$
**Категориальная кросс энтропия**
$$
CE = -\sum_j^Cy_jlog(pred_j)
$$
*C - число классов*

In [11]:
def binary_cross_entropy(y, pred):
    y = np.array([1 if el == "Cat" else 0 for el in y]) # [[0 1 1 0]]
    pred = np.array([el[0] for el in pred])
    CE = -y*np.log(pred) - (1 - y)*np.log((1-pred))
    return CE.mean()

labels = {"Cat": [1, 0], "Dog":[0,1]}

def encode_label(y):
    return np.array([labels[key] for key in y])

def cross_entropy(y, pred):
    y = encode_label(y) # [[0, 1], [1, 0], [1, 0], [0, 1]]
    pred = np.array(pred)
    CE = -np.sum(y*np.log(pred), axis=-1)
    return CE.mean()

y = ["Dog", "Cat", "Cat", "Dog"] # список правильных меток классов
pred = [[.1, .9], [.9, .1], [.8, .2], [.35, .65]] # [P(dog), P(cat)] # список вероятностей, предсказанных моделью.

# (Первый аргумент в вызове функции — это список правильных меток классов для каждого входа. Второй аргумент — это список вероятностей, предсказанных моделью.)
# log_loss(y, pred) # sklearn 
cross_entropy(y, pred) # binary_cross_entropy(y, pred)

0.21616187468057912

<img src="images/LessonsII/cross_entr.png" alt="SoftMax" height=80% width=80%>

# Сверточные нейронные сети

![Архитектура](https://upload.wikimedia.org/wikipedia/commons/5/55/%D0%90%D1%80%D1%85%D0%B8%D1%82%D0%B5%D0%BA%D1%82%D1%83%D1%80%D0%B0_%D1%81%D0%B2%D0%B5%D1%80%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D0%B9_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D0%BE%D0%B9_%D1%81%D0%B5%D1%82%D0%B8.png)



Слой свёртки (convolutional layer) — это основной блок свёрточной нейронной сети. Слой свёртки включает в себя для каждого канала свой фильтр, ядро свёртки которого обрабатывает предыдущий слой по фрагментам (суммируя результаты поэлементного произведения для каждого фрагмента). Весовые коэффициенты ядра свёртки (небольшой матрицы) неизвестны и устанавливаются в процессе обучения.

![Свёртка](https://neurohive.io/wp-content/uploads/2018/07/2d-covolutions.gif)

### Свёртка
<img src="images/LessonsII/convolution.jpeg" alt="Conv" height=40% width=40%>
$$O_{i, j} = f(K*I_{i-s:i+s, j-s:j+s})$$

$K$ - ядро свёртки  
$I$ - входной тезнор  
$I_{i-s:i+s, j-s:j+s}$ - срез тензора размера ядра свёртки с центром в точке (i, j)  
$O_{i, j}$ - результат свёртки (значение выходного тензора в точке (i, j))  
$f$ - функция активации

# Граф вычислений
<img src="images/LessonsII/graph.png" alt="gr" height=50% width=50%>

# Обратное распространение ошибки. Пример

- функция:
$$f(x,w) = 1 + e^{w_1x+w_0}$$
<img src="images/LessonsII/back1_1.png" alt="Back1" height=40% width=40%>

- Начальное состояение весов и входного значения:
<img src="images/LessonsII/back1_2.png" alt="back1_2" height=40% width=40%>

- Посчитаем значения по прямому проходу
<img src="images/LessonsII/back1_3.png" height=40% width=40%>

- Для удобства обозначим узлы (подфункции)
<img src="images/LessonsII/back1_4.png" alt="back1_4" height=40% width=40%>

- Обратное распространение. Пусть df = 1. Тогда 
$$dc = {df \over dc}df = (c+1)'_{c} * 1 = 1$$
$$db = {dc \over db}dc = (e^b)'_{b} * 1 = e^3 = 20$$
<img src="images/LessonsII/back1_5.png" height=40% width=40%>

$$dw_0 = {db \over dw_0}db = (a+w_0)'_{w_0} * 20 = 20$$
$$da = {db \over da}db = (a+w_0)'_{a} * 20 = 20$$
<img src="images/LessonsII/back1_6.png" height=40% width=40%>

$$dw_1 = {da \over dw_1}da = (x*w_1)'_{w_1} * 20 = x*20 = 20$$
$$dx = {da \over dx}da = (x*w_1)'_{x} * 20 = w_1*20 = 40$$
<img src="images/LessonsII/back1_7.png" height=40% width=40%>