In [1]:
import numpy as np

# Что происходит внутри скрытого слоя? 
![Операции внутри скрытого слоя](img/neuron.jpg)
На скрытый слой поступает вектор признаков с весами (на первом шаге веса, как правило, генерируются случайными), далее происходит суммирование перемноженного вектора признаков на вектор весов и вычисление пороговой функции.

# Функция активации
![Логистическая функция активации (сигмоида)](img/sigmoid.png)

Сигмоида выдает результаты в интервале (0, 1). Можно представить, что она «упаковывает» интервал от минус бесконечности до плюс бесконечности в (0, 1): большие отрицательные числа превращаются в числа, близкие к 0, а большие положительные – к 1.

$f = {{1}\over{(1 + exp(-x))}}$

# Простой пример

Пусть имеем нейрон с тремя входами использует сигмоидную функцию активации и имеет следующие параметры:

Вектор весов $w = [0, 1, 0.5]$

Смещение $b=4$

Входные данные: $x=[2, 3, 4]$

Результат работы скрытого слоя:

$(w*x)+b=((w_{1}*x_{1})+(w_{2}*x_{2})+(w_{3}*x_{3}))+b=(0*2)+(1*3)+(0.5*4)+4=9$

$y=f((w*x)+b)=f(9)=0.9998766054240137\approx1$

# Задание: написать функцию для реализации сигмоиды

In [2]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Задание: написать функцию производной сигмоиды

In [3]:
def deriv_sigmoid(x):
    fx = sigmoid(x)
    return fx * (1 - fx)

# Задание: написать функцию квадратичной ошибки

In [4]:
def mse_loss(y_true, y_pred):
    return ((y_true - y_pred) ** 2).mean()

# Напишем класс нейрон

In [None]:
class Neuron:
    def __init__(self, weights, bias):
        self.weights = weights
        self.bias = bias

    def feedforward(self, inputs):
    # Умножаем входы на веса, прибавляем порог, затем используем функцию активации
        total = np.dot(self.weights, inputs) + self.bias
        return sigmoid(total)

    weights = np.array([0, 1])
    bias = 4                   
    n = Neuron(weights, bias)

    x = np.array([2, 3])
    print(n.feedforward(x))

Нейронная сеть - несколько нейронов вместе

![Нейронная сеть](img/ANN.jpg)

### Пример: прямая связь
Давайте используем сеть, изображенную выше, и будем считать, что все нейроны имеют одинаковые веса $w=[0, 1]$, одинаковые пороговые значения $b=0$, и одинаковую функцию активации – сигмоиду. Пусть $h_1, h_2, o_1$ обозначают выходные значения соответствующих нейронов.

Что получится, если мы подадим на вход $x=[2, 3]$?

$h_{1}=h_{2}=f(w*x+b)=f((0*2)+(1*3)+0)=f(3) \approx 0.9526$

$o_{1}=f(w*[h_{1},h_{2}]+b)=f((0*h_{1})+(1*h_{2})+0)=f(0.9526) \approx 0.7216$


 
Если подать на вход нашей нейронной сети $x=[2, 3]$, на выходе получится $0.7216$.

Нейронная сеть может иметь любое количество слоев, и в этих слоях может быть любое количество нейронов. Основная идея остается той же: передавайте входные данные по нейронам сети, пока не получите выходные значения.

# Как происходит обучение нейронной сети?
![Нейронная сеть с весами](img/ANN_2.jpg)

# Как расписать функцию потерь?
Запишем функцию потерь как функцию от параметров

$L = f(w_{1}, w_{2}, w_{3}, w_{4}, w_{5}, w_{6}, b_{1}, b_{2}, b_{3})$

Будем рассматривать частную производную ошибки по весам

${{\partial L}\over{\partial w_{1}}} = {{\partial L}\over{\partial y_{pred}}} * {{\partial y_{pred}}\over{\partial w_{1}}}$

Мы можем рассчитать ${{\partial L}\over{\partial y_{pred}}}$, принимаем $L=(1-y_{pred})^2$:

${{\partial L}\over{\partial y_{pred}}}={{\partial (1-y_{pred})^2}\over{\partial y_{pred}}}=-2*(1-y_{pred})$

Как быть с ${{\partial y_{pred}}\over{\partial w_{1}}}$?. Выходы нейронов $h_{1}, h_{2}, o_{1}$, соответственно:

$y_{pred}=o_{1}=f(w_{5}h_{1}+w_{6}h_{2}+b_{3})$

Поскольку $w_{1}$ влияет только на $h_{1}$ (но не на $h_{2}$), мы можем снова использовать цепное правило и записать:

${{\partial y_{pred}}\over{\partial w_{1}}}={{\partial y_{pred}}\over{\partial h_{1}}}*{{\partial h_{1}}\over{\partial w_{1}}}$

${{\partial y_{pred}}\over{\partial h_{1}}}=w_{5}*f'(w_{5}h_{1}+w_{6}h_{2}+b_{3})$

Мы можем сделать то же самое для ${{\partial h_{1}}\over{\partial w_{1}}}$:

$h_{1}=f(x_{1}w_{1}+x_{2}w_{2}+b_{1})$

${{\partial h_{1}}\over{\partial w_{1}}}=x_{1}f'(x_{1}w_{1}+x_{2}w_{2}+b_{1})$

В этой формуле $x_{1}$ – это вес, а $x_{2}$ – рост. Вот уже второй раз мы встречаем $f'(x)$, настало время вычислить ее:

$f(x)={{1}\over{1+exp(-x)}}$

$f'(x)={{exp(-x)}\over{(1+exp(-x))^2}}=f(x)*(1-f(x))$

### Финально:

${{\partial L}\over{\partial w_{1}}}={{\partial L}\over{\partial y_{pred}}}*{{\partial y_{pred}}\over{\partial h_{1}}}*{{\partial h_{1}}\over{\partial w_{1}}}$

Такой метод расчета частных производных "от конца к началу" называется методом обратного распространения.

# Обучение нейронной сети

Обучение: стохастический градиентный спуск
Используем алгоритм оптимизации под названием стохастический градиентный спуск (stochastic gradient descent), который определит, как мы будем изменять наши веса и пороги для минимизации потерь. Фактически, он заключается в следующей формуле обновления:

$w_{1}=w_{1}- \eta{{\partial L}\over{\partial w_{1}}}$
 
$\eta$ - скоростью обучения 
Скорость обучения определяет, как быстро наша сеть учится. Все, что мы делаем – это вычитаем $\eta{{\partial L}\over{\partial w_{1}}}$ из $w_{1}$:

Если ${{\partial L}\over{\partial w_{1}}}$ положительна, $w_{1}$ уменьшится, что уменьшит $L$.  
Если ${{\partial L}\over{\partial w_{1}}}$ отрицательна, $w_{1}$ увеличится, что также уменьшит $L$.

Если мы сделаем то же самое для каждого веса и порога в сети, потери будут постепенно уменьшаться, и наша сеть будет выдавать более точные результаты.

Процесс обучения сети будет выглядеть примерно так:

1. Выбираем одно наблюдение из набора данных. Именно то, что мы работаем только с одним наблюдением, делает наш градиентный спуск стохастическим.
2. Считаем все частные производные функции потерь по всем весам и порогам (${{\partial L}\over{\partial w_{1}}}$, ${{\partial L}\over{\partial w_{2}}}$ и т.д.)
3. Используем формулу обновления, чтобы обновить значения каждого веса и порога.
4. Снова переходим к шагу 1.

# Напишем свою нейронную сеть

In [5]:
class ANN:
    def __init__(self):
        # Веса
        self.w1 = np.random.normal()
        self.w2 = np.random.normal()
        self.w3 = np.random.normal()
        self.w4 = np.random.normal()
        self.w5 = np.random.normal()
        self.w6 = np.random.normal()

# Смещение
        self.b1 = np.random.normal()
        self.b2 = np.random.normal()
        self.b3 = np.random.normal()

    def feedforward(self, x):
        h1 = sigmoid(self.w1 * x[0] + self.w2 * x[1] + self.b1)
        h2 = sigmoid(self.w3 * x[0] + self.w4 * x[1] + self.b2)
        o1 = sigmoid(self.w5 * h1 + self.w6 * h2 + self.b3)
        return o1

    def train(self, X, y, epochs, learning_rate):
        for epoch in range(epochs):
            for x, y_true in zip(X, y):
                # --- Прямое распространение
                sum_h1 = self.w1 * x[0] + self.w2 * x[1] + self.b1
                h1 = sigmoid(sum_h1)

                sum_h2 = self.w3 * x[0] + self.w4 * x[1] + self.b2
                h2 = sigmoid(sum_h2)

                sum_o1 = self.w5 * h1 + self.w6 * h2 + self.b3
                o1 = sigmoid(sum_o1)
                y_pred = o1

                # --- Расчёт частных производных
                # --- p_L_p_w1 - "частная производная L по w1"
                p_L_p_ypred = -2 * (y_true - y_pred)

                # Нейрон o1
                p_ypred_p_w5 = h1 * deriv_sigmoid(sum_o1)
                p_ypred_p_w6 = h2 * deriv_sigmoid(sum_o1)
                p_ypred_p_b3 = deriv_sigmoid(sum_o1)

                p_ypred_p_h1 = self.w5 * deriv_sigmoid(sum_o1)
                p_ypred_p_h2 = self.w6 * deriv_sigmoid(sum_o1)

                # Нейрон h1
                p_h1_p_w1 = x[0] * deriv_sigmoid(sum_h1)
                p_h1_p_w2 = x[1] * deriv_sigmoid(sum_h1)
                p_h1_p_b1 = deriv_sigmoid(sum_h1)

                # Нейрон h2
                p_h2_p_w3 = x[0] * deriv_sigmoid(sum_h2)
                p_h2_p_w4 = x[1] * deriv_sigmoid(sum_h2)
                p_h2_p_b2 = deriv_sigmoid(sum_h2)

                # --- Обновление весов и смещения ---
                # Нейрон h1
                self.w1 -= learning_rate * p_L_p_ypred * p_ypred_p_h1 * p_h1_p_w1
                self.w2 -= learning_rate * p_L_p_ypred * p_ypred_p_h1 * p_h1_p_w2
                self.b1 -= learning_rate * p_L_p_ypred * p_ypred_p_h1 * p_h1_p_b1

                # Нейрон h2
                self.w3 -= learning_rate * p_L_p_ypred * p_ypred_p_h2 * p_h2_p_w3
                self.w4 -= learning_rate * p_L_p_ypred * p_ypred_p_h2 * p_h2_p_w4
                self.b2 -= learning_rate * p_L_p_ypred * p_ypred_p_h2 * p_h2_p_b2

                # Нейрон o1
                self.w5 -= learning_rate * p_L_p_ypred * p_ypred_p_w5
                self.w6 -= learning_rate * p_L_p_ypred * p_ypred_p_w6
                self.b3 -= learning_rate * p_L_p_ypred * p_ypred_p_b3

                # Расчёт ошибки и вывод на экран (каждую 10-ю эпоху)
                if epoch % 10 == 0:
                    y_preds = np.apply_along_axis(self.feedforward, 1, X)
                    loss = mse_loss(y, y_preds)
                    print("Epoch %d loss: %.3f" % (epoch, loss))

## Исходные данные
| Имя	| Вес (кг)	| Рост (см) | Пол |
| :- | :- | :- | :- |
| Оля	| 54	| 168 | Ж |
| Ваня	| 65 | 185 | М |
| Миша	| 62 | 179| М |
| Анна	| 47 | 152 | Ж |

## Сдвинем данные на среднее значение
| Имя	| Вес (кг)	| Рост (см) | Пол |
| :- | :- | :- | :- |
| Оля	| -3 | -3 | Ж |
| Ваня	| 8 | 14 | М |
| Миша	| 5 | 8 | М |
| Анна	| -10 | -19 | Ж |

![Изображение на графике](img/example.jpg)
x - девушки  
o - парни

# Задайте массив с исходными данными

In [6]:
# Define dataset
X = np.array([
  [-3, -3],
  [8, 14],   
  [5, 8],  
  [-10, -19], 
])
y = np.array([
  1,
  0,
  0,
  1,
])

# Обучите нейронную сеть и сделайте прогноз на новых данных

In [7]:
our_ANN = ANN()
our_ANN.train(X, y, epochs=1000, learning_rate=0.1)


female = np.array([-7, -3])
male = np.array([20, 2]) 
print("female: %.3f" % our_ANN.feedforward(female))
print("male: %.3f" % our_ANN.feedforward(male))

Epoch 0 loss: 0.410
Epoch 0 loss: 0.411
Epoch 0 loss: 0.411
Epoch 0 loss: 0.406
Epoch 10 loss: 0.257
Epoch 10 loss: 0.258
Epoch 10 loss: 0.259
Epoch 10 loss: 0.248
Epoch 20 loss: 0.132
Epoch 20 loss: 0.132
Epoch 20 loss: 0.132
Epoch 20 loss: 0.129
Epoch 30 loss: 0.095
Epoch 30 loss: 0.095
Epoch 30 loss: 0.094
Epoch 30 loss: 0.094
Epoch 40 loss: 0.076
Epoch 40 loss: 0.075
Epoch 40 loss: 0.075
Epoch 40 loss: 0.075
Epoch 50 loss: 0.063
Epoch 50 loss: 0.062
Epoch 50 loss: 0.062
Epoch 50 loss: 0.062
Epoch 60 loss: 0.053
Epoch 60 loss: 0.052
Epoch 60 loss: 0.052
Epoch 60 loss: 0.052
Epoch 70 loss: 0.045
Epoch 70 loss: 0.045
Epoch 70 loss: 0.045
Epoch 70 loss: 0.045
Epoch 80 loss: 0.039
Epoch 80 loss: 0.039
Epoch 80 loss: 0.039
Epoch 80 loss: 0.039
Epoch 90 loss: 0.035
Epoch 90 loss: 0.035
Epoch 90 loss: 0.034
Epoch 90 loss: 0.034
Epoch 100 loss: 0.031
Epoch 100 loss: 0.031
Epoch 100 loss: 0.031
Epoch 100 loss: 0.031
Epoch 110 loss: 0.028
Epoch 110 loss: 0.028
Epoch 110 loss: 0.028
Epoch 110 

Epoch 950 loss: 0.002
Epoch 950 loss: 0.002
Epoch 950 loss: 0.002
Epoch 950 loss: 0.002
Epoch 960 loss: 0.002
Epoch 960 loss: 0.002
Epoch 960 loss: 0.002
Epoch 960 loss: 0.002
Epoch 970 loss: 0.002
Epoch 970 loss: 0.002
Epoch 970 loss: 0.002
Epoch 970 loss: 0.002
Epoch 980 loss: 0.002
Epoch 980 loss: 0.002
Epoch 980 loss: 0.002
Epoch 980 loss: 0.002
Epoch 990 loss: 0.002
Epoch 990 loss: 0.002
Epoch 990 loss: 0.002
Epoch 990 loss: 0.002
Emily: 0.962
Frank: 0.055
