# Глава 1. Полносвязные нейронные сети

Для понимания того, как устроена простая полносвязная нейронная сеть мы разработаем пример подобной сети на чистом numpy.

## 1. Нейронная сеть состоит из следующих элементов:
* Слой входных параметров **x**
* Несколько скрытых слоев (hidden layers)
* Выход сети **y**
* Набор весов (weights) **W** и векторов сдвига (biases) **b** для каждого скрытого слоя
* Функция активации каждого скрытого слоя $\sigma$

Далее показана архитектура двуслойной нейронной сети (обычно слой входных параметров не считают, только слои, где осуществляются вычисления)

![title](img/ann.png)

Реализуем на Python собственную многослойную нейронную сеть:

In [None]:
сlass NeuralNetwork: 
    def __init__(self, x, y):
        self.input      = x
        self.weights1   = np.random.rand(self.input.shape[1],4) 
        self.weights2   = np.random.rand(4,1)                 
        self.y          = y
        self.output     = np.zeros(self.y.shape)

## 2. Обучение нейронной сети

Выход двуслойной нейронной сети:

![title](img/ann1.png)

* В приведенном выше уравнении весовые коэффициенты W и смещения b являются единственными переменными, 
которые влияют на результат y^.

* Естественно, правильные значения весов и смещений определяют точность модели. Процесс точной настройки весов и смещений из входных данных - называется **обучение нейронной сети**.

* Каждая итерация учебного процесса состоит из следующих шагов:

* Расчет прогнозируемого выхода называется прямое распространение (feedforward)

* Обновление весов и сдвигов называется обратным распространением (backpropagation)

Последовательный график ниже иллюстрирует процесс.

![title](img/ann2.png)

## 2.1 Прямое распространение 

Как следует из предыдущего графика, прямое распространение (feedforward) - это просто простое последоватлеьность вычислительных операций нейронной сети. Для базовой двухслойной нейронной сети результат шага прямого рапсространения:

![title](img/ann1.png)

Давайте добавим функцию прямого вычисления в класс

In [None]:
сlass NeuralNetwork: 
    def __init__(self, x, y):
        self.input      = x
        self.weights1   = np.random.rand(self.input.shape[1],4) 
        self.weights2   = np.random.rand(4,1)                 
        self.y          = y
        self.output     = np.zeros(self.y.shape)

    def feedforward(self):
        self.layer1 = sigmoid(np.dot(self.input, self.weights1))
        self.output = sigmoid(np.dot(self.layer1, self.weights2))
    return self.output

## 2.2 Функция потерь 

Нам нужно уметь оценивать результат / прогноз нейронной сети. Для этого реализуем функцию потерь 
нейронной сети, которую будем стараться минимизировать

Существует много доступных функций потерь. Выбор конкретной функции потерь зависит от задачи.
В этом руководстве мы будем использовать наиболее часто используемую функцию потерь - среднеквадратичную ошибку

![title](img/ann3.png)

**Среднеквадратичная ошибка (MSE)** - это просто сумма разностей между каждым прогнозируемым значением и фактическим значением. Разница возводится в квадрат, поэтому мы тем самым измеряем абсолютное значение разницы.

Наша цель при обучении нейронной сети - найти лучший набор весов **W** и сдвигов **b**, которые минимизируют выбранную функцию потерь.

In [None]:
def loss(y,y_out):
    return np.mean(np.square(y-y_out))

## 2.3. Обратное распространение ошибки

Теперь, когда мы можем измерить ошибку нашего прогноза (потери), нам нужно найти способ распространить ошибку назад по сети и обновить наши веса **W** и свдиги **b**.

Нам необходимо знать производную (изменение) функции потерь по весовым коэффициентам и смещениям, чтобы с ее помощью которой можно скорректировать весовые коэффициенты и смещения.

Напомним, что производная функции - это просто скорость роста функции (тангенс угла наклона касательной к графику функции).

![title](img/ann4.png)

Если у нас есть производная, мы можем просто обновить веса и смещения, двигаясь в направлении антиградиента функции потерь.

Однако, мы не можем напрямую рассчитать производную функции потерь по весам и смещениям, потому что уравнение функции потерь не содержит весов и смещений. Поэтому нам нужно воспользоваться правилом дифференцирования сложной функции (**chain rule**).

![title](img/ann5.png)

Давайте добавим функцию обратного распространения ошибки в нашу нейронную сеть

In [None]:
def backprop(self):
        # application of the chain rule to find derivative of the loss function with respect to weights2 and weights1
        d_weights2 = np.dot(self.layer1.T, (2*(self.y - self.output) * sigmoid_derivative(self.output)))
        d_weights1 = np.dot(self.input.T,  (np.dot(2*(self.y - self.output) * sigmoid_derivative(self.output), self.weights2.T) * sigmoid_derivative(self.layer1)))

        # update the weights with the derivative (slope) of the loss function
        self.weights1 += d_weights1
        self.weights2 += d_weights2

In [None]:
def train(self, X, y): 
        self.output = self.feedforward() 
        self.backprop()

## 3. Применение нейронной сети

Собираем все вместе. Теперь, когда у нас есть полный код Python для выполнения прямого вычисления и обратного распространения, давайте применим нашу нейронную сеть на примере

### Задание 1. Собрать код нейронной сети

Наша нейронная сеть должна изучить идеальный набор весов для представления функции **Y(X)**.
Сможете найти закономерность внимательным всматриванием?

Давайте обучим нейронную сеть для 1500-2000 итераций и посмотрим на результат.

![title](img/ann6.png)

### Задание 2. 
* Добавить learning rate 
* Визуализировать функцию потерь с числом итераций обучения
* Визуализироват функцию потерь при разном числе нейронов в первом скрытом слое

## 4. Решение

In [5]:
import numpy as np
from IPython.display import display, Math, Latex
# Imports import numpy as np 
# Each row is a training example, each column is a feature [X1, X2, X3] 
X=np.array(([0,0,1],[0,1,1],[1,0,1],[1,1,1]), dtype=float)
y=np.array(([0],[1],[1],[0]), dtype=float) 

# Define useful functions 
# Activation function 
def sigmoid(t): return 1/(1+np.exp(-t)) 
# Derivative of sigmoid 
def sigmoid_derivative(p): return p * (1 - p)

In [34]:
class NeuralNetwork: 
    
    def __init__(self, x,y): 
        self.input = x 
        self.weights1= np.random.rand(self.input.shape[1],4) # considering we have 4 nodes in the hidden layer 
        self.weights2 = np.random.rand(4,1)
        self.y = y 
        self.output = np.zeros(y.shape) 
        
    def feedforward(self): 
        self.layer1 = sigmoid(np.dot(self.input, self.weights1)) 
        self.layer2 = sigmoid(np.dot(self.layer1, self.weights2)) 
        return self.layer2 
        
    def backprop(self): 
        d_weights2 = np.dot(self.layer1.T, 2*(self.y -self.output)*sigmoid_derivative(self.output)) 
        d_weights1 = np.dot(self.input.T, np.dot(2*(self.y -self.output)*sigmoid_derivative(self.output), 
                                                 self.weights2.T)*sigmoid_derivative(self.layer1)) 
        self.weights1 += d_weights1 
        self.weights2 += d_weights2 
            
    def train(self, X, y): 
        self.output = self.feedforward() 
        self.backprop()

In [8]:
def print_result(i,X,y,y_out):
    print ("for iteration: " + str(i) + "\n") 
    print ("Input : \n" + str(X)) 
    print ("Actual Output: \n" + str(y)) 
    print ("Predicted Output: \n" + str(y_out)) 
    print ("Loss: \n" + str(loss(y,y_out))) 
    print ("\n")

In [11]:
num_epoch=2000

ANN = NeuralNetwork(X,y)
    
for i in range(num_epoch): 
    
    if i % 100 == 0:
        y_out = ANN.feedforward()
        print_result(i,X,y,y_out)
        
    ANN.train(X, y)

for iteration # 0

Input : 
[[0. 0. 1.]
 [0. 1. 1.]
 [1. 0. 1.]
 [1. 1. 1.]]
Actual Output: 
[[0.]
 [1.]
 [1.]
 [0.]]
Predicted Output: 
[[0.81893282]
 [0.86204539]
 [0.85706349]
 [0.88682399]]
Loss: 
0.37414251814197125


for iteration # 100

Input : 
[[0. 0. 1.]
 [0. 1. 1.]
 [1. 0. 1.]
 [1. 1. 1.]]
Actual Output: 
[[0.]
 [1.]
 [1.]
 [0.]]
Predicted Output: 
[[0.3638077 ]
 [0.58658134]
 [0.53035871]
 [0.5638825 ]]
Loss: 
0.2104493611514342


for iteration # 200

Input : 
[[0. 0. 1.]
 [0. 1. 1.]
 [1. 0. 1.]
 [1. 1. 1.]]
Actual Output: 
[[0.]
 [1.]
 [1.]
 [0.]]
Predicted Output: 
[[0.13309306]
 [0.78267147]
 [0.763325  ]
 [0.28283141]]
Loss: 
0.050238528369912994


for iteration # 300

Input : 
[[0. 0. 1.]
 [0. 1. 1.]
 [1. 0. 1.]
 [1. 1. 1.]]
Actual Output: 
[[0.]
 [1.]
 [1.]
 [0.]]
Predicted Output: 
[[0.06825755]
 [0.90542781]
 [0.88686311]
 [0.12166557]]
Loss: 
0.010301364927355356


for iteration # 400

Input : 
[[0. 0. 1.]
 [0. 1. 1.]
 [1. 0. 1.]
 [1. 1. 1.]]
Actual Output: 
[[0.]
