<b>Нейронная сеть</b> — попытка с помощью математических моделей воспроизвести работу человеческого мозга для создания машин, обладающих искусственным интеллектом.

<b>Искусственная нейронная сеть</b> обычно обучается с учителем. Это означает наличие обучающего набора (датасета), который содержит примеры с истинными значениями: тегами, классами, показателями.

Например, если вы хотите создать нейросеть для оценки тональности текста, датасетом будет список предложений с соответствующими каждому эмоциональными оценками. Тональность текста определяют признаки (слова, фразы, структура предложения), которые придают негативную или позитивную окраску. Веса признаков в итоговой оценке тональности текста (позитивный, негативный, нейтральный) зависят от математической функции, которая вычисляется во время обучения нейронной сети.

![ChessUrl](https://neurohive.io/wp-content/uploads/2018/07/neuronnaya-set.gif "chess")


Искусственная нейронная сеть состоит из трех компонентов:

1. Входной слой;
2. Скрытые (вычислительные) слои;
3. Выходной слой.


Обучение нейросетей происходит в два этапа:

1. Прямое распространение ошибки;
2. Обратное распространение ошибки.

Во время прямого распространения ошибки делается предсказание ответа. При обратном распространении ошибка между фактическим ответом и предсказанным минимизируется.

<h2>Прямое распространение ошибки</h2>

![image.png](attachment:image.png)

Зададим начальные веса случайным образом:
<ul>
    <li>w1</li>
    <li>w2</li>
</ul>
Умножим входные данные на веса для формирования скрытого слоя:

<ul>

<li>h1 = (x1 * w1) + (x2 * w1)</li>
<li>h2 = (x1 * w2) + (x2 * w2)</li>
<li>h3 = (x1 * w3) + (x2 * w3)</li>
 </ul>
Выходные данные из скрытого слоя передается через нелинейную функцию (функцию активации), для получения выхода сети:

<ul>

<li>y_ = fn(h1 , h2, h3)</li>
 </ul>


<h2>Обратноераспространение ошибки</h2>

![image.png](attachment:image.png)
<ul>
<li>Суммарная ошибка (total_error) вычисляется как разность между ожидаемым значением «y» (из обучающего набора) и полученным значением «y_» (посчитанное на этапе прямого распространения ошибки), проходящих через функцию потерь (cost function).</li>
<li>Частная производная ошибки вычисляется по каждому весу (эти частные дифференциалы отражают вклад каждого веса в общую ошибку (total_loss)).</li>
<li>Затем эти дифференциалы умножаются на число, называемое скорость обучения или learning rate (η).</li>
</ul>
Полученный результат затем вычитается из соответствующих весов.

В результате получатся следующие обновленные веса:
<ul>
<li>w1 = w1 — (η * ∂(err) / ∂(w1))</li>
<li>w2 = w2 — (η * ∂(err) / ∂(w2))</li>
<li>w3 = w3 — (η * ∂(err) / ∂(w3))</li>
    </ul>
То, что мы предполагаем и инициализируем веса случайным образом, и они будут давать точные ответы, звучит не вполне обоснованно, тем не менее, работает хорошо.

![image-2.png](attachment:image-2.png)


<h2>Функция активации (activation function)</h2>
Функция активации — это один из самых мощных инструментов, который влияет на силу, приписываемую нейронным сетям. Отчасти, она определяет, какие нейроны будут активированы, другими словами и какая информация будет передаваться последующим слоям.

Без функций активации глубокие сети теряют значительную часть своей способности к обучению. Нелинейность этих функций отвечает за повышение степени свободы, что позволяет обобщать проблемы высокой размерности в более низких измерениях. Ниже приведены примеры распространенных функций активации:

![image.png](attachment:image.png)

<h2>Функция потери (loss function)</h2>
Функция потерь находится в центре нейронной сети. Она используется для расчета ошибки между  реальными и полученными ответами. Наша глобальная цель — минимизировать эту ошибку. Таким образом, функция потерь эффективно приближает обучение нейронной сети к этой цели.

Функция потерь измеряет «насколько хороша» нейронная сеть в отношении данной обучающей выборки и ожидаемых ответов. Она также может зависеть от таких переменных, как веса и смещения.

Функция потерь одномерна и не является вектором, поскольку она оценивает, насколько хорошо нейронная сеть работает в целом.

Некоторые известные функции потерь:
<ul>
<li>Квадратичная (среднеквадратичное отклонение);</li>
<li>Кросс-энтропия;</li>
<li>Экспоненциальная (AdaBoost);</li>
<li>Расстояние Кульбака — Лейблера или прирост информации.</li>
</ul>
Cреднеквадратичное отклонение – самая простая фукция потерь и наиболее часто используемая. Она задается следующим образом:

![image.png](attachment:image.png)

Функция потерь в нейронной сети должна удовлетворять двум условиям:
<ul>
<li>Функция потерь должна быть записана как среднее;</li>
<li>Функция потерь не должна зависеть от каких-либо активационных значений нейронной сети, кроме значений, выдаваемых на выходе.</li>
</ul>

<h2>Глубокие нейронные сети</h2>

Глубокое обучение (deep learning) – это класс алгоритмов машинного обучения, которые учатся глубже (более абстрактно) понимать данные. Популярные алгоритмы нейронных сетей глубокого обучения представлены на схеме ниже.

![image.png](attachment:image.png)

Более формально в deep learning:

Используется каскад (пайплайн, как последовательно передаваемый поток) из множества обрабатывающих слоев (нелинейных) для извлечения и преобразования признаков;
Основывается на изучении признаков (представлении информации) в данных без обучения с учителем. Функции более высокого уровня (которые находятся в последних слоях) получаются из функций нижнего уровня (которые находятся в слоях начальных слоях);
Изучает многоуровневые представления, которые соответствуют разным уровням абстракции; уровни образуют иерархию представления.


In [11]:
import numpy as np


def sigmoid(x):
    return 1/(1+np.exp(-x))


In [13]:
class Neuron:
    def __init__ (self, weights, bias):
        self.weights = weights
        self.bias = bias
    
    def feedforward (self, inputs):
        total = np.dot(self.weights, inputs)+self.bias
        return sigmoid(total)
    
weight = np.array([0,1])
bias = 4

n = Neuron(weight, bias)
x =  np.array([2,3])

print(n.feedforward(x))

0.9990889488055994


In [53]:
class NeuralNetwork:
    """
    2-входных нейрона
    1- слой с 2 нейонами (скрытый)
    слой вывода с 1 нейроном.
    w= [0,1]
    b = 0
    """
    def __init__(self):
        #веса 
        self.w1 = np.random.normal()
        self.w2 = np.random.normal()
        self.w3 = np.random.normal()
        self.w4 = np.random.normal()
        self.w5 = np.random.normal()
        self.w6 = np.random.normal()
        #смещение
        self.b1 = np.random.normal()
        self.b2 = np.random.normal()
        self.b3 = np.random.normal()

        
    def feedforwards (self, x):
        sumfh1 = self.w1*x[0]+self.w2*x[1]+self.b1
        print(f"sum - {sumfh1},w1 - {self.w1}, b1 - {self.b1} ")
        sumfh2 = self.w3*x[0]+self.w4*x[1]+self.b2
        print(f"sum - {sumfh2}")
        fh1 = sigmoid(sumfh1)
        fh2 = sigmoid(sumfh2)
        out_feed = sigmoid(self.w5*fh1+self.w6*fh2+self.b3)
        print(f"fh1-{fh1}, fh2-{fh2}, out_feed-{out_feed}")
        return out_feed
    
    def train(self, data, all_y_trues):
        learn_rate = 0.1
        epochs = 1000
        for epoch in range(epochs):
            for x, y_train in zip(data, all_y_trues):
                
                sum_h1 = self.w1*x[0]+self.w2*x[1]+self.b1
                h1 = sigmoid(sum_h1)
                sum_h2 = self.w3*x[0]+self.w4*x[1]+self.b2
                h2 = sigmoid(sum_h2)
                sum_o1 = self.w5*h1+self.w6*h2+self.b3
                
                oh1 = sigmoid(sum_o1)
                y_pred = oh1
                
                dL = -2*(y_true - y_pred)
                #o1
                dypred = h1*deriv_sigmoid(sum_o1)
                dypred2 = h2*deriv_sigmoid(sum_o1)
                dypred3 = deriv_sigmoid(sum_o1)
                
                d_self = self.w5 * deriv_sigmoid(sum_o1)
                d_self2 = self.w6 * deriv_sigmoid(sum_o1)
                
                #h1
                dh1_w1 = x[0]*deriv_sigmoid(sum_h1)
                dh1_w2 = x[1]*deriv_sigmoid(sum_h1)
                dh1 = deriv_sigmoid(sum_h1)
                #h2
                dh2_w3 = x[0]*deriv_sigmoid(sum_h2)
                dh2_w4 = x[1]*deriv_sigmoid(sum_h2)
                dh2 = deriv_sigmoid(sum_h2)
                
                self.w1 -= learn_rate* dL* d_self*dh1_w1
                self.w2 -= learn_rate* dL* d_self*dh1_w2
                self.b1 -= learn_rate* dL* d_self*dh1
                
                
                self.w3 -= learn_rate* dL* d_self2*dh2_w3
                self.w4 -= learn_rate* dL* d_self2*dh2_w4
                self.b1 -= learn_rate* dL* d_self2*dh2
                
                self.w5 -= learn_rate* dL* dypred
                self.w6 -= learn_rate* dL* dypred2
                self.b1 -= learn_rate* dL* dypred3
                
            if epoch%10 ==0:
                y_preds = np.apply_along_axis(self.feedforwards, 1, data)
                loss = mse_loss(all_y_trues, y_preds)
                print(f"Epoch {epoch}, loss {loss}")
                


![image.png](attachment:image.png)


![image.png](attachment:image.png)

In [54]:
def mse_loss(y_true, y_pred):
    return ((y_true-y_pred)**2).mean()

In [55]:
def deriv_sigmoid(x):
    fx = sigmoid(x)
    return fx*(1-fx)

In [56]:
data = np.array([[-2,-1],
               [25,6],
               [17,4],
               [-15,-6]])
all_y_trues = np.array([1,0,0,1])
nn = NeuralNetwork()
nn.train(data, all_y_trues)

sum - [-0.64453331 -0.87197593 -0.87197593 -0.64453331],w1 - [0.64464176 0.67597286 0.67597286 0.64464176], b1 - [0.97474575 0.8256291  0.8256291  0.97474575] 
sum - [0.48081084 0.5077487  0.5077487  0.48081084]
fh1-[0.3442225  0.29484332 0.29484332 0.3442225 ], fh2-[0.61793932 0.62427857 0.62427857 0.61793932], out_feed-[0.65104801 0.61710142 0.61710142 0.65104801]
sum - [19.070763   19.79890648 19.79890648 19.070763  ],w1 - [0.64464176 0.67597286 0.67597286 0.64464176], b1 - [0.97474575 0.8256291  0.8256291  0.97474575] 
sum - [-1.98971531 -2.24730894 -2.24730894 -1.98971531]
fh1-[0.99999999 1.         1.         0.99999999], fh2-[0.12028698 0.09558184 0.09558184 0.12028698], out_feed-[0.86488433 0.85773928 0.85773928 0.86488433]
sum - [13.25363784 13.69980497 13.69980497 13.25363784],w1 - [0.64464176 0.67597286 0.67597286 0.64464176], b1 - [0.97474575 0.8256291  0.8256291  0.97474575] 
sum - [-1.25796208 -1.43215184 -1.43215184 -1.25796208]
fh1-[0.99999825 0.99999888 0.99999888 0.99

In [57]:
emily = np.array([-7,  -3])
frank = np.array([20,  2])
print(f"Emily {nn.feedforwards(emily)}")
print(f"Frank {nn.feedforwards(frank)}")

sum - [ 3.8827041  -9.75039121 -9.75039121  3.8827041 ],w1 - [0.02238293 0.79542379 0.79542379 0.02238293], b1 - [ 3.91245642 -2.96627641 -2.96627641  3.91245642] 
sum - [0.09416178 2.06086661 2.06086661 0.09416178]
fh1-[9.79820539e-01 5.82684671e-05 5.82684671e-05 9.79820539e-01], fh2-[0.52352307 0.88704103 0.88704103 0.52352307], out_feed-[0.97633002 0.02910577 0.02910577 0.97633002]
Emily [0.97633002 0.02910577 0.02910577 0.97633002]
sum - [ 4.27549625 13.75296487 13.75296487  4.27549625],w1 - [0.02238293 0.79542379 0.79542379 0.02238293], b1 - [ 3.91245642 -2.96627641 -2.96627641  3.91245642] 
sum - [1.34741819 6.55287553 6.55287553 1.34741819]
fh1-[0.98628555 0.99999894 0.99999894 0.98628555], fh2-[0.79370721 0.99857602 0.99857602 0.79370721], out_feed-[0.98145991 0.00934526 0.00934526 0.98145991]
Frank [0.98145991 0.00934526 0.00934526 0.98145991]


In [50]:
nn.feedforwards(emily)

h1-[9.83842264e-01 1.25233608e-05 1.25233608e-05 9.83842264e-01], h2-[0.99996416 0.99998665 0.99998665 0.99996416], out_feed-[0.99079612 0.03736709 0.03736709 0.99079612]


array([0.99079612, 0.03736709, 0.03736709, 0.99079612])

In [44]:
sigmoid(-1)

0.2689414213699951