# Создаем нейронную сеть

В мозге пчелы около 950 тыс. нейронов.
Ученых вдохновляла видимая простота мозга пчел или попугаев 
по сравнению со сложностью тех задач, которые они могли решать. 
Мозг весом не более долей грамма демонстрировал способность управлять полетом и адаптироваться к ветру, распознавать пищу и хищников и быстро принимать решения относительно того, стоит ли 
вступить в схватку или лучше обратиться в бегство. 

Ошибка = Истина - Расчет

Ошибка = Желаемое целевое значение - Фактический результат

t - у = (А + △А)х - Ax
E = t - y = Ax + (△A)х - Ax
Е = (△А)x

△А = E / x

Резюме

• Чтобы понять соотношение между выходной ошибкой линейного классификатора и параметром регулируемого наклона, достаточно владеть элементарной
математикой. Зная это соотношение, можно определить величину изменения
наклона, необходимую для устранения выходной ошибки.

• Недостаток прямолинейного подхода к регулировке параметров заключается
в том, что модель обновляется до наилучшего соответствия только последнему
тренировочному примеру, тогда как все предыдущие примеры не принимаются
во внимание. Одним из неплохих способов устранения этого недостатка является уменьшение величины обновлений с помощью коэффициента скорости обучения, чтобы ни один отдельно взятый тренировочный пример не доминировал
в процессе обучения.

• Тренировочные примеры, взятые из реальной практики, могут быть искажены
шумом или содержать ошибки. Сглаживание обновлений способствует ограничению влияния подобных ложных примеров.




Резюме

• Простой линейный классификатор не в состоянии разделить нужным образом
области данных, если данные не управляются простым линейным процессом.
Это было продемонстрировано на примере данных, управляемых логической
функцией исключающего ИЛИ.

• Однако эта проблема решается очень просто: для разграничения данных, которые не удается разделить одной прямой линей, следует использовать множество линейных классификаторов

**Нейрон**

![image.png](attachment:image.png)

Функция, которая получает входной сигнал, но генерирует выходной сигнал с учетом порогового значения, называется функцией активации. С математической точки зрения существует множество таких функций, которые могли бы обеспечить подобный эффект. 
В качестве примера можно привести **ступенчатую функцию**

**Ступенчатая функция**

![image.png](attachment:image.png)

**Сигмоида**

![image.png](attachment:image.png)

![image-3.png](attachment:image-3.png)

**Резюме**

• Биологический мозг демонстрирует выполнение таких сложных задач, как
управление полетом, поиск пищи, изучение языка или избегание встреч с хищниками, несмотря на меньший объем памяти и меньшую скорость обработки информации по сравнению с современными компьютерами.

• Кроме того, биологический мозг невероятно устойчив к повреждениям и несовершенству обрабатываемых сигналов по сравнению с традиционными компьютерными системами.

• Биологический мозг, состоящий из взаимосвязанных нейронов, является источником вдохновения для разработчиков систем искусственного интеллекта

![image.png](attachment:image.png)

![image.png](attachment:image.png)

$$X = W*I$$

**Резюме**

• Многие вычисления, связанные с распространением сигналов по нейронной сети, могут быть выполнены с использованием операции матричного умножения.

• Использование матричного умножения обеспечивает компактную запись выражений, размер которых не зависит от размеров нейронной сети.

• Что немаловажно, операции матричной алгебры изначально предусмотрены в ряде языков программирования, благодаря чему могут выполняться быстро и эффективно

![image.png](attachment:image.png)

In [1]:
import numpy as np
import math

def sigmoid(x):
    return np.array([1 / (1 + math.exp(-value)) for value in x])

w_input_hidden = np.array([
    [0.9, 0.3, 0.4],
    [0.2, 0.8, 0.2],
    [0.1, 0.5, 0.6],
])

w_hidden_output = np.array([
    [0.3, 0.7, 0.5],
    [0.6, 0.5, 0.2],
    [0.8, 0.1, 0.9],
])

input = np.array([0.9, 0.1, 0.8])

x_hidden = w_input_hidden.dot(input)
o_hidden = sigmoid(x_hidden)

x_output = w_hidden_output.dot(o_hidden)
o_output = sigmoid(x_output)

o_output

array([0.72630335, 0.70859807, 0.77809706])

![image.png](attachment:image.png)

**Величина поправики e<sub>1</sub> для веса w<sub>11</sub>**

![image.png](attachment:image.png)

**Величина поправики e<sub>1</sub> для веса w<sub>12</sub>**

![image.png](attachment:image.png)

**Величина ошибки в скрытом слое e<sub>скрытый,1<sub>**

![image.png](attachment:image.png)

**Применение обратного распространения для скрытого слоя**

![image.png](attachment:image.png)

**Применение обратного распространения для входного слоя**

![image.png](attachment:image.png)

**Резюме**

• Нейронные сети обучаются посредством уточнения весовых коэффициентов своих связей. Этот процесс управляется ошибкой — разностью между правильным ответом, предоставляемым тренировочными данными, фактическим выходным значением.

• Ошибка на выходных узлах определяется простой разностью между желаемым и фактическим выходными значениями.

• В то же время величина ошибки, связанной с внутренними узлами, не столь очевидна. Одним из способов решения этой проблемы является распределение ошибок выходного слоя между соответствующими связями пропорционально весу каждой связи с последующим объединением соответствующих разрозненных частей ошибки на каждом внутреннем узле

![image.png](attachment:image.png)

![image.png](attachment:image.png)

**После упращения выражения**

![image.png](attachment:image.png)

**Общая формула**

![image.png](attachment:image.png)

**Резюме**

• Обратное распространение ошибок можно описать с помощью матричного умножения.

• Это позволяет нам записывать выражения в более компактной форме, независимо от размеров нейронной сети, и обеспечивает более эффективное и быстрое выполнение вычислений компьютерами, если в языке программирования предусмотрен синтаксис матричных операций.

• Отсюда следует, что использование матриц обеспечивает повышение эффективности расчетов как для распространения сигналов в прямом направлении, так и для распространения ошибок в обратном направлении

![image.png](attachment:image.png)

**Резюме**

• Метод градиентного спуска — это действительно хороший способ нахождения
минимума функции, и он прекрасно работает, когда функция настолько сложна, что ее математическая обработка алгебраическими методами сопряжена с большими трудностями.

• Более того, этот метод хорошо работает в случае функций многих переменных, когда другие методы не срабатывают либо их невозможно реализовать
на практике.

• Данный метод также устойчив к наличию дефектных данных и не заведет вас далеко в неправильную сторону, если функция не описывается идеально или же время от времени мы совершаем неверные шаги

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)    

![image.png](attachment:image.png)

![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)

![image-5.png](attachment:image-5.png)

![image-6.png](attachment:image-6.png)

![image-7.png](attachment:image-7.png)

![image-8.png](attachment:image-8.png)