##  Веса сети

В нейронной сети используются **веса**. (Иногда используют название синапсы по аналогии с человеческим мозгом). Веса сети - это вещественные числа (чаще от -1 до 1), которых характеризуют влияние входа на выход.

**Нейрон** – базовая единица нейронной сети. У каждого нейрона есть определённое количество входов, куда поступают сигналы, которые суммируются с учётом значимости (веса) каждого входа. Далее сигналы поступают на входы других нейронов. Вес каждого такого «узла» может быть как положительным, так и отрицательным. Например, если у нейрона есть два 'входа', то у него есть и два  весовых значения, которые можно регулировать независимо друг от друга.

###  Как вычислить результат работы нейронной сети

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/img_license/nn__xor_example.png"  width="600">

Рассмотрим задачу классификации XOR, то есть на вход подадим 1 и 0, и будем ожидать 1 на выходе. Веса сети определим случайным образом:

$I1=1\quad I2=0$

$w_1=0.45\quad  w_2=0.78\quad 
w_3=-0.12\quad  w_4=0.13$


$w_5=1.5\quad  w_6=-2.3$

```python
H1 = I1*W1+I2*W3 = 1*0.45+0*-0.12 = 0.45
H2 = I1*W2+I2*W4 = 1*0.78+0*0.13 = 0.78
```

Для того чтобы значения H1 и H2 не выходили за предельные значения, используется функция активации 

```python
H1_out = sigmoid(H1) = sigmoid(0.45) = 0.61
H2_out = sigmoid(H2) = sigmoid(0.78) = 0.69
```

```python
O1_in = 0.61*1.5+0.69*-2.3=-0.672
O1_out = sigmoid(-0.672)=0.33
```

Ответ нейронной сети O1_out = 0.33, а мы ожидали на выходе 1. О том, как скорректировать веса нужным образом будет рассказано в разделе о методе обратного распространения ошибки.

###  Смещение (bias)

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/img_license/why_add_bias_example.png"  width="500">

Рассмотрим простой пример. На вход нейрона подаётся вес, умноженный на входное значение. После применения функции активации, в зависимости от веса, при всевозможных значениях входа мы можем получить следующие графики:

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L05/non_bias_problem_plot.png"  width="600">

[A Biased Graph Neural Network Sampler](https://arxiv.org/pdf/2103.01089.pdf)

Но что если мы захотим чтобы при ```x=2``` чтобы сеть выводила ```0```, тогда без веса смещения эту задачу не решить.

Просто изменить крутизну сигмоиды на самом деле не получится - вы хотите иметь возможность сдвинуть всю кривую вправо.

**Смещение** (англ. bias) - это дополнительный коэффициент прибавляющийся к сумме входов, наличие смещения позволяет сдвинуть функцию активации влево или вправо, что может иметь решающее значение для успешного обучения.

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/img_license/add_bias_example.png"  width="500">

Тогда, при разных смещениях мы можем получить сдвинутые функции активации, что способствует лучшему обучению нейронной сети:

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L05/after_add_bias_plot.png"  width="600">

###  Анимация работы метода обратного распространения ошибки

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L05/backprop_animation.gif"  width="600">

##  Преимущества и недостатки метода

Несмотря на многочисленные успешные применения метода обратного распространения, он не является универсальным решением. Больше всего неприятностей приносит неопределённо долгий процесс обучения. В сложных задачах для обучения сети могут потребоваться дни или даже недели, она может и вообще не обучиться. Причиной может быть одна из описанных ниже.

* Паралич сети

    В процессе обучения сети значения весов могут в результате коррекции стать очень большими величинами. Это может привести к тому, что все или большинство нейронов будут функционировать при очень больших значениях, в области, где производная функции очень мала. Так как посылаемая обратно в процессе обучения ошибка пропорциональна этой производной, то процесс обучения может практически замереть. 
    
    В теоретическом отношении эта проблема плохо изучена. Обычно этого избегают уменьшением размера шага, но это увеличивает время обучения. Различные эвристики использовались для предохранения от паралича или для восстановления после него, но пока что они могут рассматриваться лишь как экспериментальные.


* Локальные минимумы

    Метод градиентного спуска может застрять в локальном минимуме, так и не попав в глобальный минимум.

    Обратное распространение использует разновидность градиентного спуска, то есть осуществляет спуск вниз по поверхности ошибки, непрерывно подстраивая веса в направлении к минимуму. 
    
    Поверхность ошибки сложной сети сильно изрезана и состоит из холмов, долин, складок и оврагов в пространстве высокой размерности. Сеть может попасть в локальный минимум (неглубокую долину), когда рядом имеется гораздо более глубокий минимум. В точке локального минимума все направления ведут вверх, и сеть не способна из него выбраться. Основную трудность при обучении нейронных сетей составляют как раз методы выхода из локальных минимумов: каждый раз, выходя из локального минимума, снова ищется следующий локальный минимум тем же методом обратного распространения ошибки до тех пор, пока найти из него выход уже не удаётся.

* Размер шага

    Если размер шага фиксирован и очень мал, то сходимость слишком медленная, если же он фиксирован и слишком велик, то может возникнуть паралич или постоянная неустойчивость. Эффективно увеличивать шаг до тех пор, пока не прекратится улучшение оценки в данном направлении антиградиента и уменьшать, если такого улучшения не происходит. П. Д. Вассерман описал адаптивный алгоритм выбора шага, автоматически корректирующий размер шага в процессе обучения. В книге А. Н. Горбаня предложена разветвлённая технология оптимизации обучения.

* Переобучение

    Следует также отметить возможность переобучения сети (overfitting), что является скорее результатом ошибочного проектирования её топологии и/или неправильным выбором критерия остановки обучения. При переобучении теряется свойство сети обобщать информацию. Весь набор образов, предоставленных к обучению, будет выучен сетью, но любые другие образы, даже очень похожие, могут быть распознаны неверно.

В математическом смысле функция активации преобразует результат работы нейрона в известный диапазон значений, например $(0;1)$.

Историческим примером функции активации является пороговая функция активации, вдохновленная активацией нейронов, использовавшаяся в перцептронах &mdash; первых нейронных сетях.

В биологических нейронных сетях функция активации определяется пороговым потенциалом, при достижении которого происходит возбуждение потенциала действия в клетке. В наиболее простой форме эта функция является двоичной — то есть нейрон либо возбуждается, либо нет. 

Таким же образом ведет себя пороговая функция активации, использовавшаяся в перцептронах &mdash; первых нейронных сетях:

$$f(x) =
\begin{cases}
0, &\text{$x<b$} \\ 
1, &\text{$x\geq b$}
\end{cases}
$$

<img src ="https://edunet.kea.su/repo/EduNet-content/L05/img_license/threshold_function_plot.png"  width="300">

Производная пороговой функции активации:

$$f'(x) =
\begin{cases}
0, &\text{$x\neq b$} \\ 
DNE, &\text{$x= b$}
\end{cases}
$$

Главным недостатком пороговой функции активации является то, что поскольку производная пороговой функции неопределена при $x=b$, а во всех остальных случаях равна 0, не может быть использована для оптимизации параметров нейронной сети методом градиентного спуска, использующимися при обучении современных нейронных сетей. 

В настоящее время пороговая функция активации не используется, поскольку не удовлетворяет требованиям, которые предъявляются к современным нейронным сетям.