# Однослойный перцептрон

Рассматриваем однослойную нейронную сеть.

<img src="img/oneLayer/net.png" height="30%">
Сеть состоит из $n$ нейронов, каждый нейрон имеет $m+1$ вход.
У нейрона номер $i$ весовые коэффициенты $w_{0i}, w_{1i}, \dots w_{mi}$ ($w_{0i}$ -- вес порогового входа, на схеме не показан).

Видим, что нейрон номер $i$ никак не зависит от нейрона номер $j$ (нейроны могут обучаться независимо друг от друга).

# Правило обучения Розенблатта

Рассматриваем перцепртрон: однослойную нейронную сеть с порговой функцией активации. Без потери общности обучаем отдельный нейрон $i$.

\begin{equation}
u = b+\sum_{i=1}^n x_i w_i ;\quad y = f(u)= \left\lbrace 
				\begin{array}{rl}
					1, & \mbox{если $u \geq 0$}\\
					-1, & \mbox{если u<0}
				\end{array}  \right. . 
\end{equation}

Схема "обучение с учителем": есть задачник, содержащий входные значения и желаемый выход $\tilde y \in \{-1, 1\}$.

$x_0$ | $x_1$ |...| $x_m$| $\tilde y$
-------------|--|-------------|----------------
1 | $x_1^1$ | ... | $x_m^1$ | $y^1$
1 | $x_1^2$ | ...| $x_m^2$ | $y^2$
... | ... | ...| ... | ...

Цель -- настроить веса нейрона $w_{0i}, w_{1i}, \dots w_{mi}$ так, чтобы примеры из задачника были решены верно.

## Правило Розенблатта
На шаге $t$ будем подавать очередной пример задачника и корректировать веса согласно формуле:
\begin{equation}
    w_{ji}(t+1)= w_{ji}(t) + \alpha x_i \tilde{y}_j,
\end{equation}

где $w_{ji}$ -- величина корректируемой синаптической связи, $t$ -- время, $x_i$ -- сигнал поданный в нейрон,  $\tilde{y}_j$ -- желаемый отклик нейрона, $\alpha$ -- параметр скорости обучения.


## Алгоритм обучения

1. Все веса сети приравниваются к нулю или генерируются датчком случайных чисел. Задается параметр скорости обучения $\alpha$.
2. На вход сети подается очередной пример $x$ из задачника и расчитываются выходы сети $y$.
3. Если сеть вернула ошибочное значение ($y \neq \tilde{y}$), то производится коррекция весов:
\begin{equation*}
    w_{ji}(t+1)= w_{ji}(t) + \alpha x_i \tilde{y}_j,
\end{equation*}
Если ответ сети верен, то веса остаются прежними:
\begin{equation*}
    w_{ji}(t+1)= w_{ji}(t)
\end{equation*}
4. Алгоритм продолжается до тех пор, пока все примеры задачника не будут верно обработаны сетью (пока веса не перестанут меняться).

**Очень важно.** Если существует решение задачи (набор весов), то перцептрон обучается за конечное число шагов.

*Вопрос о том, при каких условиях решение сущетсвует, рассматривается чуть поздее.*

# Пример: Реализация логической функции <<ИЛИ>>
<img src="img/oneLayer/and_net.png" height="10%">

ИЛИ | $x_1$ | $x_2$
----|-------|------
1 | 1 | 1
1 | 1 | 0
1 | 0 | 1
0  | 0 | 0

Поскольку мы будем использовать симметричную функцию активации
\begin{equation}
        y = f(u)= \left\lbrace 
            \begin{array}{rl}
                1, & \mbox{если }u > 0\\
                -1, & \mbox{если }u \leq 0
            \end{array}  \right. .
\end{equation}
То перекодируем таблицу истинности. Кроме того добавим вход для веса $w_0$

ИЛИ | $x_0$| $x_1$ | $x_2$
----|-------|------
1 | 1 | 1 | 1
1 | 1 |1 | 0
1 | 1 |0 | 1
-1 | 1 | 0 | 0

### Инициализация
Генерируем веса датчиком случайных чисел: 	
\begin{equation*}
    w_0=0.1; \quad w_1 = 0; \quad w_2 = 0.3
\end{equation*}

Выберем параметр скорости обучения: $\alpha = 0.2$

<img src="img/oneLayer/and_net0.png" height="10%">



### 1-я итерация
Подаем первый пример:
<img src="img/oneLayer/and_net1.png" height="10%">

Расчитываем выход сети при заданных входах:
\begin{equation*}
    u = 0 + 1\cdot 0.1 +1\cdot 0 +1\cdot 0.3 = 0.4 \qquad y = f(u) = 1
\end{equation*}

Расчетный выход сети совпадает с желаемым => веса менять не нужно, переходим ко второй итерации.

Подаем второй пример: $x_1=1$, $x_1 = 0$, $\tilde{y} = 1$.

Подаем третий пример: $x_1=0$, $x_1 = 1$, $\tilde{y} = 1$.

В обоих случаях ответы сети совпадают с желаемыми выходами.

### 4-я итерация
Подаем 4-й пример: $x_1=0$, $x_1 = 0$, $\tilde{y} = 0$.

Расчитываем ответ сети: $y=1$.

Это неправильный ответ ($\tilde y = -1$), нужно корректировать веса:


\begin{equation*}
    \begin{split}
    w_0(4)=w_0(3)+ \alpha x_0\cdot \tilde y = 0.1 + 0.2\cdot 1 \cdot (-1) = -0.1 \\
    w_1(4)=w_1(3)+ \alpha x_1\cdot \tilde y = 0 +   0.2\cdot 0 \cdot (-1) = 0 \\
    w_2(4)=w_2(3)+ \alpha x_2\cdot \tilde y = 0.3 + 0.2\cdot 0 \cdot (-1) = 0.3
    \end{split}
\end{equation*}

После этого опять подаем первый пример и т.д.

### Вопрос.
Можно ли при обучении по правилу Розенблатта использовать следующую функцию активации:
\begin{equation*}
    y = f(u)= \left\lbrace 
        \begin{array}{rl}
            1, & \mbox{если }u > 0\\
            0, & \mbox{если }u \leq 0
        \end{array}  \right. 
\end{equation*}

## Правило обучения Видроу-Хоффа

Используется для нейронов с линейной функцией активации:

\begin{equation}
    f(u) = k\cdot u
\end{equation}

*Для упрощения дальнейших выкладок примем $k=1$, на ход рассуждений это не влияет.*


### Обучение: идея

* Обучение с учителем.
* Возьмем $L$ примеров из задачника. Рассчитаем для них выходы. Далее можно рассчитать общую ошибку:
\begin{equation}
    E = \sum_{i=1}^{L} E(i) = \frac{1}{2}\sum_{i=1}^{L} \left( y(i) - \tilde y (i)\right)^2
\end{equation}
где $y(i)$ -- выходное значение нейрона для примера $i$, $\tilde y (i)$ -- желаемое значение (эталон) для этого примера.
* При обучении будем менять веса нейрона так, чтобы ошибка уменьшалась.

PS Почему нельзя считать ошибку по формуле:
\begin{equation}
    E = \sum_{i=1}^{L} E(i) = \frac{1}{2}\sum_{i=1}^{L} \left( y(i) - \tilde y (i)\right)
\end{equation}

### Упрощение
Для облегчения задачи положим $L=1$, тогда ошибку будем рассчитывать для каждого примера в отдельности:
\begin{equation*}
    E = \frac{1}{2} \left( y - \tilde y \right)^2
\end{equation*}
Распишем $y$ через входные значения $X=(x_1,\dots, x_n)$ нейрона и его весовые коэффициенты:
\begin{equation*}
    E = \frac{1}{2} \left( \sum_{i=0}^n w_i x_i - \tilde y \right)^2
\end{equation*}

### Формулировка задачи
Зафиксируем пример, на основе которого производится обучение, т.е. входные значения $X=(x_1,\dots, x_n)$ и желаемое выходное значение $\tilde y (i)$. Тогда ошибка сети для данного примера рассчитывается по формуле:

\begin{equation}
    E = \frac{1}{2} \left( \sum_{i=0}^n w_i x_i - \tilde y \right)^2
\end{equation}

**Требуется** так изменить веса нейрона $w_0,\dots, w_n$, чтобы величина ошибки для данного примера уменьшилась.

*Сформулированная задача -- типичная задача на поиск экстремума.*

<img src="img/oneLayer/3dSurf.png" height="10%">

В качестве осей координат у нас веса сети $w_{0}, w_{1}, \dots w_{n}$, поверхность -- величина ошибки при конкретных значениях весов.

### Метод градиентного спуска

Задана функция нескольких переменных:	$f = f(x_1,x_2,\dots , x_n)$, требуется найти ее минимум.

Будем осуществлять поиск в направлении наискорейшего спуска, которое задается вектором: $-\nabla f$.

Т.е. к точке минимума $x^* = (x_1^*, x_2^*,\dots, x_n^*)$ будем приближаться итерационно, начиная с произвольной точки $x^0 = (x_1^0, x_2^0,\dots, x_n^0)$. Каждое следующее приближение будем находить по формуле:
\begin{equation}\label{eq:grad_metod}
    x^{k+1} = x^{k} - \alpha \nabla f(x^k),
\end{equation}
где $\alpha$ --- параметр, регулирующий величину шага.

Формула покоординатно расписывается следующим образом:\pause
\begin{equation}
    \begin{split}
        x^{k+1}_1 = x^{k}_1 - \alpha \frac{\partial f}{\partial x_1}\Big|_{(x=x^k)},\\
        \dots \\
        x^{k+1}_n = x^{k}_n - \alpha \frac{\partial f}{\partial x_n}\Big|_{(x=x^k)}
    \end{split}
\end{equation}

### Решение
Воспользуемся методом градиентного спуска. Тогда весовые коэффициенты нейрона должны измениться согласно следующей формуле:
\begin{equation}
    \begin{split}
        w_{0}(t+1) = w_0(t) - \alpha \frac{\partial E}{\partial w_0(t)},\\
        \dots,\\
        w_{j}(t+1) = w_j(t) - \alpha \frac{\partial E}{\partial w_j(t)},  \\
        \dots,\\
        w_{n}(t+1) = w_n(t) - \alpha \frac{\partial E}{\partial w_n(t)}
    \end{split}		
\end{equation}

### Производная величины $E$
Вычислим производные $\frac{\partial E}{\partial w_j(t)}$: 
\begin{equation*}
    \frac{\partial E}{\partial w_j} = \frac{\partial \left[\frac{1}{2} \left( \left(\sum_{i=0}^n w_i x_i \right) - \tilde y \right)^2\right]}{\partial w_j}
\end{equation*}
здесь $x_i=const$, $\tilde y = const$

\begin{equation*}
    \frac{\partial E}{\partial w_j} = 
        \left( \left(\sum_{i=0}^n w_i x_i \right) - \tilde y \right) \frac{\partial \left( \left(\sum_{i=0}^n w_i x_i \right) - \tilde y \right)}{\partial w_j}
\end{equation*}

\begin{equation}
    \frac{\partial E}{\partial w_j} = ( y - \tilde y ) x_j
\end{equation}

### Дельта-правило
Таким образом получили, что правило обучения Видроу-Хоффа (дельта-правило) должно быть записано следующим образом:

*Пусть $w=(w_0,w_1,\dots, w_n)$ -- вектор весовых коэффициентов нейрона, $x=(x_1,\dots, x_n)$ -- входные значения нейрона, а $\tilde y$ - желаемое выходное значение, соответствующее заданным входам. Тогда весовые коэффициенты сети следует изменять согласно следующей формуле:*

\begin{equation}\label{eq:delta}
    w_j(t+1) = w_j(t) - \alpha ( y - \tilde y ) x_j,
\end{equation}
где $t$ - номер итерации, $\alpha\in(0,1)$ --- некоторый параметр (скорость обучения).


### Алгоритм обучения Видроу-Хоффа

1. Составляется задачник и задаются параметры: 
    * скорость обучения $\alpha\in(0,1)$ 
    * устраивающая точность, т.е. ошибка $E_{good}$, которую нужно достичь в процессе обучения
    
2. Случайным образом инициализируются весовые коэффициенты и порог сети.
3. На входы сети подаются входные образы $x=(x_1,\dots, x_n)$ и вычисляются выходные значения сети $y$.
4. Осуществляется коррекция весовых коэффициентов согласно дельта-правилу.
5. Алгоритм продолжается до тех пор, пока суммарная среднеквадратичная ошибка сети не станет меньше заданной: $E < E_{good}$

## Сравнение правил Розенблатта и Видроу-Хоффа

* Правило обучения Розенблатта 			
\begin{equation*}
    w_j(t+1) = w_j(t) + \alpha \tilde y x_j,
\end{equation*}
Обучение производится при $y \neq \tilde y$, при этом: $y \in \{-1,1\}$ $\tilde y \in \{-1,1\}$.

* Правило обучения Видроу-Хоффа
\begin{equation*}
    w_j(t+1) = w_j(t) - \alpha ( y - \tilde y ) x_j,
\end{equation*}

**Оба правила обучения можно записать в общей форме:**
\begin{equation*}
        w_j(t+1) = w_j(t) - \alpha ( y - \tilde y ) x_j,
\end{equation*}

## Общее правило обучения
1. Составляется задачник и задаются параметры: 
    * скорость обучения $\alpha\in(0,1)$;
    * формулируется критерий, согласно которому останавливается обучение.
    
2. Случайным образом инициализируются весовые коэффициенты и порог сети.
3. На входы сети подаются *случайно выбираемые* входные образы $x=(x_1,\dots, x_n)$ из задачинка и вычисляются выходные значения сети $y$.
4. Осуществляется коррекция весовых коэффициентов согласно дельта-правилу:
    \begin{equation*}
        w_j(t+1) = w_j(t) - \alpha ( y - \tilde y ) x_j,
\end{equation*}
5. Алгоритм продолжается до тех пор, пока не достигнут критерий останова.

## Выбор параметра скорости
Слишком маленькая скорость | Слишком большая скорость
-------------------------------|------------------
<img src="img/oneLayer/alpha1.png" height="10%">|<img src="img/oneLayer/alpha2.png" height="10%">

Параметр скорости обучения $\alpha$ должен быть достаточно большим, иначе процесс коррекции весов будет <<топтаться на месте>> и  должен быть достаточно маленьким, иначе процесс коррекции весов может оказаться неустойчивым.

### Как же тогда выбирать $\alpha$?

* Можно экспериментально (не получается с одним параметром, пробуем другой)
* Можно выбирать $\alpha$, которое будет уменьшаться в процессе обучения, например:
\begin{equation*}
    \alpha (t) = \frac{1}{t},
\end{equation*}
где $t$ -- номер итерации. (Тут возможны проблемы...)
* Можно использовать адаптивный шаг обучения.

### Адаптивный шаг обучения
*Адаптивный шаг обучения* -- такой параметр $\alpha(t)$, который целенаправленно выбирается на каждом шаге алгоритма таким образом, чтобы минимизировать среднеквадратичную ошибку сети.

Существует

**Теорема.** Для линейной нейронной сети значение адаптивного шага обучения вычисляется на основе выражения:
\begin{equation}
     \alpha(t) = \frac{1}{1 + \sum_{i=1}^n x_i^2(t)} 
 \end{equation} 

## Задача

[Рубки леса](https://kolesov.nextgis.com/resource/1711/display). Есть выдела с ценными породами леса, на некоторых лес валят, а где-то нет. Возможно, это зависит от транспортной доступности? => 

*Задача:* построить классификатор, определяющий "будут рубить" или "не будут рубить" в зависимости от сложности дорожных условий.

In [1]:
import pandas as pd
import numpy as np

url = "https://kolesov.nextgis.com/api/resource/1707/csv"

loggs = pd.read_csv(url)
loggs.head()

Unnamed: 0,cat,descr,value,bg,asphalt,grunt,bad,GEOM
0,1,фон,-1,2750.0,12250.0,24250.0,14750.0,POINT (15002780.01590729 5710921.961077135)
1,2,склад,1,0.0,13750.0,0.0,2500.0,POINT (15026774.50471171 5779438.080579749)
2,3,рубка,1,250.0,13750.0,0.0,2250.0,POINT (15026188.48691452 5779184.436417193)
3,4,склад,1,500.0,13750.0,0.0,2250.0,POINT (15025809.5597372 5778690.272296071)
4,5,склад,1,500.0,13750.0,0.0,2250.0,POINT (15025788.32522192 5778659.538064778)


In [2]:
X = loggs[['bg', 'asphalt', 'grunt', 'bad']].copy()
Y = loggs['value'].copy()

X.head()
# Y.head()

Unnamed: 0,bg,asphalt,grunt,bad
0,2750.0,12250.0,24250.0,14750.0
1,0.0,13750.0,0.0,2500.0
2,250.0,13750.0,0.0,2250.0
3,500.0,13750.0,0.0,2250.0
4,500.0,13750.0,0.0,2250.0


In [3]:
X = np.array(X)
y = np.array(Y)
print(X.shape)
print(y.shape)

# Зададим произвольный вектор из 4х элементов:
w = np.array([-3, 2, 2, -1])

print('Произведение вектора весов и параметров примера 2:', X[2, :]*w)
print('Сумма произведения X*w: ', np.sum(X[2:, ] * w))

(239, 4)
(239,)
Произведение вектора весов и параметров примера 2: [ -750. 27500.     0. -2250.]
Сумма произведения X*w:  6828500.0


## Нейрон как классификатор

*Задача классификации:* формализованная задача, в которой имеется множество объектов (ситуаций), разделенных некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества.

*Классифицировать объект:* значит, указать номер (или наименование) класса, к которому относится данный объект.

Пусть в $n$-мерном пространстве задано два класса $C_1$ и $C_2$.

<img src="img/oneLayer/class.png" height="10%">


Рассмотрим нейрон с пороговой функцией активации:
\begin{equation}
    y = f(u) = \left\lbrace 
    \begin{array}{rl}
    1, & \mbox{если $u \geq 0$}\\
    -1, & \mbox{если u<0}
    \end{array}  \right. .
\end{equation}

Можно ли обучить нейрон так, чтобы 
* $y=1$ для любого $x \in C_1$.
* $y=-1$ для любого $x \in C_2$.


Оказывается, настроить веса нейрона так, чтобы он позволял разделить два произвольных класса невозможно.

Чтобы однослойный перцептрон функционировал корректно, два класса $C_1$ и $C_2$ должны быть линейно разделимыми.

Линейно-разделимые классы| Линейно-неразделимые классы
-------------------------------|------------------
<img src="img/oneLayer/lin_razd.png" height="10%">|<img src="img/oneLayer/lin_ne_razd.png" height="10%">


Если классы линейно-разделимы, то существует *разделяющая линия*.


**Почему перцептрон может работать только с линейно-разделимыми классами?**

Нейрон выдает ответ ($+1$ или $-1$) в зависимости от того, какое значение потенциала $u=\sum_{i=0}^n w_i x_i$ было получено при заданных входах $x=x_1,\dots x_n$:

\begin{equation*}
    y = f(u) = \left\lbrace 
    \begin{array}{rl}
    1, & \mbox{если }u > 0\\
    -1, & \mbox{если }u<0
    \end{array}  \right. .
\end{equation*}

Таким образом при $u = 0$ происходит резкий переход значения $y$ от +1 к -1.


*Какая фигура в пространстве задается уравнением $u=0$?*

Уравнение $u=\sum_{i=0}^n w_i x_i=0$ задает:

* $n=2$: линию на плоскости: $w_0 + w_1x_1 + w_2x_2=0$
* $n=3$: плоскость в пространстве: $w_0 + w_1x_1 + w_2x_2 + w_3 x_3=0$
* $n>3$: гиперплоскость в многомерном пространстве: $w_0 + w_1x_1 + w_2x_2 + w_3 x_3 +\dots +w_n x_n=0$

Линия (плоскость, гиперплоскость) делит плоскость (пространство) на две полуплоскости (два полупространства): положительную и отрицательную.