-------------------------------------------------------------------------------
# Нейронные сети
-------------------------------------------------------------------------------

Большой класс задач можно свести к двум основным типам:

1. **Задачи регрессии** (предсказание количественного признака объекта на основании других его признаков, например, предсказание роста человека на основании его веса и возраста).
2. **Задачи классификации** (предсказание качественного признака объекта на основании других его признаков, например, предсказание пола человека (бинарная классификация) на основании его роста и веса).

Для решения этих задач будем рассматривать обучающиеся модели и способы их обучения.

Некоторые другие курсы по НН:  
- [Stanford course on Computer Vision](http://cs231n.github.io/)
- [NN tutorial](http://neuralnetworksanddeeplearning.com/chap1.html)

-------------------------------------------------------------------------------
## 1. NumPy

Для обработки большого числа данных удобнее и эффективнее использовать сторонние библиотеки, такие как NumPy.

### 1.1. Создание массивов

In [3]:
import numpy as np

M = np.array([[1,2,3], [4,5,6]])
print(M, M.shape, sep='\n')

[[1 2 3]
 [4 5 6]]
(2, 3)


Для массивов в NumPy определены основные операции: `+ - * / // % ** < <= == >= > !=` выполняются поэлементно (если же вторым аргументом бинарной операции указан скаляр, то он преобразуется в массив той же формы, что и первый аргумент).

In [3]:
ls, n, m, value = [1, 2, 3], 3, 3, 5
shape = (n, m)
M = np.array(ls)                           # создать NumPy массив из списка
I = np.eye(n, m, k=0)                      # единичная матрица (k — сдвиг диагонали)
O = np.zeros(shape)                        # нулевой массив указанной формы (или np.zeros_like(M))
N = np.ones(shape)                         # новый массив указанной формы, заполненный единицами
N = np.full(shape, value)                  # новый массив указанной формы, заполненный value
print(M, I, O, N, sep='\n\n')

[1 2 3]

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]

[[5 5 5]
 [5 5 5]
 [5 5 5]]


### 1.2. Манипуляции с массивами

In [4]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
N = np.array([[1, 2, 3], [4, 5, 6]])
shape = (1, 9)
print(M.flatten(), end='\n\n')             # превратить массив в одномерный
print(np.concatenate([M, N]), end='\n\n')  # конкатенация
print(M.reshape(shape), end='\n\n')        # изменить форрму массива (массив распрямляется заполняется в новую форму)
print(M.T, end='\n\n')                     # транспонирование (или смена порядка индексов в случае d > 2 M.transpose(*i))

[1 2 3 4 5 6 7 8 9]

[[1 2 3]
 [4 5 6]
 [7 8 9]
 [1 2 3]
 [4 5 6]]

[[1 2 3 4 5 6 7 8 9]]

[[1 4 7]
 [2 5 8]
 [3 6 9]]



Для массивов размерности $d > 2$ при транспонировании индексы ставятся в обратном порядке (по-умолчанию), т.е. $(i[0],..., i[n-1])$ переходит в $(i[n-1],..., i[0])$. Или можно задать параметр-перестановку (кортеж, соответствующей длины, из номеров индексов):

In [5]:
M = np.random.randint(1, 10, size=(12)).reshape((2,2,3))
print(M, M.transpose(0,2,1), sep='\n\n')

[[[1 7 6]
  [2 9 8]]

 [[7 5 5]
  [1 5 7]]]

[[[1 2]
  [7 9]
  [6 8]]

 [[7 1]
  [5 5]
  [5 7]]]


Вообще,  
(m,1) - двумерный массив (вектор-столбец)  
(1,m) - двумерный массив (вектор-строка)  
(m,)  - одномерный массив

Превращение вектора в двумерный или одномерный объект:

In [18]:
v = np.array([1, 2, 3, 4])
v_row = v[np.newaxis, :]
v_col = v[:, np.newaxis]
print(v[None], v_row, v[:, None], v_col, sep='\n\n', end='\n\n')  # 1D to 2D
print(v_row[0, :], v_col[:, 0])                                   # 2D to 1D

[[1 2 3 4]]

[[1 2 3 4]]

[[1]
 [2]
 [3]
 [4]]

[[1]
 [2]
 [3]
 [4]]

[1 2 3 4] [1 2 3 4]


### 1.3. Срезы

In [15]:
M = np.array([1, 2, 3, 4, 5, 6, 7, 8])
print(M[0:3], M[[0, 2, 3]], end='\n\n')

cond = (M > 3) & (M < 7) # & — and, | — or, ~ — not
print(cond, M[cond])
M[cond] = 0
print(M, end='\n\n')

N = np.copy(M[0:3])
print(N, end='\n\n')

M = np.random.randint(1, 10, size=(3, 3))
print(M[:, 1], M[:, 1:2], sep='\n')

[1 2 3] [1 3 4]

[False False False  True  True  True False False] [4 5 6]
[1 2 3 0 0 0 7 8]

[1 2 3]

[2 8 4]
[[2]
 [8]
 [4]]


### 1.4. Основные функции

In [16]:
M = np.random.randint(1, 10, size=(3, 3))
print(M)

# мин, макс, среднее, стандартное отклонение вдоль указанных индексов (или всего массива, если не указаны):
print(M.min(axis=None), M.max(axis=None), M.mean(axis=None), M.std(axis=None))

# индексы мин и макс элементов вдоль указанных индексов (или всего массива), равенство массивов:
print(M.argmin(axis=None), M.argmax(axis=None), np.array_equal(M, M*2))

# сумма, пр-ие, частичная сумма, частичное пр-ие элементов вдоль указанных индексов (или всего массива):
# для (a1,...,an) вектор частичных сумм — это (a1, a1+a2,..., a1+...+an))
print(M.sum(axis=None), M.prod(axis=None), M.cumsum(axis=None), M.cumprod(axis=None))  

[[6 5 2]
 [8 4 8]
 [9 1 3]]
1 9 5.111111111111111 2.6851213274654606
7 6 False
46 414720 [ 6 11 13 21 25 33 42 43 46] [     6     30     60    480   1920  15360 138240 138240 414720]


### 1.5. Линейная алгебра

In [17]:
M = np.eye(3, 3) * 2
N = np.eye(3, 3)
print(M @ N, end='\n\n')  # или np.dot(M, N)
print(np.linalg.norm(M, ord=None), np.linalg.matrix_power(M, n=2), np.linalg.inv(M), np.linalg.pinv(M), sep='\n\n')
# по умолчанию норма Фробениуса для матриц и L2-норма для векторов; inv и pinv — обратная и псевдообратная матрицы

[[2. 0. 0.]
 [0. 2. 0.]
 [0. 0. 2.]]

3.4641016151377544

[[4. 0. 0.]
 [0. 4. 0.]
 [0. 0. 4.]]

[[0.5 0.  0. ]
 [0.  0.5 0. ]
 [0.  0.  0.5]]

[[0.5 0.  0. ]
 [0.  0.5 0. ]
 [0.  0.  0.5]]


### 1.6. Чтение данных

Данные можно читать из файла функцией **loadtxt**:

```python
data = np.loadtxt("demo_data.csv", usecols=(0,1,4), skiprows=1, delimiter=",", 
                      dtype={'names': ('date', 'open', 'close'),
                             'formats': ('datetime64[D]', 'f4', 'f4')})
```

Ввод данных вручную:
```python
x_shape = tuple(map(int, input().split()))
X = np.fromiter(map(int, input().split()), np.int).reshape(x_shape)
```


-------------------------------------------------------------------------------
## 2. Линейная регрессия

Типы переменных:  
1. Количественные (порядок и метрика)
2. Порядковые (порядок без метрики)
3. Категориальные (ни порядка, ни метрики)

### 2.1. Линейная регрессия

$$
\mathbf{Y} = \mathbf{X} \, \beta + \mathbf{\varepsilon} \; \left(\text{или} \; \mathbf{Y} = \mathbf{X} \, \beta + \beta_0 + \mathbf{\varepsilon} \right).
$$

- набор наблюдений $X$ (таблица n:m, или n:m+1 с первым столбцом из единиц)
- целевая переменная $Y$ (вектор n:1)
- линейная связь $\beta$ (вектор m:1, или m+1:1 вместе со свободным членом $\beta_0$)
- нормальное распределения ошибок $\mathbf{\varepsilon}$ (вектор n:1)

|     | x0   | x1 | ... |  xm |  y  |
|:---:|:----:|:--:|:---:|:---:|:---:|
|  1  | 1    |    |     |     |     |
|  2  | 1    |    |     |     |     |
| ... | ...  |    |     |     |     |
|  n  | 1    |    |     |     |     |

### 2.2. Метод наименьших квадратов

Будем искать параметры модели методом наименьших квадратов (см. конспект по численным методам). Выбор этого метода обосновывается теоретически из метода максимального правдоподобия для нормально распределённых ошибок. Практически же понять выбор квадратов вместо модулей можно на примере горизонтальной линии: минимизируя модули можно провести прямую где угодно между точками ошибок, минимизация же квадратов заставит провести прямую ровно посередине.

Запишем уравнение регрессии в матричном виде для вектора предсказаний целевой переменной $\mathbf{\hat{Y}}$, используя вектор оценок коэффициентов $\hat{\beta}$ и вектор ошибок предсказаний $\hat{\varepsilon}$:

$$
\mathbf{\hat{Y}} = \mathbf{X} \, \hat{\beta}, \\
\mathbf{\hat{\varepsilon}} = \mathbf{Y} - \mathbf{\hat{Y}}.
$$

Тогда метод наименьших квадратов заключается в минимизации $\mathbf{\hat{\varepsilon}}^T \cdot \mathbf{\hat{\varepsilon} = \sum_{i = 1}^n \left(y^{(i)} - \hat{y}^{(i)}\right)^2} \,$ для всего набора наблюдений (т.е. минимизации $\left\Vert \mathbf{\hat{\varepsilon}} \right\Vert^2 = \langle\hat{\varepsilon}, \hat{\varepsilon} \rangle $). В результате оптимальные коэффициенты $\beta$ можно найти либо используя методы анализа (нахождение минимума функции), либо средствами линейной алгебры (с помощью псевдообратной матрицы).

Например, для линейного приближения целевой переменной $y$ по одной переменной наблюдений $x$ (т.е. $\hat{y}^{(i)} = x^{(i)} \, \hat{\beta}_1 + \hat{\beta}_0$) можно получить:

$$
\hat{\beta}_1 = \frac{\bar{x y} - \bar{x} \bar{y}}{\bar{x^2} - \bar{x}^2}, \quad \hat{\beta}_0 = \bar{y} - \beta_1 \bar{x}.
$$

### 2.3. Общиий вид решения

$$
\hat{\beta} = \mathbf{X}^+ \mathbf{Y} = \left(\mathbf{X}^T X \right)^{-1} \mathbf{X}^T \mathbf{Y},
$$

где $\mathbf{X}^+$ — [псевдообратная матрица](https://ru.wikipedia.org/wiki/%D0%9F%D1%81%D0%B5%D0%B2%D0%B4%D0%BE%D0%BE%D0%B1%D1%80%D0%B0%D1%82%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86%D0%B0) (вводится для обобщения понятия обратимости для неквадратных или вырожденных матриц).

Кстати, это позволяет ввести оператор $H = \mathbf{X} \mathbf{X}^+$; он является самосопряжённым ($H^T = H$) и идемпотентным ($H^n = H \; \forall n \in \mathbb{N}$). Этот оператор переводит $Y$ в $\hat{Y}$, действительно $H \mathbf{Y} = \mathbf{X} \mathbf{X}^+ \mathbf{Y} = \mathbf{X} \hat{\beta} = \mathbf{\hat{Y}}$.

**Пример**:

Найти оптимальные коэффициенты для построения линейной регрессии по данным таблицы. Задача — предсказание первой переменной (первого столбца данных) по всем остальным. Напечатать результат начиная с $\beta_0$.

In [18]:
import numpy as np

with open("data/boston_houses.csv") as f:
    #

-3.655804285064761 -0.21639550236913585 0.07373059817548458 4.412450576912802 -25.468448784098424 7.143201550746399 -1.3010876776489941


-------------------------------------------------------------------------------
## 3. Нейроны

### 3.1. Нейропластичность

**Нейропластичность** — способность мозга существенно меняться в течение жизни и адаптироваться под изменяющиеся условия среды.

**Примеры**:

1. Эксперименты по перепроводке путей следования информации в головном мозге (rewiring).

    Путь зрительной информации: глаза → латеральное коленчатое тело ([lateral geniculate nucleus](https://en.wikipedia.org/wiki/Lateral_geniculate_nucleus)) → первичная зрительная кора.  
    Путь звуковой информации: уши → медиальное коленчатое тело ([medial geniculate nucleus](https://en.wikipedia.org/wiki/Medial_geniculate_nucleus)) → аудиальная кора.

    - эксперимент с хорьками, которым перенаправили пути зрительной информации к медиальному коленчатому телу, демонстрирует явление нейропластичности мозга.
    - эксперимент с [очками](https://en.wikipedia.org/wiki/Upside_down_goggles), переворачивающими изображение (со временем мозг адаптируется).

2. [Сенсорное замещение](https://en.wikipedia.org/wiki/Sensory_substitution).

    **Сенсорное замещение** — использование одного анализатора для сбора информации, обычно получаемой через другой сенсорный орган.

    - эксперимент, позволяющий видеть спиной: на спинке кресла устанавливается решетка из вибростимуляторов и вместе с вибрациями показывают изображения, со временем участники эксперимента приучались видеть спиной и узнавать лица известных людей.
    - аналогичные эксперименты, но с языком — [Brain port](https://en.wikipedia.org/wiki/Brainport) для слепых людей. При этом активны зоны мозга, отвечающие именно за зрение.
    - [кохлеарный имплантат](https://en.wikipedia.org/wiki/Cochlear_implant) для слабослышащих. 

Именно свойство нейропластичности наталкивает на мысль моделирования нейронных сетей (или некоторых принципов их работы) для реализации процесса обучения и адаптации.

### 3.2. Нейроны

**Нейрон** — функциональная единица нервной системы.

<p style="text-align:center;"><img src="data/neuron_bio.png" width="500" title="Нейрон"></p>
<!-- ![Нейрон]("data/neuron_bio.png") -->

Каждый нейрон образует 5-200k соединений с другими нейронами, при этом связь между ними также характеризуется количеством и типом синаптических соединений, какие используются нейромедиаторы, где конкретно на теле нейрона располагаются соединения и т.д. ([здесь подробней](https://habr.com/en/post/214109/)). Именно такое большое количество параметров обеспечивает биологическим нейронным сетям высокий уровень гибкости, однако для их моделирования логично игнорировать большую часть этой сложности.

<p style="text-align:center;"><img src="data/Artificial_Neuron_Scheme.png" width="400" title="Схема нейрона"></p>

Схема искусственного нейрона:
1. входы (с весами)
2. сумматорная функция
3. активационная функция
4. выходы

Обучение — изменение весов нейронов сети на основе новых данных.

-------------------------------------------------------------------------------
## 4. Перцептрон

1960 — простая модель искусственного нейрона (F.Rosenblatt)  
1969 — показали ограничения перцептрона (M.Minsky, S.Papert)  
1974-1980 — AI winter  
2010+ — применяются для решения задач с большим количеством предикторов (переменных, на основании которых делается предсказание о целевой переменной).

### 4.1. Модель перцептрона

$$
f(\mathbf{x}, \mathbf{w}, b) = \begin{cases} 1, & \displaystyle\sum_{i=1}^n w_i x_i + b \gt 0, \\ 0, & \displaystyle\sum_{i=1}^n w_i x_i + b \leqslant 0. \end{cases}
$$

- вектор входных активаций $\mathbf{x}$
- вектор весов $\mathbf{w}$ (weights)
- смещение $b$ (bias)
- выходная активация перцептрона $f(\mathbf{x}, \mathbf{w}, b)$

Если принять $x_0 = 1$, а $w_0 = b$, то модель перепишется в виде:

$$
f(\mathbf{x}, \mathbf{w}) = \begin{cases} 1, & \langle \mathbf{x}, \mathbf{w} \rangle \gt 0, \\ 0, & \langle \mathbf{x}, \mathbf{w} \rangle \leqslant 0. \end{cases}
$$

<p style="text-align:center;"><img src="data/perceptron_scheme.png" width="500" title="Перцептрон"></p>

**Замечание**:

Перцептроном можно также моделировать логические функции (т.е. перцептрон является универсальным вычислительным элементом). Например, если входной слой состоит из трёх бинарных элементов (при этом $x_0 = 1$) с весами $w_0 = 2, \, w_1 = w_2 = -1$, то перцептрон будет вычислять функцию NAND (not and). При этом она является базисом для булевых функций двух переменных, то есть, пользуясь только этим логическим элементом, можно выразить любую другую логическую функцию.

### 4.2. Обучение перцептрона

Процесс обучения:

1. Задать случайно веса.
2. Давать примеры на вход, а потом показывать правильные для них ответы.
3. Изменять веса на основе результатов.

**Алгоритм обучения**:

```python
perfect = False
while not perfect:
    perfect = True                       # X        — конкретный пример из данных (вектор входных активаций)
    for X in data:                       # Y_hat(X) — результат перцептрона на примере X
        if Y_hat(X) != Y(X):             # Y(X)     — истинный результат на примере X
            perfect = False              # w        — вектор весов
            if Y_hat(X) == 0:
                w += X
            else:
                w -= X
```

Т.е. в результате обучения веса перцептрона меняются на $\Delta w_i = (y - \hat{y}) \, x_i$ (т.к. $y$ может быть только 0 или 1). А именно, если неправильно определился позитивный пример ($y = 1, \hat{y} = 0$), то к $\mathbf{w}$ прибавляем $\mathbf{x}$, если же неправильно определился негативный пример ($y = 0, \hat{y} = 1$), то от $\mathbf{w}$ отнимаем $\mathbf{x}$. Если же предсказание верное, то вектор весов не трогаем. Почему этот алгоритм работает можно понять геометрически.

### 4.3. Геометрическая интерпретация алгоритма

Конкретный пример $\mathbf{x}$, как и набор весов $\mathbf{w}$ — это n-мерные векторы. Значение активационной функции перцептрона зависит от того, какой угол между этими векторами (острый или тупой). Кроме того, каждый вектор в n-мерном пространстве однозначно определяет гиперплоскость (и наоборот), т.е. значение активационной функции также можно определить тем, в каком из полупространств, полученных делением n-мерного пространства соответствующей $\mathbf{x}$ гиперплоскостью, лежит вектор весов $\mathbf{w}$.

<p style="text-align:center;"><img src="data/geometric_perc.png" width="500" title="Перцептрон"></p>

Если же примеров несколько, то перцептрон будет давать правильный ответ для каждого из них, только если вектор весов $\mathbf{w}$ составляет нужный угол с каждым из $\mathbf{x}$ (или если вектор $\mathbf{w}$ лежит в нужной области пересечений полупространств, получаемых делением гиперплоскостями примеров $\mathbf{x}$).

<p style="text-align:center;"><img src="data/perceptron_geometry_1.png" width="750" title="алгоритм 1"></p>

Чтобы при выполнении алгоритма обучения при изменении вектора весов $\mathbf{w}$ не проскочить область подходящих весов её уменьшают следующим образом:

<p style="text-align:center;"><img src="data/perceptron_geometry_2.png" width="400" title="алгоритм 2"></p>

**Замечание**:

Вообще, если решение существует, то при выполнении алгоритма обучения вектор весов $\mathbf{w}$ к нему сойдётся. Однако, решение для однонейронного перцептрона может не найтись даже в очень простой ситуации, например, при реализации операции XOR (хотя это ограничение можно обойти добавлением дополнительного слоя между входами и активационной функцией).

Геометрически же это выражается тем, что **границу (поверхность) решения** $w_1 x_1 + w_2 x_2 + b = 0$ для данной задачи нельзя провести так, чтобы все примеры одного класса лежали по одну сторону от неё, а все примеры второго класса — по другую сторону (т.е. набор данных не является линейно разделимым).

<p style="text-align:center;"><img src="data/XOR.png" width="300" title="XOR"></p>

### 4.4. Типы нейронов

1. **Линейный**
$$
\begin{multline}
f(\mathbf{x}, \mathbf{w}) = \mathbf{x} \cdot \mathbf{w} \,.
\end{multline}
$$
2. **Логистический**
$$
\begin{multline}
f(\mathbf{x}, \mathbf{w}) = \sigma (\mathbf{x} \cdot \mathbf{w}) = \dfrac{1}{1 + \exp (- \, \mathbf{x} \cdot \mathbf{w})} \,.
\end{multline}
$$
3. **Гиперболический тангенс**
$$
\begin{multline}
f(\mathbf{x}, \mathbf{w}) = \tanh (\mathbf{x} \cdot \mathbf{w}) = \dfrac{\exp(\mathbf{x} \cdot \mathbf{w}) - \exp(- \, \mathbf{x} \cdot \mathbf{w})}{\exp(\mathbf{x} \cdot \mathbf{w}) + \exp(- \, \mathbf{x} \cdot \mathbf{w})} \,.
\end{multline}
$$
<p style="text-align:center;"><img src="data/sigmoid_tanh.png" width="500" title="plots"></p>  

    - $\sigma(-x) = 1 - \sigma(x) \,,$
    
    - $\sigma'(x) = \sigma(x) (1 - \sigma(x)) \,,$
    
    - $\sigma(2 x) = \dfrac{1 + \tanh(x)}{2} \,,$
    
    - $\tanh(-x) = -\tanh(x) \,,$
    
    - $\tanh'(x) = \dfrac{1}{\cosh^2(x)} \,.$

4. **ReLU** (rectified linear unit или [Ramp function](https://en.wikipedia.org/wiki/Ramp_function))
$$
\begin{multline}
f(\mathbf{x}, \mathbf{w}) = \max(\mathbf{x} \cdot \mathbf{w}, 0) \,.
\end{multline}
$$
5. **Softplus** (непрерывная аппроксимация ReLU)
$$
\begin{multline}
f(\mathbf{x}, \mathbf{w}) = \ln(1 + \exp(\mathbf{x} \cdot \mathbf{w})) \,.
\end{multline}
$$
<p style="text-align:center;"><img src="data/ReLU_plot.png" width="600" title="plots"></p>

-------------------------------------------------------------------------------
## 5. Градиентный спуск

### 5.1. Функция потерь

**Функция потерь** — мера успешности работы нейрона на представленных данных.

При обучении нейрона, критерий качества его работы определяется **функцией потерь**, которая сравнивает полученные активационной функцией значения с истинными значениями целевой переменной. Функция потерь определяется параметрами модели (т.е вектором весов $\mathbf{w}$), так как данные считаем фиксированными. Например, можно использовать **квадратичную целевую функцию**:

$$
J(\mathbf{w}) = \frac{1}{2 n} \sum_{i=1}^n \left(\hat y^{(i)} - y^{(i)}\right)^2 \,, \text{где } (i) \text{ — номер примера} \,.
$$

**Loss (cost) function** — функция потерь на одном конкретном примере (для квадратичной целевой функции это $\dfrac{1}{2 n} \left(\hat y^{(i)} - y^{(i)}\right)^2$).

|     |  1 |  2 | ... |  n |
|:---:|:--:|:--:|:---:|:--:|
|  x0 |  1 |  1 | ... |  1 |
|  x1 |    |    |     |    |
| ... |    |    |     |    |
|  xm |    |    |     |    |
|  y  | y1 | y2 | ... | yn |

### 5.2. Метод градиентного спуска

Для нахождения глобального минимума функции потерь (т.е. чтобы нейрон работал максимально точно) можно использовать разные численные методы, например, градиентный спуск.

$$
\mathbf{w'} = \mathbf{w} - \alpha \, \nabla J, \quad \text{где } \nabla J = \begin{pmatrix} \dfrac{\partial J}{\partial w_0} \\ \ldots \\ \dfrac{\partial J}{\partial w_m} \end{pmatrix} \,, \quad \text{а } \alpha \in \mathbb{R} \text{ — скорость обучения (learning rate).} 
$$

<p style="text-align:center;"><img src="data/grad_descent.png" width="600" title="plots"></p>

- выполняем алгоритм до тех пор, пока веса почти не перестанут меняться или же пока не достигнуто предельное количество шагов.
- алгоритм может сойтись к локальному минимуму или к плато и остановиться.
- также необходимо удачно выбирать шаг (learning rate): не слишком маленький (долгое время выполнения и можно застрять в локальных минимумах) и не слишком большой (неверный результат).
- для экономии ресурсов градиент можно считать по неполным данным (стохастический градиентный спуск)

### 5.3. Примеры

1. **Задача регрессии для линейного нейрона**.

    Компоненты градиента функции потерь для случая $\mathbf{\hat{y}^{(i)}} = \mathbf{w} \cdot \mathbf{x^{(i)}}$ получаются равны:

$$
\dfrac{\partial J}{\partial w_j} = \dfrac{\partial}{\partial w_j} \left( \dfrac{1}{2 n} \sum_{i=1}^n \left(\hat y^{(i)} - y^{(i)}\right)^2 \right) = \sum_{i = 1}^{n} \dfrac{\partial J}{\partial \hat{y}^{(i)}} \dfrac{\partial \hat{y}^{(i)}}{\partial w_j} = \dfrac{1}{n} \sum_{i = 1}^{n} \left(\hat y^{(i)} - y^{(i)}\right) \, x_j^{(i)}.
$$  

    Тогда градиент запишется в виде:

$$
\nabla J = \dfrac{1}{n} \sum_{i = 1}^{n} \left(\hat y^{(i)} - y^{(i)}\right) \begin{pmatrix} x_0^{(i)} \\ x_1^{(i)} \\ \ldots \\ x_m^{(i)} \end{pmatrix} = \dfrac{1}{n} \, \begin{pmatrix} (\mathbf{\hat{y}} - \mathbf{y}) \cdot \mathbf{x}_0 \\ (\mathbf{\hat{y}} - \mathbf{y}) \cdot \mathbf{x}_1 \\ \cdots \\ (\mathbf{\hat{y}} - \mathbf{y}) \cdot \mathbf{x}_m \end{pmatrix}.
$$

2. **Задача классификация для сигмоидального нейрона.**

    Вообще, для задач классификации квадратичная целевая функция может быть не удобна, но для простоты будем всё-равно её использовать. Тогда для нашего случая $\mathbf{\hat{y}^{(i)}} = \sigma (\mathbf{w} \cdot \mathbf{x^{(i)}})$ компоненты градиента будут равны:
    
$$
\begin{multline}
\dfrac{\partial J}{\partial w_j} = \dfrac{\partial}{\partial w_j} \left( \dfrac{1}{2 n} \sum_{i=1}^n \left(\hat y^{(i)} - y^{(i)}\right)^2 \right) = \sum_{i = 1}^{n} \dfrac{\partial J}{\partial \hat{y}^{(i)}} \dfrac{\partial \hat{y}^{(i)}}{\partial (\mathbf{w} \cdot \mathbf{x^{(i)}})} \dfrac{\partial (\mathbf{w} \cdot \mathbf{x^{(i)}})}{\partial w_j} = \frac{1}{n} \sum_{i=1}^n \left( \sigma (\mathbf{w} \cdot \mathbf{x^{(i)}}) - y^{(i)}\right) \sigma(\mathbf{w} \cdot \mathbf{x^{(i)}}) \left(1 - \sigma(\mathbf{w} \cdot \mathbf{x^{(i)}})\right) x^{(i)}_j .
\end{multline}
$$  

-------------------------------------------------------------------------------
## 6. Метод обратного распространения ошибки

### 6.1. Многослойный перцептрон

<p style="text-align:center;"><img src="data/multi_perceptron_1.png" width="550" title="multi_perceptron"></p>

1. **Входной слой**

    $X^{(i)}_{j}$ — матрица (m, n) входных данных (где $x^{(i)}$ — вектор (m, 1) входных данных для i-ого примера).

2. **Скрытые слои**

    $w^{l}_{j k}$ — матрица весов для нейронов $l$-ого слоя (вес между $j$-ым нейроном $l$-ого слоя и $k$-ым нейроном ($l-1$)-ого слоя).  
    $z^l_j$ — сумматорная функция для нейронов $l$-ого слоя.  
    $a^l_j$ — активационная функция для нейронов $l$-ого слоя.
    
    Смещения же в каждом слое можно задать с помощью добавления дополнительного нейрона с постоянным единичным значением и весами $b^l_j$. Другой способ — считать смещения принадлежащими каждому нейрону (будем пользоваться этим вариантом). Тогда, $b^l$ — вектор смещений для нейронов $l$-ого слоя (не считая первый слой).
    $$
    a^{l}_j = f\left( z^l_j \right) = f \left( \sum_k w^{l}_{jk} a^{l-1}_k + b^l_j \right), \quad \text{или } \, \mathbf{a^l} = f \left( W^l \mathbf{a^{l-1}} + \mathbf{b^l} \right) \,.
    $$

3. **Выходные слои**

    - можно выбирать разные активационные функции для разных слоёв.  
    - для задач классификации можно представлять ответ как единичный вектор, совпадающий по направлению с одной из осей, где оси — это классы. Реализовать это можно добавлением нейронов в выходной слой (количество нейронов равно количеству классов в задаче), тогда в результате получим вектор, проецируя который на одну из осей получим ответ.
    - тогда квадратичная функция потерь запишется как
    
    $$
    J = \frac{1}{2n} \sum_{i=1}^{n}\left\vert y^{(i)} - \hat{y}^{(i)}\right\vert^2, \, \text{где } y^{(i)} \text{ — вектор правильного ответа для i-ого примера, а } \hat{y}^{(i)} \text{ — вектор полученного ответа.}
    $$

С помощью многослойного перцептрона можно находить нелинейные границы решения в задачах классификации (вообще, нейронные сети — это универсальный аппроксиматор, т.е. нейронной сетью можно с любой наперёд заданной точностью приблизить произвольную непрерывную функцию). Тогда нереализуемая для однонейронного перцептрона функция **XOR** с лёгкостью моделируется многослойным:

$$a \, \mathrm{XOR} \, b = \left(\bar{a} \wedge b \right) \vee \left(a \wedge \bar{b} \right)\,.$$

Подобрать необходимые веса для функции **XOR** можно записав неравенства для них, или же просто смоделировать каждый нейрон по отдельности:

<p style="text-align:center;"><img src="data/multi_XOR.jpg" width="400" title="XOR"></p>

### 6.2. Метод обратного распространения ошибки

Идея — применить градиентный спуск для обучения многослойного перцептрона, т.е. найти веса перцептрона, минимизирующие функцию потерь. Для решения этой задачи для каждого нейрона вводят вспомогательную величину

$$
\delta_j^l \stackrel{def}{=} \dfrac{\partial J}{\partial z_j^l} = \dfrac{\partial J}{\partial a_j^l} \, \dfrac{\partial a_j^l}{\partial z_j^l}
$$

— **ошибку** $j$-ого нейрона из слоя $l$, или в векторном виде для всего $l$-ого слоя  это запишется как $
\delta^l = \nabla_a J \odot f’(z^l)$, где $\odot$ — поэлементное умножение векторов. Через $\delta_j^l$ позже можно будет выразить $\frac{\partial J}{\partial w_{i j}^l}$ и $\frac{\partial J}{\partial b_j^l}$, т.е. компоненты градиента $J$.

<!-- <img src="data/multi_perceptron_1.png" width="550" title="plots"> -->

Изменение выходной активации в $j$-ом нейроне слоя $l$ влечёт за собой изменение сумматорных функций в нейронах слоя $l+1$. Т.е. если $a_j^l \rightarrow a_j^l + da_j^l$ , то

$$
z_i^{l+1} = \sum_j w_{i j}^{l+1} \, a_j^l \, + b_j^{l+1} \, \longrightarrow \sum_j w_{i j}^{l+1} \, \left(a_j^l + da_j^l \right) \, + b_j^{l+1} = \sum_j w_{i j}^{l+1} \, a_j^l \, + b_j^{l+1} + \sum_j w_{i j}^{l+1} \, da_j^l = z_i^{l+1} + dz_i^{l+1} \,.
$$

Т.е. $\mathbf{da}^l$ — вектор изменений активационных функций в нейронах слоя $l$, а $\mathbf{dz}^{l+1} = W^{l+1} \, \mathbf{da}^l$ — вектор соответствующих им изменений сумматорных функций в слое $l+1$. Тогда для дифференциала функции потерь получим

$$
\begin{multline}
dJ \left( z_1^{l+1}, \dots , z_{n_{l+1}}^{l+1} \right) = \nabla_{z^{l+1}} \mathbf{J} \cdot \mathbf{dz}^{l+1} = \sum_i \dfrac{\partial J}{\partial z_i^{l+1}} \, dz_i^{l+1} = \delta^{l+1} \cdot \left( W^{l+1} \, \mathbf{da}^l \right) = \sum_{i j} \delta_i^{l+1} w_{i j}^{l+1} da_j^l \,.
\end{multline}
$$

Отсюда можно понять, что частные производные функции потерь по активационным функциям предыдущего слоя выразятся как

$$
\begin{gather}
\dfrac{\partial J}{\partial a_j^l} = \sum_i \delta_i^{l+1} w_{i j}^{l+1} \,, \\
\dfrac{\partial J}{\partial z_j^l} = \dfrac{\partial a_j^l}{\partial z_j^l} \sum_i \delta_i^{l+1} w_{i j}^{l+1} \,, \\
\delta^l = f'\left( z^l \right) \, \odot \, \left(W^{l+1}\right)^T \, \delta^{l+1}\,.
\end{gather}
$$

Т.о. получили связь между значениями ошибок в нейронах соседних слоёв. Используя выражение $z^l_j = \sum_k w^{l}_{jk} a^{l-1}_k + b^l_j$ и правило дифференцирования сложной функции, осталось выразить компоненты градиента $J$ через ошибки:

$$
\begin{gather}
\dfrac{\partial J}{\partial w_{i j}^l} = \dfrac{\partial J}{\partial z_j^l} \, \dfrac{\partial z_j^l}{\partial w_{i j}^l} = \delta^l_i \, a^{l-1}_j \,, \\
\dfrac{\partial J}{\partial b_j^l} = \dfrac{\partial J}{\partial z_j^l} \, \dfrac{\partial z_j^l}{\partial b_j^l} = \delta^l_j \,.
\end{gather}
$$

**Алгоритм**:
0. Выбрать набор примеров (batch) из всей выборки данных.
1. Посчитать активации нейронов сети для всех примеров (**forward propagation**). 
2. Посчитать ошибки нейронов выходного слоя для всех примеров:

    $$
    \delta^L = \nabla_a J \odot f'(z^L) \,.
    $$
    
3. Посчитать ошибки нейронов для всех слоёв сети (**backpropagation**):
    
    $$
    \delta^l = \left(\left(W^{l+1}\right)^T\delta^{l+1}\right) \odot f'(z^l) \,.
    $$
    
4. Найти компоненты градиента:

    $$
    \frac{\partial J}{\partial w^l_{jk}} = a^{l-1}_{k} \delta_j^l, \quad \frac{\partial J}{\partial b^l_j} = \delta^l_j \,.
    $$
    
5. Обновить веса и проверить критерии остановки алгоритма.

**Алгоритм легко сломать если**:    
1. поставить одинаковые веса при инициализации сети (одинаковые нейроны)
2. выбрать слишком большие веса или значения входных активации (ступор сети)
3. выбрать слишком маленькие веса или значения входных активации (медленное обучение)

Дополнительно:  
- https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/
- http://neuralnetworksanddeeplearning.com/chap2.html

-------------------------------------------------------------------------------
## 7. Целевые функции

Выбор вида целевой функции определяется задачей и соображениями удобства использования. Вообще, общие требования для вида целевой функции:

1. Зависимость от выходных активаций сети.
2. Дифференцируемость.
3. Выражение производной через сумму производных по отдельным примерам.

### 7.1. L1, L2 регуляризация

Идея — бороться со слишком большими значениями весов.

$$
J_{L2} = J_0 + J_{reg} = J_0 + \dfrac{\lambda}{2 m} \sum_{l, j, k} \left(w^l_{jk}\right)^2 \,, \quad
\dfrac{\partial J_{L2}}{\partial w^l_{jk}} = \dfrac{\partial J_0}{\partial w^l_{jk}} + \dfrac{\lambda}{m} \, w^l_{jk} \,,
$$

$$
J_{L1} = J_0 + J_{reg} = J_0 + \dfrac{\lambda}{m} \sum_{l, j, k} \left|w^l_{jk}\right| \,, \quad
\dfrac{\partial J_{L1}}{\partial w^l_{jk}} = \dfrac{\partial J_0}{\partial w^l_{jk}} + \dfrac{\lambda}{m} \, \mathrm{sign} \left( w^l_{jk} \right).
$$

- Elastic net — комбинация L1 и L2.
- $\lambda$ — гиперпараметр модели, который определяет насколько сильно модель штрафуется за большие веса. 
- $m$ не обязательно должна входить в уравнения

### 7.2. Cross-entropy loss

Удобный вид функции потерь для задач классификации, который максимизирует правдоподобность предсказаний (используется вместо квадратичной функции потерь):

$$
J_{ce} = - \dfrac{1}{n} \sum_{i, j} \left( y^{(i)}_j \, \log a^{(i)}_j + \left( 1 - y^{(i)}_j \right) \log \left( 1 - a^{(i)}_j \right) \right)\,, \text{где } \, y^{(i)} = \begin{pmatrix} y^{(i)}_1 \\ \vdots \\ y^{(i)}_m \end{pmatrix} \,.
$$


Здесь $y^{(i)}$ — единичный вектор ответа для данного примера, а $a^{(i)}$ — соответствующий ему вектор предсказаний.


|     |  y  |  a  |
|:---:|:---:|:---:|
|  1  |  1  | 0.7 |
|  2  |  0  | 0.4 |
| ... | ... | ... |
|  n  |  1  | 0.6 |

Вероятность получить данный набор данных $P = 0.7 \cdot 0.6 \cdot \ldots \cdot 0.6$ (для идеальной модели $P = 1$). Тогда **функция правдоподобия** для данного набора данных и предсказаний будет равна 

$$
L\left( y^{(i)}, a^{(i)} \right) = \prod_{i = 1}^n {a^{(i)}}^{y^{(i)}} \, \left( 1 - a^{(i)} \right)^{(1 - y^{(i)})}\,.
$$

Если взять логарифм от этого выражения и обратить знак то и получим кросс-энтропийную функцию потерь.

-------------------------------------------------------------------------------
## 8. Мониторинг состояния сети

### 8.1. Проблема переобучения

Задача — научить модель давать правильный ответ на новых данных. Проблема переобучения возникает, когда сеть вместо нахождения закономерностей просто выучивает весь набор данных. Например, так получится при выборе слишком большого количества параметров; тогда хоть и на известных данных точность предсказаний будет максимальна, на неизвестных — получатся неверные ответы (см. про **явление волнистости** в численных методах).

<p style="text-align:center;"><img src="data/overlearning.png" width="400" title="overlearning"></p>

Чтобы не выбрать неудачную модель следует:  
- использовать бритву Окамы.
- смотреть результаты работы сети на неизвестных данных.
- learning curves, train/test error rate, кросс-валидация и cross-validation error rate, визуализация и т.д.

### 8.2. Кросс-валидация

Чтобы выбрать среди множества моделей лучшую используют метод **кросс-валидации**. Он заключается в том, что всё множество дынных сначала разбивается на 3 части: **тренировочную**, **валидационную** и **тестовую**. Модели обучаются на тренировочном множестве, затем на валидационном множестве мы их сравниваем, а потом на тестовом проверяем лучшие из них.

Часто данные для тренировок разбивают на 5 частей, первую их них считают валидационной, а остальные тренировочными. Затем процесс повторяют, но валидационной считают уже вторую часть данных, затем третью и т.д. (хотя иногда тренируют на всех данных, за исключением одного скользящего примера).

<p style="text-align:center;"><img src="data/cross-validation.png" width="560" title="cross-validation"></p>

### 8.3. Визуализация

1. Построение **кривых обучения** моделей при обучении на тренировочном множестве (зависимость значения целевой функции от номера эпохи обучения).

<p style="text-align:center;"><img src="data/learning_curve.png" width="400" title="learning curve"></p>

2. Построение кривых **точности классификации** (количество правильных ответов к общему числу примеров).

3. Построение **тепловых карт** (heatmap) для матриц весов (позволяет визуализировать силу связи между нейронами в соседних слоях).

<p style="text-align:center;"><img src="data/heatmap.PNG" width="400" title="heatmap"></p>

4. Построение гистограмм для весов сети.

Также можно изучать на какой стимул больше всего реагирует конкретный нейрон скрытного слоя (ищется методом градиентного подъёма) или как по мнению сети, например, выглядят типичные представители классов.

- http://yosinski.com/deepvis
- https://vimeo.com/132700334