# Лекция 07. Нейронные сети


# Задача Нелинейной Классификации
Когда мы хотим создать классификатор изображений автомобилей при помощи машинного обучения, нам нужен тренировочный датасет с ПРАВИЛЬНЫМИ метками, автомобиль это или нет. После обучения мы получим хороший классификатор. Когда мы тестируем его с новым изображением, он ответит, изображен автомобиль на изображении или нет.
![](../../img/lec07_01.png)

Перед тем, как пойти дальше, нам необходимо понять, как комьпютер "видит" изображение. Как можно видеть в картинке справа, компьютер всегда "видит" изображение как набор пикселей со значениями интенсивности. Например, картинка ниже показывает позицию пикселя (оранжевая точка) и значение его интенсивности - 69. 

![](../../img/lec07_02.png)

Теперь, давайте взглянем на процесс обучения. Во-первых, рассмотрим 2 пикселя как признаки.

![](../../img/lec07_03.png)

Во-вторых, определим **нелинейноую логистическую регрессию** как гипотезу ***H***. Наша цель состоит в том, чтобы найти подходящую ***H***, которая может отличать как положительные данные, так и отрицателньые.

![](../../img/lec07_04.png)

Наконец, получим все параметры ***H***. Сравним их с линейной логистической регрессией, нелинейная форма более сложная, поскольку содержит множество полиномиальных выражений.

Однако, когда количество признаков большое, вышеуказанное решение не является оптимальным выбором для обучения нелинейной гипотезы. Предположим, что у нас есть изображение размером 50х50 пикселей, и все пиксели являются признаками, следовательно, нелинейная гипотеза должна содержать более 2500 признаков, поскольку у ***H*** есть дополнительные квадратичные или кубические признаки. Такие вычисления, с целью найти все параметры $\theta$ (или $W$) этих признаков, обходятся очень дорого в расчете на обучающие данные. 

По этой причине нам неоходим более эффективный способ - Нейронная Сеть, которая является очень мощной и широко используемой моделью для обучения сложных нелинейных гипотез во многих приложениях.


## Нейронная Сеть (NN)

В данном разделе, мы поговорим о том, как представить гипотезу, используя нейронные сети.

Изначально, Нейронная Сеть - это алгоритм, вдохновленный человеческим мозгом, алгоритм, который пытается мимикрировать под человеческий мозг. Как и нейроны человеческого мозга, NN подразумевает множество взаимосвязанных узлов (т.н. нейронов), организованных в слои.

### Простейшая Нейронная Сеть

Простейшая NN модель содержит лишь один нейрон. **Мы можем рассматривать нейрон (узел) как логистическую единицу с
*(Логистической) Сигмоидальной Функцией Активации****, выходное значение которой основано на сигмоидальной функции активации. 

* Параметры $\theta$ * в терминологии ** NN ** называют **весами** ***weights***.
* В зависимости от задачи, вы можете сами решить, использовать единицы смещения или нет.

![](../../img/lec07_05.png)

### Нейронная Сеть (NN)

* Слой 1 называют **Входным Слоем**. Он принимает признаки.
* Последний слой назван **Выходным Слоем**. Он выводящит итоговое значение гипотезы ***H***.
* Слой между Входным и Выходным называют **Скрытый Слой**, который является блоком, где мы группируем нейроны вметсе.

![](../../img/lec07_06.png)

#### Примечание

Нейрон (узел) - это по сути логистическая единица с Сигмоидальной Функцией Активации (прим. простая логистическая регрессия). Если вы уже встречались с Линейной Алгеброй, вы можете представить скрытый слой как линейную комбинацию узлов предыдущих слоев. **Поэтому, главная идея NN заключается в решении сложных задач нелинейной классификации путем использования множества последовательностей простых логистических регрессий.** 

С целью получения понятного изображения о том, что делает данная нейронная сеть, давайте рассмотрим шаги вычислений и визуализируем их.

**Во-первых**, мы визуализируем процесс преобразования матрицы $\theta$, контролирующей отображением функций из слоя *j* в *j+1.*

![](../../img/lec07_07.png)
![](../../img/lec07_08.png)

**Во-вторых**, мы визуализируем каждый вычислительных процесс нейронов. Заметьте, что выходное значение каждого нейрона вычисленно при помощи сигмоидальной функции активации.

![](../../img/lec07_09.png)
![](../../img/lec07_10.png)
![](../../img/lec07_11.png)
![](../../img/lec07_12.png)



### Архитектуры иных Нейронных Сетей

Архитектуры иных Нейронных Сетей могут быть разработаны путем расширения скрытых слоев. Количество нейронов на слой основывается на задаче.
![](../../img/lec07_13.png)

### Приложения и Примеры

Основываясь на вышеуказанной концепции, мы разработаем NN, чтобы показать, как модель NN может быть применена для задач нелинейной классификации.

#### Пример1 — "И" (AND)

Мы можем разработать простую NN с одним нейроном для решения проблемы AND. Даны -30, 20 и 20 как весы, можно определить *сигмоидальную функцию активации* ***H*** данного нейрона (узла). При прогнозировании данных, используя ***H,***, получаем отличный результат.


![](../../img/lec07_14.png)
![](../../img/lec07_15.png)


#### Пример2 — "ИЛИ" (OR)

Концепция операции OR аналогичен AND, но вес единицы смещения изменяем на -10.

![](../../img/lec07_16.png)
![](../../img/lec07_17.png)

#### Пример3 — "Отрицание" (Negation)
![](../../img/lec07_18.png)

#### Пример4 — "И-НЕ" NAND
![](../../img/lec07_19.png)

#### Пример5 — "Исключающее ИЛИ" - XOR

Ясно, что это задача нелинейной классификации, следовательно, мы может решить ее, используя нелинейную логистическую регрессию ***H***, о которой мы говорли в начале.  
![](../../img/lec07_20.png)
![](../../img/lec07_21.png)

Однако, когда количество признаков и данных большое, ***H*** будет слишком усложнена для понимания и стоимость вычислений будет слишком высока.

**Вместо этого, мы используем структуру NN, чтобы сделать модель *H* более понятной и простой.** Здесь мы ****** применяем NN к задаче XOR, основывающуюся на AND, NAND and OR.
![](../../img/lec07_22.png)



## Задача Многоклассовой Классификации

В данном случае, мы можем добавить узлы в Выходной Слой. Каждый узел может прогнозировать один класс, концепция схожа с механизмом один-против-всех.

![](../../img/lec07_23.png)


## Прямое Распространение (Forward Propagation )

Шаги описываются ниже:

* Во-первых, нам необходима матрица весов $\theta$ (обозначенная W) для каждого скрытого слоя. Мы можем получить их случайным образом или по предварительному знанию.  
* Начиная со Входного Слоя X(обозанченного $a^1$).
* Производим Прямое Распространение через Выходной Слой и получаем итоговое значение.
* Используем итоговое значение для прогнозирования.

![](../../img/lec07_24.png)


### Подробности

Давайте возьмем за пример задачу бинарной классификации и визуализируем подробности Прямого Распространения. В первую очередь, нам необходима завершенная архитектура NN, то есть, все веса матрицы **W** уже известны.

Входной Слой: 4 элемента, Выходной Слой: 1 элемент, Скрытый Слой: 6 элементов.

![](../../img/lec07_25.png)
![](../../img/lec07_26.png)

**Прямое Распространение (1)— Из Входного Слоя в Выходной Слой**

![](../../img/lec07_27.png)
![](../../img/lec07_28.png)

**Прямое Распространение (2) — Из Скрытого Слоя в Выходной Слой**

![](../../img/lec07_29.png)

В итоге, мы можем получить конечное значение из Выходного Слоя и использовать его для прогнозирования. 

* Если итоговое значение ≥ 0.5, мы прогнозируем метку y=1.
* Если нет, мы прогнозируем label y=0.


![](../../img/lec07_30.png)

### **Задача Многоклассовой Классификации**

В задаче многоклассовой классификации более одного элемента в Выходном Слое. Каждый элемент отражает **насколько точно данные относятся к категории.** В данной ситуации мы можем применить стратегию один-против-всех, чтобы определить результат прогнозирования. Заметьте, что Прямое Распространение - то же самое, что и задача бинарной классификации. 

![](../../img/lec07_31.png)



## Функция Потерь (Loss Function)

Функцию Потерь также называют Функция Затрат, но именно это название чаще всего встречается в NN.

Цель Функции Потерь в оценке ошибки, которую совершила модель. Здесь мы показываем формулу, полученную из Функции Потерь. Заметьте, что узел NN - это логистическая единица с Сигмоидальной (Логистической) Функцией Активации.

![](../../img/lec07_32.png)

## Обратное Распространение (Backward Propagation)

Данная операция применима для **минимизации Функции Потерь**, прямо как метод градиентного спуска, использованный в предыдущей заметке. 

Способ, использованный здесь схож с Градиентным Спуском и включает лишь 2 шага:

1. Рассчитать частные производные от $J(\theta)$ или $J(W)$
2. Обновить каждый элемент матрицы весов **$\theta$**.

![](../../img/lec07_33.png)

## Интуитивное понимание

Давайте визуализируем процедуру, используя результат нахождения частной производной производной от $J(\theta)$

Давайте начнем с другого примера, принимая матрицы весов **$\theta$** (обозначены **$W$**) уже иницилизированными. 
Наша цель в оптимизации **$J(\theta)$** и обновлении матриц весов **$\theta$**.

Заметьте - мы может инициализировать матрицы весов Θ случайным образом, если у нас нет предварительного знания о задаче.

![](../../img/lec07_34.png)

После расчетов Calculus, мы можем получить частную производную от **$J(\theta)$**
 

![](../../img/lec07_35.png)
![](../../img/lec07_36.png)

Давайте углубимся в значение **$\delta$**- 

* **$\delta^3$** ошибка слоя 3 (в этом примере - Выходной Слой). 
* **$\delta^2$** ошибка слоя 2 (в этом примере - Скрытый Слой).           
* **$\delta^1$** не существует, поскольку слой 1 - Входной Слой.

![](../../img/lec07_37.png)
![](../../img/lec07_38.png)

Теперь, имея результат частной произвоной от $J(\theta)$, вы можете обновить матрицу весов Θ.

![](../../img/lec07_39.png)



## Подробнее о Частной Производной от $J(\theta)$

В данном разделе, мы дадим вам несколько подсказок о производных из формулировки выше.



![](../../img/lec07_40.png)

Для удобства, мы используем этот же пример и предполагаем, что у нас есть только одни данные. Следовательно, функция потерь $J(\theta)$ проще, чем общая форма. 
![](../../img/lec07_41.png)

Для того, чтобы выполнить Обратное Распространение, сперва необходимо выполнить  Прямое Распространение.

![](../../img/lec07_42.png)

Теперь мы можем получить Частную Производную J(Θ). Здесь мы показываем Частные Производные от двух элементов W¹ и W² соответственно. Если хотите, вы можете решить ее с подсказками.


![](../../img/lec07_43.png)

![](../../img/lec07_44.png)

Наконец, вы можете доказать формулу частной производной от J(Θ), если вы проследуете алгоритму выше. Если вы не знакомы с Calculus, не волнуйтесь, мы дали вам достаточно идей в разделе ***Инутитивное понимание.***

## Как реализовать NN на практике? 

<a href="https://medium.com/@qempsil0914/implement-neural-network-without-using-deep-learning-libraries-step-by-step-tutorial-python3-e2aa4e5766d1" class="bb cn kh ki kj kk">Здесь ссылка на задание</a>,
мы реализуем NN без использования библиотеки deep learning. Надеемся, что туториал поможет вам в более полном понимании архитектуры NN и методов Прямого и Обратного Распространения.




Ссылки: https://medium.com/@qempsil0914/courseras-machine-learning-notes-week5-neural-network-lost-function-forward-and-backward-8b293401e4dc