# Лекция 07. Нейронная сеть


# Нелинейная задача классификации
Когда мы хотим использовать машинное обучение для построения классификатора изображений автомобилей, нам нужен обучающий набор данных с истинными метками, автомобиль или нет. После процесса обучения мы получаем хороший классификатор. Когда мы тестируем его с новым изображением, классификатор ответит, является ли это новое изображение автомобилем или нет.
![](../../img/lec07_01.png)

Прежде чем двигаться дальше, нам нужно знать, как компьютер "видит" картинку. Как и изображение справа, компьютер всегда "видит" изображение в виде группы пикселей со значениями интенсивности. Например, на рисунке показано положение пикселя (красная точка), а его значение интенсивности равно 69.

![](../../img/lec07_02.png)

Теперь давайте посмотрим на процесс обучения. Во-первых, возьмите два пикселя в качестве объектов.

![](../../img/lec07_03.png)

Во-вторых, определите **нелинейную логистическую регрессию** как гипотезу ***H***. Наша цель состоит в том, чтобы найти хороший ***H***, который может хорошо различать положительные и отрицательные данные.

![](../../img/lec07_04.png)

Наконец, изучите все параметры ***H***. Сравните их с линейной логистической регрессией; нелинейная форма более сложна, так как она имеет много полиномиальных членов.

Однако, когда число признаков велико, приведенное выше решение не является хорошим выбором для изучения сложной нелинейной гипотезы. Предположим, что у нас есть изображение размером 50х50 пикселей и все пиксели являются объектами, следовательно, нелинейная гипотеза должна иметь более 2500 объектов, поскольку ***H*** имеет дополнительные квадратичные или кубические объекты. Вычислительная стоимость была бы очень дорогой, чтобы найти все параметры $\theta$ (или $W$, как ранее) этих функций в обучающих данных.

Поэтому нам нужен лучший способ - нейронная сеть, которая является очень мощной и широко используемой моделью для изучения сложных нелинейных гипотез во многих примерах.

## Нейронная сеть (Neural Network (NN))

В этом разделе мы поговорим о том, как визуализировать гипотезу при использовании нейронных сетей.

Первоначально нейронная сеть - это алгоритм, вдохновленный человеческим мозгом, и который пытается имитировать человеческий мозг. Подобно нейронам человеческого мозга, NN имеет множество взаимосвязанных узлов (так называемых нейронов), которые организованы в слои.

### Простейшая нейронная сеть

Эта простейшая NN-модель содержит только один нейрон. **Мы можем рассматривать нейрон (узел) как логистическую единицу с *сигмоидной (логистической) активационной функцией****,* которая может вычеслить базовое значение, основанное на сигмоидной активационной функции.

* Терминология параметров $\theta$ in ** NN ** называется *** весами***
* В зависимости от задачи вы можете решить, следует ли использовать блоки смещения или нет.

![](../../img/lec07_05.png)

### Нейронная сеть (NN)

* Слой 1 называется **Input Layer (входным слоем)**, который вводит объекты.
* Последний слой называется **Output Layer (выходным слоем)**, который выводит конечное значение, вычисленное по гипотезе ***H***.
* Слой между входным и выходным слоями называется скрытым слоем, который представляет собой блок, в котором мы группируем нейроны вместе.

![](../../img/lec07_06.png)

#### Заметка

Нейрон (узел) на самом деле является логистической единицей с сигмоидной(логистической) активационной функцией (т. е. простой логистической регрессией). Если вы знакомы с линейной алгеброй, вы можете представить себе скрытый слой как линейную комбинацию узлов предыдущего слоя. ***Таким образом, основная идея NN заключается в решении сложной нелинейной задачи классификации с использованием многих последовательностей простой логистической регрессии.**

Нейрон (узел) на самом деле является логистической единицей с сигмоидной(логистической) активационной функцией (т. е. простой логистической регрессией). Если вы знакомы с линейной алгеброй, вы можете представить себе скрытый слой как линейную комбинацию узлов предыдущего слоя. ***Таким образом, основная идея NN заключается в решении сложной нелинейной задачи классификации с использованием многих последовательностей простой логистической регрессии.**

Чтобы получить четкое представление о том, что делает эта нейронная сеть, давайте пройдем через вычислительные шаги и визуализируем их.

**Во-первых**, мы визуализируем процесс перехода матрицы $\theta$, которая является отображением управляющей функции из слоя *j* в *j+1.*

![](../../img/lec07_07.png)
![](../../img/lec07_08.png)

**Во-вторых**, мы визуализируем каждый процесс вычисления нейронов. Заметим, что выходное значение каждого нейрона вычисляется по его сигмовидной функции активации.

![](../../img/lec07_09.png)
![](../../img/lec07_10.png)
![](../../img/lec07_11.png)
![](../../img/lec07_12.png)



###  Другие архитектуры нейронных сетей

Другие архитектуры нейронных сетей могут быть разработаны путем расширения скрытых слоев. Количество нейронов в каждом слое будет зависеть от решаемой задачи.

![](../../img/lec07_13.png)

### Использование и примеры

Основываясь на вышеизложенной концепции, мы собираемся разработать NN таким образом, чтобы показать, как NN-модель может быть применена к нелинейным задачам классификации.

#### Пример1 — AND

Мы можем спроектировать простую NN с одним нейроном для решения AND задачи.  Учитывая -30, 20 и 20 в качестве весов, можно задать *сигмоидную функцию активации* ***H*** этого нейрона (узла). Когда мы прогнозируем данные с помощью этого ***H***, мы можем получить идеальный результат.

![](../../img/lec07_14.png)
![](../../img/lec07_15.png)


#### Пример2 — OR

Концепция работы OR аналогична AND, но мы меняем вес блока смещения на -10.

![](../../img/lec07_16.png)
![](../../img/lec07_17.png)

#### Пример3 — Negation
![](../../img/lec07_18.png)

#### Пример4 — NAND
![](../../img/lec07_19.png)

#### Пример5 — XOR

Ясно, что это нелинейная задача классификации, мы можем решить ее с помощью нелинейной логистической регрессии ***H***, которую мы обсуждали в начале.

![](../../img/lec07_20.png)
![](../../img/lec07_21.png)

Однако, когда количество объектов и данных велико, ***H*** будет слишком сложным для понимания, а вычислительные затраты - дорогостоящими. 

**Вместо этого мы используем структуру NN, чтобы сделать модель *H* более ясной и простой.** Здесь мы ****** применим NN к зпдаче XOR на основе AND, NAND и OR.

![](../../img/lec07_22.png)



## Проблема многоклассовой классификации

В этом случае мы можем добавить узлы в выходной слой, каждый узел может предсказать один класс, концепция здесь будет аналогична механизму one-vs-all.

![](../../img/lec07_23.png)


## Прямое распространение

Шаги описаны ниже:

* Во-первых, нам нужна матрица весов $\theta$ (или обозначенная W) для каждого скрытого слоя. Мы можем вывести их случайным образом или на основе предварительного знания.
* Начните с входного слоя X (или обозначенного $a^1$).
* Сделайте прямое распространение по всему выходному слою и получите конечное значение.
* Используйте конечное значение для прогнозирования.

![](../../img/lec07_24.png)


### Больше деталей

Давайте возьмем в качестве примера задачу бинарной классификации и визуализируем детали прямого распространения. Прежде всего, нам нужна законченная модель NN, то есть все весовые матрицы **W** уже известны.

Входной слой: 4 узла, выходной слой: 1 узел, скрытый слой : 6 узлов.

![](../../img/lec07_25.png)
![](../../img/lec07_26.png)

**Прямое распространение (1) - от входного слоя к выходному слою**

![](../../img/lec07_27.png)
![](../../img/lec07_28.png)

**Прямое распространение(2) - от скрытого слоя к выходному слою**

![](../../img/lec07_29.png)

В итоге, мы можем получить конечное значение из выходного слоя и использовать его для прогнозирования.

* Если конечное значение ≥ 0,5, то мы прогнозируем метку y=1.
* Если нет, то мы предсказываем метку y=0.

![](../../img/lec07_30.png)

### **Проблема мультиклассификации**

В задаче мультиклассификации в выходном слое имеется несколько единиц измерения. Каждая единица измерения представляет собой **степень уверенности в принадлежности данных к определенной категории.** В этой ситуации мы можем применить стратегию "Один против всех" (one-vs-all), чтобы получить результат прогнозирования. Обратите внимание, что прямое распространение совпадает с проблемой двоичной классификации.

![](../../img/lec07_31.png)



## Loss Function (функция потерь)

Функция потерь также называется функцией затрат (Cost Function), но это имя чаще используется в NN.

Цель функции потерь состоит в том, чтобы измерить ошибку, которую сделала модель. Здесь мы приводим сгенерированную формулу относительно функции потерь. Отметим, что узел NN является логистической единицей с сигмоидной (логистической) активационной функцией.

![](../../img/lec07_32.png)

## Backward Propagation (обратное распространение)

Эта процедура предназначена для **минимизации функции потерь**, как и метод градиентного спуска, который мы использовали до этого.

Способ, который мы использовали здесь, похож на градиентный спуск, где есть два шага:

1. Вычислите частичную производную от $J(\theta)$ или $J(W)$
2. Обновите каждый элемент матрицы весов **$\theta$**.

![](../../img/lec07_33.png)

## Понимание с помощью интуитивного способа (Intuitive Way)

Давайте визуализируем процедуру, используя результат частной производной от $J(\theta)$

Давайте начнем с другого примера, предполагая, что матрицы весов **$\theta$** (или обозначенные **$W$**) были инициализированы. Наша цель - минимизировать **$J(\theta)$** и затем обновить матрицы весов **$\theta$**.

Примечание - мы можем использовать случайный метод для инициализации весовых матриц Θ, если у нас нет предварительных данных для решения задачи.

![](../../img/lec07_34.png)

После анализа (Calculus) вычислений мы можем получить результат частной производной от **$J(\theta)$**

![](../../img/lec07_35.png)
![](../../img/lec07_36.png)

Давайте углубимся в значения **$\delta$**-   

* **$\delta^3$** - это ошибка 3 слоя, выходного слоя в данном примере.
* **$\delta^2$** - это ошибка 2 слоя, скрытого слоя в данном примере.
* **$\delta^1$** - не существует, так как 1 слой является входным слоем.

![](../../img/lec07_37.png)
![](../../img/lec07_38.png)

С результатом частной производной от $J(\theta)$ теперь можно обновить матрицу весов Θ.

![](../../img/lec07_39.png)



## Подробнее о частной производной $J(\theta)$

В этом разделе мы хотим дать некоторые подсказки о выводе приведенной выше формулировки.


![](../../img/lec07_40.png)

Для удобства мы используем тот же самый пример и предположим, что есть только один набор данных. Следовательно, функция потерь $J(\theta)$ проще, чем общая форма.

![](../../img/lec07_41.png)

Для того, чтобы сделать обратное распространение, нам нужно сначала сделать прямое распространение.

![](../../img/lec07_42.png)

Тогда мы можем сделать частичную производную от J(Θ). Здесь мы покажем частную производную двух элементов W1 и W2 соответственно. Если вам интересно, вы можете решить ее с помощью подсказок.

![](../../img/lec07_43.png)

![](../../img/lec07_44.png)

Наконец, вы можете доказать формулу частной производной от J(Θ), если выполните описанную выше процедуру. Не беспокойтесь об этом, если вы не знакомы с исчислением, мы дали вам достаточно понятий в разделе ***понимание с интуитивным способом.***

## Как реализовать NN на практике?

<a href="https://medium.com/@qempsil0914/implement-neural-network-without-using-deep-learning-libraries-step-by-step-tutorial-python3-e2aa4e5766d1" class= "bb cn kh ki kj kk" >Вот ссылка на упражнение</a>, мы реализуем NN без использования библиотеки глубокого обучения. Мы надеемся, что учебник может помочь вам понять архитектуру NN, прямую и обратную процедуры распространения.

Ссылки: https://medium.com/@qempsil0914/courseras-machine-learning-notes-week5-neural-network-lost-function-forward-and-backward-8b293401e4dc