# Лекция 1 (часть 1): Введение в искусственные нейронные сети и глубокое обучение (deep learning)

__Автор: Сергей Вячеславович Макрушин__ e-mail: SVMakrushin@fa.ru 

Финансовый универсиет, 2021 г. 

При подготовке лекции использованы материалы:
* ...

V 0.4 04.02.2021

## Разделы: <a class="anchor" id="разделы"></a>
* [Базовые понятия, персептрон](#персептрон)
* [Современные методы обучения нейронной сети и обратное распространение ошибки](#современные-методы)
* [Вторая весна ИИ и глубокое обучение](#вторая-весна)
 
-

* [к оглавлению](#разделы)

## Базовые понятия, персептрон <a class="anchor" id="персептрон"></a>
* [к оглавлению](#разделы)

In [1]:
# загружаем стиль для оформления презентации
from IPython.display import HTML
from urllib.request import urlopen
html = urlopen("file:./lec_v2.css")
HTML(html.read().decode('utf-8'))

<em class="df"></em> __Искусственная нейронная сеть__ (ИНС, artificial neural network, ANN) - математическая модель, а также её программное или аппаратное воплощение, разработанная под влиянием изучения организации и функционирования биологических нейронных сетей - сетей нервных клеток живого организма.

ИНС представляет собой систему (сеть) соединённых и взаимодействующих между собой простых вычислительных элементов (искусственных нейронов), которые, в общем случае, умеют:
* реагировать на входной сигнал, возвращая реакцию на него
* хранить некоторые параметры, обеспечивающие вариативность реакции на входной сигнал
* обучаться - определенным образом менять свои параметры в ходе выполнения операции обучения

Каждый искуственный нейрон обычно достаточно просто устроен и явлется узлом в искуственной нейронной сети. В сети он имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим нейронам. Несмотря на простоту устройства искуственные нейроны будучи соединёнными в достаточно большую сеть с управляемым взаимодействием способны решать сложные задачи, многие из которых, до использования ИНС решать не удавалось.

<center>     
    <img src="./img/ann_1.png" alt="Принципиальная схема устройства нейрона в живых организмах" style="width: 500px;"/>
    <strong>Принципиальная схема устройства нейрона в живых организмах</strong>
</center>

* __Модели нейронов, используемые в современных ИНС, нацеленных на решение задач машинного обучения, в большинстве аспектов очень сильно отличаются от нейронов и их принципов работы в живых организмах!__ 
* Существет совершенно отдельное направление исследований, нацеленное на моделирование работы нейронов в живых организмах, далее мы об этом направлении говорить не будем.

__Очень краткая история области исследований__

* 1943 - Уоренн Маккалок и Уолтер Питтс формализуют __понятие нейронной сети__.
* 1949 - Дональд Хебб предлагает первый алгоритм, который может использоваться для __обучения искуственных нейронных сетей__.

<center>     
    <img src="./img/ml_1.png" alt="Машинное обучение: альтернативная парадигма программирования" style="width: 400px;"/>
    <strong>Машинное обучение: альтернативная парадигма программирования</strong>
</center>

* 1958 - Фрэнк Розенблатт изобретает __однослойный перцептрон__ и демонстрирует его способность __решать задачи классификации__. 
* 1960 год - Бернард Уидроу c Тедом Хоффом разработали __Адалин__ (ADALINE - Adaptive Linear Neuron, позже расшифровывался как Adaptive Linear Element), новый тип одноуровневой ИНС, отличавшийся от перспторна способом обучения. Адалин был построен на базе принципиально новых физических вычислительных элементов - мемисторах (разработан Уидроу и Хоффом). Сейчас Адалин (адаптивный сумматор) является стандартным элементом многих систем обработки сигналов.


<center>     
    <img src="./img/ann_2.png" alt="Схема работы Перцептрона" style="width: 500px;"/>
    <strong>Схема работы Перцептрона</strong>
</center>

Основной инновацией Розенблатта была разработка __алгоритма обучения перцептрона__:
* изначально веса инициализируются случайным образом
* поочередно берется один обучающий пример, включающий набор входов $x_i$ и верное значение $y$
* для ошибочных предсказаний $\hat{y}$:
    * веса увеличиваюстя, если $\hat{y}=0$, а $y=1$
    * веса уменьшаются, если $\hat{y}=1$, а $y=0$
* процедура повторяется до исчезновения ошибок

Для решения более сложных задач из перцептронов создается нейронная сеть:
* для получения нескольких результатов __нейроны организуются в слой__ (layer) содержащий столькок перцептронов, сколько требуется выходов
* выходы одного слоя могут использоваться в качестве входнов следующего слоя - многослойные нейронные сети

<center> 
    <img src="./img/ann_4.png" alt="Слой нейронной сети" style="width: 300px;"/>
    <strong>Слой нейронной сети</strong>    
</center>

__Перцептрон и проблема линейно неразделимых множеств__

<center> 
    <img src="./img/ann_5.png" alt="Пример линейно разделимых множества объектов" style="width: 300px;"/>
    <strong>Пример линейно разделимых множеств объектов</strong>        
</center>

Общий вид перцептрона:
$$\hat{y} = f(w_0 + w_1 x_1 + \ldots + w_n x_n) = f (\pmb{w}^T \pmb{x})$$, 
где $\pmb{x}=(1, x_1, \ldots, x_n)$

В качестве фунции активации $f$ могут использоваться функции:
* Сигмоид (логистическая функция): $\sigma(z)=\frac{e^z}{1+e^z}$
* Гиперболический тангенс: $tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$
* Единичная ступенчатая функция (функция Хевисайда): $step(z) = \begin{cases} \ \ 1 \text{ , if } x > 0 \\ \ \ 0 \text{ , if } x \le 0 \end{cases}$
* Rectified linear unit (вентиль): $ReLU(z)=\begin{cases} z \text{ , if } z > 0 \\ 0 \text{ , if } otherwise \\ \end{cases}$
* $sign(z) = \begin{cases} \ \ 1 \text{ , if } x > 0 \\ \ \ 0 \text{ , if } x = 0 \\ -1 \text{ , if }  x < 0 \end{cases}$

Большая коллекция функций активации: https://en.wikipedia.org/wiki/Activation_function

Требования к функциям активации:
* функция должна быть монотонной (обычно монотонно не убывающая)
* иметь первую производную почти всюду (необходимо для обратного распространения ошибки при обучении нейронной сети)

<center>
    <img src="./img/ann_6.png" alt="Графиики функций активации" style="width: 600px;"/>
    <strong>Графиики функций активации</strong>            
</center>

<center> 
    <img src="./img/ann_7.png" alt="Пример линейно разделимых множества объектов" style="width: 600px;"/>
    <strong>Пример поиска границы разделяющей два класса с помощью перцептрона с $f=\sigma$</strong>                
</center>

Один перцептрон (с любой функцией активации) может научиться классифицировать только линейно раздлемые множества объектов.

Предположим мы имеем два признака (features) на входе перцептрона: $𝑥_1 \text{, } 𝑥_2 \in \{0, 1\}$, т.е. имеем четрые точки:
<table>
<colgroup>
<col width="33%">
<col width="33%">
<col width="34%">
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">$x_1$</th>
<th class="head">$x_2$</th>
<th class="head">$y$</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td>0</td>
<td>0</td>
<td>...</td>
</tr>
<tr class="row-odd"><td>1</td>
<td>1</td>
<td>...</td>
</tr>    
<tbody valign="top">
<tr class="row-even"><td>0</td>
<td>1</td>
<td>...</td>
</tr>
<tr class="row-odd"><td>1</td>
<td>0</td>
<td>...</td>
</tr>     
</tbody>    
</table>    

<center> 
    <img src="./img/ann_8.png" alt="Пример классификации перцептроном логических функций" style="width: 600px;"/>
    <strong>Пример классификации перцептроном логических функций</strong>
</center>


* 1969 год - Марвин Мински публикует формальное __доказательство ограниченности перцептрона__ и показывает, что он неспособен решать некоторые задачи (проблема «чётности» и «один в блоке»), связанные с инвариантностью представлений. В частности, __один перцептрон не может реализовать функцию XOR__ (исключающее или).

<center> 
    <img src="./img/ann_9.png" alt="Проблема классификации перцептроном логическоц функции XOR" style="width: 250px;"/>
    <strong>Проблема классификации перцептроном логической функции XOR</strong>    
</center>

Сам М. Мински показал, что __XOR может быть реализован многослойной нейронной сетью из перцептронов__. Нелинейная функция активации является кртичиески важным элментом перцептрона, без нее линейная комбинация перцептронов позволяла бы строить только линейные разделяющие поверхности. 
 
<center> 
    <img src="./img/ann_10.png" alt="Классификации логическоц функции XOR многослойным перцептроном" style="width: 600px;"/>
    <strong>Классификации логическоц функции XOR многослойным перцептроном</strong>        
</center>


Несмотря на возможность работы многослойных перцптронов о __механизм обучения, предложенный Розенблаттом, не позволяет обучить необходимую многослойную сеть__. После данных результатов интерес к нейронным сетям резко спадает, наступает период, позже называнный __"Первой зимой искуственного интеллекта"__.

## Современные методы обучения нейронной сети и обратное распространение ошибки <a class="anchor" id="современные-методы"></a>
* [к оглавлению](#разделы)

__Обратное распространение ошибки (backpropagation)__ - алгоритм, позволяющий производить обучение многослойных нейронных сетей. 

* 1974 - Пол Дж. Вербос __изобретает алгоритм обратного распространения ошибки__ для обучения многослойных перцептронов. Изобретение не привлекло особого внимания.
* 1982 - после периода забвения, интерес к нейросетям вновь возрастает (__"весна искуственного интеллекта"__). Дж. Хопфилд показал, что нейронная сеть с обратными связями может представлять собой систему, минимизирующую энергию (так называемая сеть Хопфилда). Кохоненом представлены модели сети, обучающейся без учителя (нейронная сеть Кохонена), решающей задачи кластеризации, визуализации данных (самоорганизующаяся карта Кохонена) и другие задачи предварительного анализа данных.
* 1986 - Дэвидом И. Румельхартом, Дж. Е. Хинтоном и Рональдом Дж. Вильямсом переоткрыт и существенно развит __метод обратного распространения ошибки__. Начался взрыв интереса к обучаемым нейронным сетям.

Использованием алгоритма обратного распространение ошибки позволяет:
* __реализовывать__ функцию XOR и другие более __сложные функции__ с помощью многослойных нейронных сетей
* эффективно обрабатывать __большое количество обучающих примеров__
* обучать __сложные архитектуры нейронных сетей__
Данный алгоритм до сих пор является одним из ключевых решений в технологиях искуственный нейронных сетей./

__Приниципиальная логика обучения нейронной сети__

<center> 
    <img src="./img/ann_11.png" alt="Пример многослойного перцептрона " style="width: 500px;"/>
    <strong>Пример многослойного перцептрона (с двумя скрытыми слоями)</strong>
</center>

* У нас есть набор данных $D$, состоящий из пар $(\pmb{x}, \pmb{y})$, где $\pmb{x}$ - признаки, а $\pmb{y}$ - правильный ответ. 
* Модель сети $f_L$, имеющей $L$ слоев с весами $\pmb{\theta}$ (совокупность весов нейронов из всех слоев) на этих данных делает некоторые предсказания $\hat{\pmb{y}} = f_L(\pmb{x}, \pmb{\theta})$
* Задана функция ошибки $E$, которую можно подсчитать на каждом примере: $E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$ (например, это может быть квадрат или модуль отклонения $\hat{\pmb{y}}$ от $\pmb{y}$ в случае регрессии или перекрестная энтропия в случае классификации)
* Тогда суммарная ошибка на наборе данных $D$ будет функцией от параметров модели: $E(\pmb{\theta})$ и определяется как $E(\pmb{\theta})=\sum_{(\pmb{x}, \pmb{y}) \in D} E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$

<center> 
    <img src="./img/main_cycle_p1_v1.png" alt="Приниципиальная логика обучения нейронной сети" style="width: 600px;"/>
    <strong>Приниципиальная логика обучения нейронной сети</strong>    
</center>

__Проблема обучения модели нейронной сети__

* <em class="nt"></em> __основная проблема__ это не применение модели к входным данным $\pmb{x}$ и оцнка ошибки на правильных ответах $\pmb{y}$, а __обучение модели__ (опредление наилучших параметров модели $\pmb{\theta}$). 
     * В случае нейронной сети обучение сводится к поиску весов слоев сети $\pmb{\theta}=(\pmb{w}_1, \ldots, \pmb{w}_L)$, которые в совокупности являются параметрами модели $\pmb{\theta}$.

* Формально: цель обучения - найти оптимальное значение параметров $\theta^{*}$, минимизирующих ошибку на обучающией выборке $D$: 
$$\theta^{*} = \arg \underset{\pmb{\theta}}{\min} \ E(\pmb{\theta}) = \arg \underset{\pmb{\theta}}{\min} \ \sum_{(\pmb{x}, \pmb{y}) \in D} E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$$
* Т.е. задача обучения сводится к задаче оптимизации.
    * <em class="nt"></em> На самом деле __все сложнее__: хороший результат на $D$ может плохо обобщаться (модель может давать низкое качество на другой выборке из той же генеральной совокупности) - __проблема переобучения__.


__Задача оптимизации__

* Задача: корректировка весов сети (параметров модели $\pmb{\theta}$) на основе информации об ошибке на обучающих примерах $E(\hat{\pmb{y}}, \pmb{y})$.
    * Решение: использовать методы оптимизации, основанные на __методе градиентного спуска__.
    

* __Метод градиентныого спуска__ - метод нахождения локального экстремума (минимума или максимума) функции с помощью движения вдоль градиента. В нашем случае шаг метода градиентного спуска выглядит следующим образом:
$$\pmb{\theta}_t = \pmb{\theta}_{t-1}-\gamma\nabla_\theta E(\pmb{\theta}_{t-1}) = \pmb{\theta}_{t-1}-\gamma \sum_{(\pmb{x}, \pmb{y}) \in D} \nabla_\theta E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$$

* <em class="nt"></em> Выполнение на каждом шаге градиентого спуска суммирование по всем $(\pmb{x}, \pmb{y}) \in D$ __обычно слшиком неэффективно__


* Для выпуклых функций __задача локальной оптимизации__ - найти локальный минимум (максимум) автоматически превращается в __задачу глобальной оптимизации__ - найти точку, в которой достигается наименьшее (наибольшее) значение функции, то есть самую низкую (высокую) точку среди всех.
* Оптимизировать веса одного перцептрона - выпуклая задача, но __для большой нейронной сети  целевая функция не является выпуклой__.

<center> 
<img src="./img/ann_15.png" alt="Прямой проход и оценка ошибки" style="width: 500px;"/><br/>
    <b>Пример работы градиентного спуска для функции двух переменных</b>    
</center>

* У нейронных сетей функция ошибки может задавать __очень сложный ландшафт__ с огромным числом локальных максимумов и минимумов. Это свойство необходимо для обеспечения выразительности нейронных сетей, позволяющей им решать так много разных задач.


* <em class="nt"></em> для использования методов, основанных на методе градиентного спуска __необходимо знать градиент функции потерь по параметрам модели__: $\nabla_\theta E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$. Этот градиент определяет вектор ("направление") изменения параметров.


Прямой проход (forward pass): входящая информация (вектор $\pmb{x}$) распространяется через сеть с учетом весов связей, расчитывается выходной вектор $\hat{\pmb{y}}$

<center> 
    <img src="./img/ann_12.png" alt="Пример прямого прохода" style="width: 500px;"/>
    <strong>Пример прямого прохода</strong>    
</center>


Обратное распространение ошибки (backpropagation):
* расчитывается ошибка между выходным вектором сети $\hat{\pmb{y}}$ и правильным ответом обучающего примера $\pmb{y}$
* ошибка распростаняется от результата к источнику (в обратную сторону) для корректировки весов

<center>
    <img src="./img/ann_13.png" alt="Пример прямого прохода" style="width: 500px;"/>
    <strong>Пример обратного распространения ошибки</strong>    
</center>

В результате мы рассчитываем градиент функции потерь по параметрам модели: $\nabla_\theta E(f_L(\pmb{x}, \pmb{\theta}), \pmb{y})$ и с его помощью проводим обучаение (оптимизацию) весов сети $\pmb{\theta}$ на основе полученных ошибок.

__Метод обратного распространения ошибки__ позволяет обучать многослойные сети, что позволяет решать сложные задачи.
<center>   
    <img src="./img/db_1.png" alt="Пример" style="width: 750px;"/>
    <img src="./img/db_2.png" alt="Пример" style="width: 550px;"/>
    <img src="./img/db_3.png" alt="Пример" style="width: 550px;"/>
    <img src="./img/db_4.png" alt="Пример" style="width: 700px;"/>
    <strong>Пример: решение задачи двухклассовой классификации сетями с разными праметрами слоев</strong>        
</center>

## Вторая весна ИИ и глубокое обучение <a class="anchor" id="вторая-весна"></a>
* [к оглавлению](#разделы)

__Вторая зима ИИ__

* До 1998 были предложены некоторые  очень эффективные методы в облести ИНС:
    * Обратное распространение ошибки (backpropagation)
    * Recurrent Long-Short Term Memory Networks (LSTM)
    * Распрознавание символов с помощью Convolutional Neural Networks (CNN)

* Однако, в это время стали очень популярны некоторые альтернативные мотоды машинного обучения (в частности, SVM и т.д.) 
    * они обеспечивали аналогичное качество на тех же задачха
    * не удавалось строить ИНС глубже нескольких слоев
    * Kernel Machines использовали намного меньше эвристики и имели отличные математические доказательства обобщающией способности 
* В результате сообщество специалистов из области AI снова отвернулось от ИНС.

Neural Network and Deep Learning problems:
* Lack of processing power
    * No GPUs at the time
* Lack of data
    * No big, annotated datasets at the time
* Overfitting
    * Because of the above, models could not generalize all that well
* Vanishing gradient
    * While learning with NN, you need to multiply several numbers 𝑎1 ∙ 𝑎2 ∙ ⋯ ∙ 𝑎𝑛.
    * If all are equal to 0.1, for 𝑛 = 10 the result is 0.0000000001, too small for any learning
* Experimentally, training multi-layer perceptrons was not that useful
    * Accuracy didn’t improve with more layers
* The inevitable question
    * Are 1-2 hidden layers the best neural networks can do?
    * Or is it that the learning algorithm is not really mature yet
    
... Deep Learning arrives    

В 1990е и 2000е годы альтернативные методы поверхностного обучения в большинстве задач превосходили методы, основанные на нейронных сетях.

Альтернативы нейронным сетям:
* __Ядерные методы__ — это группа алгоритмов классификации, из которых наибольшую известность получил __метод опорных векторов__ (Support Vector Machine, SVM).
* __Деревья решений__ и __случайные леса__ 
* __Градиентный бустинг__

__Метод опорных векторов__

Метод опорных векторов предназначен для решения задач классификации путем поиска хороших решающих границ, разделяющих два набора точек, принадлежащих разным категориям. Поиск таких границ в методе осуществляется в два этапа:

1. Данные отображаются в новое пространство более высокой размерности, где граница может быть представлена как гиперплоскость.
2. Хорошая решающая граница (разделяющая гиперплоскость) вычисляется путем максимизации расстояния от гиперплоскости до ближайших точек каждого класса, этот этап называют максимизацией зазора. Это позволяет обобщить классификацию новых образцов, не принадлежащих обучающему набору данных.

<center> 
    <img src="./img/alt_met1.png" alt="Принципиальная схема работы SVM" style="width: 500px;"/>
    <strong>Принципиальная схема работы SVM</strong>     
</center>

На момент разработки метод опорных векторов:
* демонстрировал лучшую производительность на простых задачах классификации
* был одним из немногих методов машинного обучения, обладающих обширной теоретической базой и поддающихся серьезному математическому анализу
* был хорошо понятным и легко интерпретируемым

Но:
* метод оказался трудно применимым к большим наборам данных
* не дал хороших результатов для таких задач, как классификация изображений

Так как SVM является поверхностным методом, для его применения к задачам распознавания требуется сначала вручную выделить представительную выборку (этот шаг называется конструированием признаков), что сопряжено со сложностями и чревато ошибками.

__Деревья решений__

Деревья решений — это иерархические структуры, которые позволяют классифицировать входные данные или предсказывать выходные значения по заданным исходным значениям. Они легко визуализируются и интерпретируются. 


<center> 
    <img src="./img/alt_met2_.png" alt="Принципиальная схема работы дерева решений" style="width: 500px;"/>
    <strong>Принципиальная схема работы дерева решений</strong>     
</center>

Алгоритм "случайный лес" (Random Forest) предложил надежный и практичный подход к обучению на основе деревьев решений, включающий в себя создание большого количества специализированных деревьев решений с последующим объединение выдаваемых ими результатов.

<center> 
    <img src="./img/alt_met3.png" alt="Принципиальная схема работы алгоритма &quot;случайного леса&quot;" style="width: 500px;"/>
    <strong>Принципиальная схема работы алгоритма "случайного леса"</strong>     
</center>

Метод __градиентного бустинга__, во многом напоминает случайный лес, он основан на объединении слабых моделей прогнозирования, обычно — деревьев решений. Он использует градиентный бустинг, способ улучшения любой модели машинного обучения путем итеративного обучения новых моделей, специализированных для устранения слабых мест в предыдущих моделях. 

Применительно к деревьям решений градиентный бустинг позволяет получить модели, которые в большинстве случаев 
превосходят случайные леса при сохранении аналогичных свойств.

<center> 
    <img src="./img/alt_met4.png" alt="Принципиальная схема работы алгоритма градиентного бустинга" style="width: 500px;"/>
    <strong>Принципиальная схема работы алгоритма градиентного бустинга</strong>     
</center>

* К 2010 году __практически потерян интерес к искуственным нейронным сетям__ со стороны научного сообщества, работают небольшие группы энтузиастов (__2я зима искусственного интеллекта__)
* Начиная с 2010 года появляются важные успехи в области применения искуственных нейронных стеей, связанные со следующими научными группами:
    * Джеффри Хинтон (Geoffrey Hinton) из университета в Торонто
    * Йошуа Бенгио (Yoshua Bengio) из университета в Монреале
    * Ян Лекун (Yann LeCun) из университета в Нью-Йорке
    * исследователи из научно-исследовательском институте искусственного интеллекта IDSIA в Швейцарии
* В 2011 году Ден Киресан (Dan Ciresan) из IDSIA выиграл конкурс по классификации изображений с применением глубоких нейронных сетей, обучаемых на GPU: первый практический успех современного глубокого обучения
* __Соревнование ImageNet__ - крупномасштабное распознавание образов. Классификации цветных изображений с высоким разрешением на 1000 разных категорий после обучения по выборке, включающей в себя 1,4 миллиона изображений. Для начала 2010х годов - очень сложная задача машинного обучения. В 2011 году модель-победитель, основанная на классических подходах к распознаванию образов, показала __точность лишь 74,3%__ .
* В 2012 году команда Алекса Крижевски (Alex Krizhevsky), советником в которой был Джеффри Хинтон (Geoffrey Hinton), достигла __точности в 83,6%__ — значительный прорыв методов глубокого обучения.

<center> 
    <img src="./img/deepnet_1_.png" alt="Уровень ошибки в соревновании ImageNet по годам" style="width: 900px;"/>
    <strong>Уровень ошибки в соревновании ImageNet по годам</strong>     
</center>


<center> 
    <img src="./img/ann_21.png" alt="Пример" style="width: 700px;"/>
    <strong>Вторая весна ИИ</strong>        
</center>

Какой ступени развития достигло глубокое обучение:

* классификация изображений на уровне человека;
* распознавание речи на уровне человека;
* распознавание рукописного текста на уровне человека;
* улучшение качества машинного перевода с одного языка на другой;
* улучшение качества машинного чтения текста вслух;
* появление цифровых помощников, таких как Google Now и Amazon Alexa;
* управление автомобилем на уровне человека;
* повышение точности целевой рекламы, используемой компаниями Google, Baidu и Bing;
* повышение релевантности поиска в интернете;
* появление возможности отвечать на вопросы, заданные вслух;
* игра в Го сильнее человека.

Но, скорее всего, еще долгое время будут оставаться недостижимым решение таких задач, как:
* перевод между произвольными языками на уровне человека;
* понимание естественного языка на уровне человека

Не стоит всерьез воспринимать разговоры об интеллекте на уровне человека

__Глубокое обучение__ — это особый раздел машинного обучения: новый подход к поиску представления данных, делающий упор на изучение последовательных слоев (или уровней) все более значимых представлений. 

* Под __глубиной__ в глубоком обучении не подразумевается __многослойное представление данных__. 
    * __Количество слоев__, на которые делится модель данных, называют __глубиной модели__.
    * Другими подходящими названиями для этой области машинного обучения могли бы служить: многослойное обучение и иерархическое обучение.
    * Под глубиной в глубоком обучении не подразумевается более глубокое понимание, достигаемое этим подходом.

* Современное глубокое обучение часто вовлекает в процесс __десятки и даже сотни последовательных слоев__ представления.
    * Все они __автоматически определяются под воздействием обучающих данных__. 
    * Другие подходы к машинному обучению __ориентированы на изучении одного-двух слоев представления данных__, по этой причине их иногда называют __поверхностным обучением__.
    
<center> 
    <img src="./img/deepnet_2.png" alt="Увеличение глубины нейронных сетей" style="width: 500px;"/>
    <strong>Увеличение глубины нейронных сетей</strong>     
</center>    

Отличительные черты глубокого обучения

Основные причины быстрого взлета глубокого обучения:
* лучшая производительность во многих задачах
* упрощение решения проблем, за счет полной автоматизации важнейшего шаг в машинном обучении: конструирования признаков (раньше он выполнялся вручную)
    * Методы поверхностного обучения — включали в себя преобразование входных данных только в одно или два последовательных пространства, обычно посредством простых преобразований.
    * Однако точные представления, необходимые для решения сложных задач, обычно нельзя получить такими способами. Приходилось прилагать большие усилия, чтобы привести исходные данные к виду, более пригодному для обработки этими методами: приходилось __вручную улучшать слой представления своих данных__. Это называется __конструированием признаков__.
    * Глубокое обучение, напротив, полностью автоматизирует этот шаг: с применением методов глубокого обучения все признаки извлекаются за один проход, без необходимости конструировать их вручную.
* возможность эффективно использовать специализированное высокопроизводительное оборудование (GPU)

Решение задачи конструирования признаков

* Методы поверхностного обучения используют преобразование входных данных только в одно или два последовательных пространства, обычно посредством простых преобразований.
* Однако точные представления, необходимые для решения сложных задач, обычно нельзя получить такими способами. Приходилось __вручную улучшать слой представления своих данных__ - прилагать большие усилия, чтобы привести исходные данные к виду, более пригодному для обработки этими методами. Это называется __конструированием признаков__ (feature engineering).
----
* Глубокое обучение полностью автоматизирует процесс конструированием признаков: все признаки извлекаются за один проход, без необходимости конструировать их вручную.
* Можно ли многократно применить методы поверхностного обучения для имитации эффекта глубокого обучения? 
    * Проблема: оптимальный слой первого представления в трехслойной модели не является оптимальным первым слоем в однослойной или двухслойной модели
    * В глубоком обучении модель может __исследовать все слои представления вместе и одновременно__, а не последовательно (последовательное исследование также называют «жадным»). Когда модель корректирует один из своих внутренних признаков, все прочие признаки, зависящие от него, автоматически корректируются в соответствии с изменениями, без вмешательства человека. Все контролируется единственным сигналом обратной связи.
* Методика глубокого обучения обладает двумя важными характеристиками: 
    * она поэтапно, послойно конструирует все более сложные представления 
    * совместно исследует промежуточные представления, благодаря чему каждый слой обновляется в соответствии с потребностями представления слоя выше и потребностями слоя ниже. 

__Почему глубокое обучение начало приносить плоды и активно использоваться только после 2010 г?__

* Еще в 1989 году были известны две ключевые идеи глубокого обучения:
    * алгоритм обратного распространения ошибки
    * сверточные нейронные сети
    * в 1997 г. был предложен алгоритм долгой краткосрочной памяти (Long Short-Term Memory, LSTM)
    
В целом, прогресс глубокого обучения объясняется тремя основными факторами:
* __производительность оборудования__
* __доступность наборов данных и тестов__
* __алгоритмические достижения__

__Производительность оборудования__

* Между 1990 и 2010 годами быстродействие стандартных процессоров выросло примерно в 5000 раз (закон Мура).

<center> 
    <img src="./img/deepnet_3_2.png" alt="Закон Мура" style="width: 500px;"/>
    <strong>Закон Мура</strong>     
</center> 

* Но: мощности соврменного ноутбука недостаточно, чтобы обучить типичные модели глубокого обучения, используемые для распознавания образов или речи, они требуют на порядки больше вычислительной мощности.
* В течение 2000х такие компании, как NVIDIA и AMD, вложили миллионы долларов в разработку быстрых процессоров с массовым параллелизмом: __графических процессоров - Graphical Processing Unit (GPU)__ для поддержки графики все более реалистичных видеоигр
* В 2007 году компания NVIDIA выпустила __CUDA__ (Compute Unified Device Architecture) - программный интерфейс для линейки своих GPU, позволяющий использовать их для вычислений общего назначения, а не только для специализированных задач компьютерной графики GPGPU (General-Purpose computing on Graphics Processing Units).

<center> 
    <img src="./img/deepnet_3.png" alt="Различия в архитектурах CPU и GPU" style="width: 500px;"/>
    <strong>Различия в архитектурах CPU и GPU</strong>     
</center> 

* Теперь в различных задачах, допускающих возможность массового распараллеливания вычислений несколько GPU могут заменить мощные кластеры на обычных процессорах. Современный графический процессор NVIDIA TITAN X, (стоимостью ~ 1000 USD) имеет пиковую   роизводительность по выполнению операций с числами типа float32 __почти в 350 раз больше__ производительности современного ноутбука.

<center> 
    <img src="./img/deepnet_3_3.png" alt="Различия в производительности CPU и GPU" style="width: 500px;"/>
    <strong>Различия в производительности CPU и GPU</strong>     
</center> 


* __Глубокие нейронные сети допускают высокую степень распараллеливания__ т.к. выполняют в основном умножение множества маленьких матриц. 
* Ведется разработка __специализированных процессоров для решения задач глубокого обучения__, частного случая ASIC ( application-specific integrated circuit - «интегральная схема специального назначения»). Компания Google разработала и использует несколько поколений специализированных тензорных процессоров (Tensor Processing Unit, TPU), ориентированных на решение задач глубокого обучения: процессор с новой архитектурой, предназначенный для использования в глубоких нейронных сетях, который примерно в 10 раз  производительнее и энергоэффективнее чем топовые модели GPU.

<center> 
    <img src="./img/deepnet_3_4.png" alt="Google tensor processing unit (TPU)" style="width: 500px;"/>
    <strong>Google tensor processing unit (TPU)</strong>     
</center>

__Доступность наборов данных и тестов__

* Алгоритмы машинного обучения используют данные (в частности: обучающие наборы данных) для собственной настройки (обучения) и повышения качества работы. 
* Обучение решнию сложных задач требует очень больших объемов обучающих наборов данных.

---
Накоплению больших объемов обучающих выборок в последние десятилетия способствовали следующие факторы:
* Экспоненциальный рост емкости устройств хранения информации, наблюдавшемуся в последние 20 лет (согласно закону Мура)
* Бурный рост интернета, благодаря которому появилась возможность работать с очень большими объамами данных, в частности:
    * собирать и накапливать данные
    * распространять данные 
    * совместно обрабатывать (вручную и автоматически) данные 

Примеры публично доступных массивов данных:
* База данных ImageNet — проект по созданию и сопровождению массивной базы данных аннотированных изображений, предназначенная для отработки и тестирования методов распознавания образов и машинного зрения. По состоянию на 2016 год в базу данных было записано около десяти миллионов URL с изображениями, которые прошли ручную аннотацию для ImageNet, в аннотациях перечислялись объекты, попавшие на изображение, и прямоугольники с их координатами.

<center> 
    <img src="./img/deepnet_4.png" alt="ImageNet" style="width: 500px;"/>
    <strong>ImageNet</strong>     
</center> 

* Википедия

<center> 
<table>
<tr>
    <td><img src="./img/deepnet_5.png" alt="Динамика количества статей в Википедии" style="width: 500px;"/></td>
    <td><img src="./img/deepnet_6.png" alt="Динамика количества статей в Википедии" style="width: 200px;"/></td>
</tr>
</table>
    <strong>Динамика количества статей в Википедии (в разрезе языковых разделов)</strong>         
</center>     
    
* Социальные сети    

<center> 
    <img src="./img/deepnet_7.png" alt="Динамика количества пользователей Facebook" style="width: 500px;"/>
    <strong>Динамика количества пользователей Facebook</strong>     
</center> 

* И много-много всего...

<center> 
    <img src="./img/deepnet_9.png" alt="Каждую минту" style="width: 500px;"/>
    <strong>Каждую минту...</strong>     
</center> 

* Далее: интернет вещей (internet of things, IoT) — концепция вычислительной сети физических предметов ("вещей"), оснащённых встроенными технологиями для взаимодействия друг с другом или с внешней средой.

## Вторая весна ИИ и глубокое обучение <a class="anchor" id="вторая-весна"></a>
* [к оглавлению](#разделы)

__Алгоритмические достижения в области глубокого обучения__

Кроме оборудования и данных, до конца 2000-х нам не хватало надежного способа обучения очень глубоких нейронных сетей, как результат:
* нейронные сети оставались очень неглубокими, имеющими один или два слоя представления; 
* <em class="hn"></em> они не могли противостоять более совершенным поверхностным методам (методу опорных векторов и случайные леса). Основная __проблема__ заключалась в __распространении градиента через глубокие пакеты слоев__. Сигнал обратной связи, используемый для обучения нейронных сетей, __затухает по мере увеличения количества слоев__.

<center> 
    <img src="./img/ann_14.png" alt="Приниципиальная логика обучения нейронной сети" style="width: 370px;"/>
    <strong>Приниципиальная логика обучения нейронной сети</strong>     
</center>

В районе 2010 г. появились некоторые простые, но важных алгоритмические усовершенствования, позволившие улучшить распространение градиента:
* __улчшенные подходы к регуляризации__
* __улучшенные схемы инициализации весов__
* __улучшенные функции активации__
* __улучшенные схемы оптимизации__ (такие как RMSProp и Adam)

В последнее время были открыты еще более совершенные способы распространения градиента, с применением которых появилась возможность обучать с нуля модели с тысячами слоев в глубину. В частонсти:
* пакетная нормализация
* обходные связи 
* отделимые свертки

---
# Спасибо за внимание!

---
### Технический раздел:

<br/> next <em class="qs"></em> qs line 
<br/> next <em class="an"></em> an line 
<br/> next <em class="nt"></em> an line 
<br/> next <em class="df"></em> df line 
<br/> next <em class="ex"></em> ex line 
<br/> next <em class="pl"></em> pl line 
<br/> next <em class="mn"></em> mn line 
<br/> next <em class="plmn"></em> plmn line 
<br/> next <em class="hn"></em> hn line 