# **DL-1. Введение в нейронные сети**

# 1. Введение

В первом модуле мы рассмотрим:

* как строить нейронные сети;
* какие типы нейронных сетей бывают;
* где сегодня применяются нейронные сети.

# 2. Машинное обучение и типы данных

Прежде чем переходить к Deep Learning (глубокому обучению), актуализируем информацию по машинному обучению.

Машинное обучение можно рассматривать как некоторое отображение входных данных в выходные данные. Как правило, этим занимается некоторая модель, которая зависит от заданных параметров. Эти параметры характеризуют то, как модель себя ведёт и как предсказывает выходные значения по входным. Подстройка этих параметров и есть машинное обучение.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/b89ec2f618cbfd8f9c9fc0320fca1033/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_1_1.png)

**Классическое обучение с учителем**

Как правило, в МО используется **обучение с учителем** (supervised learning), в котором есть база данных, состоящая из пар «объект — ответ». Мы показываем модели эти пары одну за другой и корректируем параметры таким образом, чтобы на новых примерах наша модель предсказала правильные ответы. 

**Какие типы данных могут использоваться в таких задачах?**

1. **Низкоразмерная информация.**

    Например, это могут быть векторы, отвечающие за характеристики пользователей (рост, вес, возраст и т. д.), и мы хотим сделать их классификацию, то есть отобразить низкоразмерный вектор в другой низкоразмерный вектор или скаляр.
1. **Изображение или видео.**

    Это более сложный тип данных. В качестве примера здесь можно рассмотреть задачу компьютерного зрения — отображение визуальной информации в низкоразмерную высокоуровневую информацию. 
1. **Текст.**

    Пример: обработка текста и его отображение в качестве низкоразмерной высокоуровневой информации.
1. **Аудио- и звуковые сигналы.**

    Знакомый всем пример — распознавание речи и перевод аудио в текст.
Мы можем делать практически любое отображение из любого типа данных в любой тип данных. При этом на каждое такое отображение есть соответствующая задача и методы её решения. Большинство этих задач наилучшим образом решаются с помощью нейронных сетей, или технологии Deep Learning. 

Важно понимать, что нейронные сети не всегда являются лучшим вариантом. Например, отображение низкоуровневой информации в саму себя лучше реализовать с помощью других алгоритмов (случайный лес, градиентный бустинг и др.). Однако в случае с высокоразмерными сложными данными (изображения, звуки, тексты) очень хорошо работают именно нейронные сети.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/bd50a06d3775d0f7c1cabaa9da38c7a8/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_2.png)

# 3. Нейронные сети

Основная идея нейронных сетей — это обучение представления. Получение выхода из заданного входа начинается с **извлечения признаков**, когда из входных данных извлекается некоторое промежуточное представление.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/5934bd03ed90b191bc024a6dc90b3b92/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_4_1.png)

### Многослойный перцептрон

Многослойный перцептрон — это простая нейронная сеть. Он состоит из:

* входного вектора;
* выходного вектора;
* вектора промежуточного представления (скрытый слой).

Вычисление распространяется от входа к выходу, связям между нейронами соответствуют некоторые веса. Такая сеть является полносвязной.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/e89135fb77af559681f0c8a86e2b0d8b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_3.png)

### Что в нейроне?

В нейрон входит несколько значений $x_1, x_2, x_3$ с несколькими связями. Связям соответствуют некоторые коэффициенты $w_1, w_2, w_3$ (если входов в нейрон три).

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/ea7a7d97f84adf6407dd25814917c541/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/15.jpeg)

Дальше внутри нейрона происходит вычисление двух операций, а точнее композиция линейной и нелинейной операций:

* В линейной операции мы выполняем взвешивание суммы всех входных значений ($x_1$ умножаем на $w_1$, $x_2$ — на $w_2$ и так далее), всё это вместе суммируем и прибавляем некоторое значение **смещения b**. 
* В нелинейной операции от полученных на предыдущем шаге значений мы берём нелинейную функцию.

Так вычисляется выходное значение в одном нейроне. Дальше эти нейроны можно уже агрегировать в большую нейронную сеть.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/1b9653eea934b953a26bd7fda7963d03/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_5.png)

Одному слою такой нейронной сети уже будет соответствовать некоторая **матрица параметров** и некоторый **вектор смещения B**.

Таким образом проходят вычисления в одном слое полносвязной нейронной сети и вычисляется матричное умножение и прибавление вектора, а затем поэлементное взятие нелинейности.

### Как работают нейроны?
В одном нейроне нейронной сети происходит локальное принятие решения: мы взвешиваем и суммируем входные данные и на основе полученных результатов локально что-то предсказываем, принимая маленькое решение на каждом шаге. Все полученные решения агрегируются и подаются на следующий слой и уже новые значения используются для более сложного высокоуровнего принятия решений.

В математическом смысле нейронная сеть — это универсальный **аппроксиматор*** (может аппроксимировать любую функцию).

Если у вас есть какая-то сложная зависимость между входом и выходом, можно описать её с помощью нейронной сети. 

Если брать больше слоёв, то это будет уже многослойная нейронная сеть, и у неё будет более сложное промежуточное представление.

> **Аппроксима́ция** (от лат. proxima — ближайшая), или приближе́ние — научный метод, состоящий в замене одних объектов другими, в каком-то смысле близкими к исходным, но более простыми.

### Вычисления в многослойной нейронной сети

Вычисления в такой сети можно записать с помощью следующего рекуррентного соотношения в многослойной нейронной сети:

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/93b0c35d3efdf8dc46899553737a2d0f/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_7.png)

Выход каждого слоя — это вход, умноженный на какую-то матрицу, плюс вектор смещения, и от всего этого берётся нелинейность. Все веса, которые соответствуют смещениям bias, мы назовём параметрами нашей модели.

### Типы параметров нейронных сетей

Обычно у нейронных сетей выделяют два типа параметров: просто параметры (W) и гиперпараметры.

**Гиперпараметры** — параметры системы, которые мы не обучаем, а «создаём руками», как конструкторы проектируют нейронную сеть. Мы определяем, сколько нейронов в слое и сколько всего слоёв, какую функцию активации использовать и так далее. Всё это мы задаём вручную, а вот параметры связи между нейронами и bias получаются автоматически в процессе обучения.

### Какую функцию активации взять?

Долгое время использовались **сигмоидальные функции**, или **sigmoid**. В этой функции мы помогаем выходу из нейрона принять какое-то бинарное решение, то есть отображаем все его значения во что-то больше или меньше нуля. Сигмоида — это нелинейная функция.

Если бы мы использовали обычную линейную функцию (или вообще не использовали никакую функцию), то композиция слоёв без нелинейности давала бы одну большую линейную операцию. Поэтому не имело бы смысла настраивать много слоёв в нейронной сети: они все были бы эквивалентны какому-то одному слою.

Если же мы ставим нелинейность между слоями, аппроксиматор становится более сложным и уже может аппроксимировать достаточно сложные функции. Это функция sigmoid. Она использовалась раньше, но у неё есть некоторые проблемы, и поэтому сейчас, как правило, используют **функцию ReLU** или её модификации. В этой функции мы зануляем всё, что меньше 0, а всё, что больше 0, оставляем как есть. У ReLU очень простая производная, и именно производная этой функции будет участвовать в процессе обучения и в алгоритме обратного распространения ошибки.

### Как применить нейронную сеть для задачи классификации?

Представим, что у нас есть некоторые объекты в признаковом пространстве. Объекты задаются тремя числами, и у нас есть три компонента этого вектора.

Мы так построили нейронную сеть, что у неё есть три входных нейрона — как раз соразмерно входному вектору. Например, мы хотим сделать бинарную классификацию на два класса: фиолетовый и оранжевый. Поэтому мы сделали в нашей сети два выходных нейрона. Допустим, мы уже как-то обучили нейронную сеть. Как теперь её использовать?

Ставим на вход сети наш вектор из трёх компонентов, делаем прямое распространение  по тем формулам, что описаны выше, и получаем два значения на выходе. Они уже отвечают на вопрос, к какому классу принадлежит объект, но после некоторого специального нормирующего преобразования мы получаем другие два числа — $P_1$, и $P_2$. Именно они уже явно характеризуют вероятность принадлежности к первому или второму классу. На выходе нейронной сети в случае классификации — распределение вероятностей принадлежности к тому или иному классу.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/ae8a93d8e7bee26ac3509eb78d8c5630/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_9.png)

# 4. Как обучить нейронную сеть?

Нейронные сети **обучаются с помощью обучения с учителем**, или на примерах. Для этого нужна обучающая выборка, которая состоит из пар «входной объект — выходной объект». Мы подаём эту обучающую выборку в процесс обучения, который состоит в том, чтобы найти такие параметры **модели W**, чтобы наша нейронная сеть правильно предсказывала те самые ответы, которые мы уже знаем.

Таким образом мы решаем задачу минимизации (оптимизации): мы минимизируем ошибку на тех примерах, которые есть в нашей обучающей выборке.

Ошибку можно записать по-разному:

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/07277b4c296443c85ebb369babf51760/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_10_2.png)

Здесь она записана как разница между **правильным ответом $D$** и **предсказанием сети $G_W(Z)$**. От этой разницы мы берём норму и получаем скаляр, который хотим минимизировать по всей обучающей выборке. Затем мы ищем такие веса (нижнее соотношение $W^*$), которые минимизируют эту ошибку.

### Как решать задачу оптимизации 

Для этого есть различные способы. В теории оптимизации есть такой известный алгоритм, как **градиентный спуск** — объясним его смысл на примере.

Допустим, у вас есть какая-то функция (здесь представлена одномерная функция, но в общем случае она может быть и многомерной), и вы хотите найти её минимум. Вы стоите в некоторой точке, и вам нужно понять, в какую сторону двигаться из этой точки, чтобы приблизиться к минимуму. Есть вектор, который называется **градиент** — он указывает в сторону возрастания функции. Градиент со знаком «минус» (антиградиент) указывает в сторону убывания функции.

Подобный алгоритм предлагает двигаться в сторону антиградиента и таким образом приближаться к локальному минимуму.

Итак, мы вычислили градиент, и с некоторым **параметром α**, который ещё называют **learning rate** (скорость обучения), мы прибавляем этот антиградиент к текущем весам — так получается итерационное движение к минимуму.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/4480010d90260a7aac5504fcff8ca27b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_11.png)

В случае нейронных сетей используется небольшая модификация — **стохастический градиентный спуск**. Отличие от предыдущего градиентного спуска в том, что мы вычисляем градиент не на всех образцах выборки, а только на одном образце за одну итерацию или на группе образцов.

### Как вычислить градиент?

Это вектор или даже некоторый **тензор**, размерность которого совпадает с размерностью всех наших обучаемых параметров.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/26eb057a00c5896bffe1bf315d3cdae8/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_12.png)

Градиент может особенно зависеть от слоёв, далёких от той ошибки, от которой мы считаем градиент. Например, у нас ошибка зависит от параметров первого слоя очень сложным образом, и, тем не менее, мы всё равно можем вычислить градиент с помощью алгоритма обратного распространения ошибки (backpropagation), который заключается в том, что мы используем  правила дифференцирования сложной функции.

Нейронная сеть, даже если она представляет собой сложную функцию — на самом деле просто композиция каких-то маленьких простых вещей, например умножили на матрицу, прибавили вектор, взяли поэлементную матрицу и так далее. Используя такое дифференцирование сложной функции, можно узнать, как наша ошибка зависела от параметров второго слоя через это цепное правило. Именно таким образом можно вычислить градиент по любому весу и по всем весам.

### Для каких задач применять?

* классификация;
* регрессия;
* машинное зрение.

# 5. Задача компьютерного зрения

**Задача компьютерного** зрения состоит в отображении визуальной информации (изображения или видео) в высокоуровневую, семантическую информацию. 

В **классификации** изображений на входе находится картинка, на выходе — метка класса.

При **детектировании** и **локализации** объектов, помимо классификации, даётся ограничивающий прямоугольник или локализация, где тот или иной объект присутствует на изображении.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/f083ea0e6032854de6718e4e1c1fd6d0/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_13.png)

**Семантическая сегментация** — более сложная задача, в ней классифицируется каждый пиксель изображения, или выделяются некоторые сегменты на изображении, и каждому сегменту присваивается какая-то метрика.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/d3b2e2e4e5d955529cbb927e39df1f36/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_14.png)

Основная трудность этих задач в том, что изображение представляет собой огромный объём неструктурированной информации, к которой непонятно, как подойти — это просто какие-то числа RGB. В машинном зрении ещё до прихода нейронных сетей использовались **признаки**. Признаки — это то, что  описывает изображения. Особенности изображения записываются в виде уже осмысленного высокоуровневого вектора. Далее к этому вектору применяется алгоритм классификации и получается ответ.

В итоге решение задачи сводится к двум частям:

1. Извлечение признаков.
2. Подача признаков в алгоритм машинного обучения.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/63bfbe9589973005d658d4f6d30b4402/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_15.png)

До появления машинного зрения все признаки создавались инженерами, которые анализировали изображение и вручную кодировали то, как должны выглядеть признаки.

**Свёртка** — это способ извлечения признаков.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/5fa6a57300c3979fe672cc3a032188f8/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_16.png)

# 6. Где взять ядро свёртки?

Идея свёрточных нейронных сетей состоит в том, чтобы использовать свёртку как специальный тип слоя в нейронной сети.

Обратимся к предыдущему примеру:

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/bf6ce48ff66bcc5fa83a313545e8cb68/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_17.png)

Посмотрим на свёртку: здесь видно, что у нас используется некоторая линейная операция для вычисления значения в выходной матрице. Такая же линейная операция использовалась нами в нейронных сетях. 

Вернёмся:

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/4576ea7e79d49e331cbecddf24f46c4c/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_18.png)

Разница в том, что нейроны уже связаны в соседних тензорах: не каждый с каждым, а только какая-то группа нейронов во входном слое связана с одним нейроном в выходном слое. Именно так и делается в свёрточных нейронных сетях. 

Веса в ядре свёртки получаются с помощью оптимизации. Теперь они соответствуют связям между нейронами. Таким образом, мы получили автоматически обучаемые ядра свёрток или, другими словами, **обучаемые признаки** (в отличие от тех признаков в компьютерном зрении, которые использовались ранее, когда люди задавали их вручную).

**Основная идея глубокого обучения** — не просто изучение признаков, а извлечение их иерархии: извлечение признаков вышестоящего уровня в пространстве нижестоящего.

# 7. Что такое Deep Learning? Типы слоёв

**Deep Learning** — это обучение иерархии признаковых представлений.

Что здесь важно: 

* Тут есть признаки: сначала из входных данных извлекаются признаки, и дальше работа идёт уже с ними. 
* Тут есть обучаемые признаки: мы делаем так, чтобы нейронная сеть извлекала их автоматически.
* Тут не просто один слой признаков — здесь иерархия признаков. 

Какие типы слоёв бывают в таких сетях?

* Свёрточный слой.
* Понижение размерности (Pooling):
    * локальное усреднение;
    * локальный максимум.
* Полносвязный слой (Fully-connected).

# 8. Обработка последовательностей

Обработка последовательности с использованием рекуррентных нейронных сетей состоит в том, что после каждой обработки какого-то элемента последовательности сеть запоминает всё, что уже было до этого. То есть нейронная сеть обладает своеобразной внутренней памятью.

Более сложные рекуррентные сети:

* [LSTM](https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%BB%D0%B3%D0%B0%D1%8F_%D0%BA%D1%80%D0%B0%D1%82%D0%BA%D0%BE%D1%81%D1%80%D0%BE%D1%87%D0%BD%D0%B0%D1%8F_%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D1%8C%C2%A0);
* [GRU](https://ru.wikipedia.org/wiki/%D0%A3%D0%BF%D1%80%D0%B0%D0%B2%D0%BB%D1%8F%D0%B5%D0%BC%D1%8B%D0%B9_%D1%80%D0%B5%D0%BA%D1%83%D1%80%D1%80%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B9_%D0%B1%D0%BB%D0%BE%D0%BA%C2%A0).

Где применяются рекуррентные нейронные сети:

* умная клавиатура;
* анализ комментариев;
* машинный перевод;
* чат-боты;
* распознавание речи;
* отображение изображений в текст.

# 9. От распознания к синтезу

**Синтез** — это обратная задача, то есть перевод информации высокого уровня в информацию низкого уровня. 

На примере человека: восприятие и творчество.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/eb4f06ccc91e7452e207b7649bfa6e50/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_19.png)

На примере работы техники: распознавание и синтез.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/a29fa8d8bfd596d6c2ecd41e6dc7ba5b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_20.png)

# 10. Состязательные сети

Идея **состязательной сети** (GAN — Generative Adversarial Networks) состоит в том, чтобы построить вторую сеть, которая называется **дискриминатор**. Это просто бинарный классификатор: на входе — изображение, а на выходе — ответ с предположением, реальное изображение или синтезированное. 

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/4bb4ebfc58e0a93e8e0d6dd603590c0b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_21.png)

**Важный момент**: генератор должен учиться обманывать дискриминатор. Эти сети учатся параллельно, играя в антагонистическую игру, и в итоге мы получаем идеальный генератор и идеальный дискриминатор.

Примеры применения:

* синтез изображений;
* преобразование текста в изображение;
* отображение изображения в изображение;
* отображение видео в видео;
* синтез речи ([Wavenet](https://en.wikipedia.org/wiki/WaveNet%C2%A0));
* отображение аудио в видео.

# 11. Причины успеха

Причины успеха глубокого обучения:

* совершенствующиеся алгоритмы и архитектуры;
* доступные объёмы данных;
* ускорение обучения и вывода с помощью GPU.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/9a570b2dddd4220ffe451100a9cc8871/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DL_1_%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_22.png)

# 12. Теоретическое резюме

**Решаемые задачи**: отображение X в Y.

► Текст, изображения, видео, звук, низкоразмерные данные.

Типы архитектур:

* Для распознавания и синтеза визуальных данных → **свёрточные** сети (**CNN**).
* Для распознавания и синтеза последовательностей → **рекуррентные** сети (**RNN**).
* Для улучшения качества синтеза → **состязательные** сети (**GAN**).

**Факторы успеха**: топология, данные, железо (GPU).

# 13. Практика. Открываем ноутбук в Colab

Используемый в видео notebook: [mnist_intro.ipynb](https://lms-cdn.skillfactory.ru/assets/courseware/v1/1b43a90a5ed21fc41db22b85f39ec798/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/mnist_intro.ipynb)

Вы можете сохранить себе ноутбук из примера.

**MNIST** — задача классификации рукописных цифр. В ней есть десять классов: цифры от 0 до 9.

[Google Colab](https://colab.research.google.com/notebooks/welcome.ipynb#recent=true) — облачный Jupyter notebook от Google. Для сохранения всех ваших действий в ноутбуке советуем залогиниться в аккаунте Google.

# 14. Практика. Линейная модель

Используемый в видео notebook: [mnist_intro.ipynb](https://lms-cdn.skillfactory.ru/assets/courseware/v1/1b43a90a5ed21fc41db22b85f39ec798/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/mnist_intro.ipynb)

Начинаем с импорта следующих библиотек:

* **numpy** — для матричных операций;
* **sklearn** — для моделей машинного обучения;
* **matplotlib** — для графиков;
* **tensorflow** — для загрузки dataset MNIST.

## Как работает линейная модель?

Например, есть модель логистической регрессии: она взвешивает коэффициентами все наши признаки и прогоняет через логистическую функцию. Такую модель можно быстро обучать с помощью градиентного спуска, который немного меняет параметры этой модели на каждой интеграции, тем самым улучшая качество. Довольно быстро модель находит линию, которая разделяет два класса в нашем примере. 

Чтобы обучить нашу модель, необходимо подать вектор признаков на вход линейной регрессии. Сейчас у нас есть двумерная картинка размера 28 × 28. Вытягиваем картинку построчно в вектор с помощью функции **reshape**.

Прежде чем обучать линейную модель, данные лучше отцентрировать и отнормировать с помощью **StandardScaler**.

После этого мы можем обучить линейную модель с помощью **градиентных методов оптимизации**.

# 15. Практика. Бустинг

Используемый в видео notebook: [mnist_intro.ipynb](https://lms-cdn.skillfactory.ru/assets/courseware/v1/1b43a90a5ed21fc41db22b85f39ec798/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/mnist_intro.ipynb)

На основе деревьев решений работает **градиентный бустинг**. Он строит следующие деревья, которые будут ещё лучше решать поставленную задачу, исправляя ошибки предыдущих деревьев.

**GradientBoosting** — переборный алгоритм: перебирает он много и достаточно долго, поэтому для реальных картинок лучше использовать другой алгоритм.

# 16. Практика. Нейронная сеть

**Нейросеть** строит сложную функцию логистических регрессий. Наслоение логистических регрессий усложняет функцию, но не усложняет способ её обучения.

Для оптимизации всех параметров нам не нужен перебор — мы можем посчитать производную потерь по каждому из параметров и немного их подвинуть.

**MLPClassifier** — полносвязная сеть. Позже мы рассмотрим её более подробно.

# 17. Домашнее задание

В первом домашнем задании вам предстоит **улучшить модель** из ноутбука, рассмотренного в практической части модуля, в соответствии с собственной интуицией, а затем поделиться результатами в канале модуля в Slack.

Это **разогрев** перед более сложным материалом и полезное упражнение, чтобы в дальнейшем научиться осознанно совершенствовать модель.

Желаем успехов в выполнении задания!