## Юнит 8. Введение в нейронные сети
### Skillfactory: DSPR-19
### DL-2. Практика с основными фреймворками 

### 1. Уровни абстракции

Самое время приступать к практике с основными фреймворками! В этом модуле мы научимся работать с двумя — **TensorFlow** и **PyTorch.**

Но для начала разберёмся, насколько глубоко мы вообще можем погружаться в обучение нейросетей.

Существует несколько уровней абстракции, на которых мы можем сконструировать нейросеть:

- **Нижний уровень (NumPy)** — нет готовых высокоуровневых блоков, нет оптимизаторов, отсутствует возможность параллельных расчётов и использования GPU. Используется в учебных целях для иллюстрации принципов работы нейросетей.
- **Фреймворки автоматического дифференцирования (PyTorch и TensorFlow)** — вы определяете вычислительный граф и некоторые гиперпараметры, а всё остальное фреймворк делает за вас. Позволяет строить нейросети произвольной сложности.
- **Фреймворки готовых моделей (Transformers и DeepPavlov)** — скрывают технические детали самой нейросети и представляют высокоуровневый интерфейс для основных операций: обучения и инференса. Являются обёртками для больших и сложных нейросетей.

### ФРЕЙМВОРКИ АВТОМАТИЧЕСКОГО ДИФФЕРЕНЦИРОВАНИЯ 

Рассмотрим, какие фреймворки представлены на рынке.



### 2. Вспоминаем линейную классификацию

Прежде чем знакомиться с фреймворками, давайте снова поговорим о том, что такое линейная классификация. Это нам обязательно пригодится далее.

### ЛИНЕЙНАЯ КЛАССИФИКАЦИЯ 

Представьте, что у нас есть признаки x = (x1, x2) и есть выборка положительных и отрицательных точек y ∈ {+1, −1}

Нам нужно найти разделяющую гиперплоскость между ними. В данном случае это просто линия. Линия задаётся тремя коэффициентами:

Нам нужно найти три коэффициента w, которые зададут линию. Далее мы можем взять точку х и понять, где она находится относительно линии: выше или ниже. Для этого нам нужно узнать знак линейной комбинации. Вектор весов w задаёт нормаль к нашей линии, то есть он перпендикулярен ей (фиолетовый вектор на графике ниже).

Линейная комбинация — это скалярное произведение и длина проекции какого-нибудь другого вектора на наш вектор w.

Поэтому проекция становится разных знаков. Из этих соображений мы делаем линейный классификатор. Наш алгоритм: 

Здесь появляется знак нашей линейной комбинации. Настроить линейный классификатор — значит найти эти коэффициенты. 

### ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ 

Она тоже решает задачу классификации, но в конце применяется не функция знака, а сигмоидная функция. Она превращает длину проекции в уверенность.

Уверенность и неуверенность появляется из-за краевых эффектов: на границе классов может быть какой-то шум, и в классификации точек, которые находятся рядом с красной разделяющей линией, мы не очень уверены. 

А если мы уходим далеко от линии вглубь классов, то предполагается, что мы более уверены в этом предсказании. Сигмоида делает именно это — превращает длину проекции линейной комбинации в уверенность.

Сигмоида устроена не случайным образом:

Если длина проекции 0 (точка ровно на красной линии) , то сигмоида даёт . Логистическая регрессия предсказывает вероятность положительного класса. Вероятность отрицательного будет единица минус предсказанная вероятность положительного класса. 

#### ДРУГОЙ ПРИМЕР 

Представим, что у нас есть следующая задача:

Чтобы решить подобную задачу, мы можем «подпереть» треугольник тремя линиями и сделать алгоритм, используя только логистическую регрессию.

Для начала мы отделим минусы слева и построим логистическую регрессию:

Эти данные подадим для обучения логистической регрессии и получим коэффициенты красной линии. 

Отделим остальные минусы:

Все коэффициенты мы получили практически вручную. Сейчас у нас есть коэффициенты трёх логистических регрессий, каждая из которых решает свою маленькую подзадачу. 

Теперь возьмём какую-нибудь точку и посмотрим, какие три предсказания дают эти линии в точке:

### ЧТО ДЕЛАТЬ С ЭТИМИ ТРЕМЯ ЗНАЧЕНИЯМИ? 

В координатах х1 и х2 эта задача не решается. Поэтому полученные коэффициенты мы можем рассматривать как новые координаты. 

Получим три признака, каждый из которых говорит, где мы находимся относительно каждой стороны треугольника. 

Давайте возьмём наш целевой признак y, добавим его в нашу новую таблицу, где наши новые признаки с предсказаниями, и попробуем решить её с новыми признаками с помощью линейной логистической регрессии. На новой выборке получим логистическую регрессию:

Теперь она даёт нам некоторые коэффициенты и взвешивает уже не признаки, а предсказания. То, что мы получили — простейшая нейросеть.

### Задание 2.1
Почему в логистической регрессии используется Сигмоида, а не Знак (sign)?  

Ответ: Сигмоида плавная и непрерывная, что позволяет её дифференцировать верно

### 3. Граф вычислений


На данный момент мы «руками» нашли параметры всех линий:

При этом на нашу сложную комбинацию функций можно посмотреть как на граф вычислений. У графа есть вершины, и каждая вершина — вычисляемое значение.

Также есть рёбра — зависимости, которые имеют направления (на картинке ниже это стрелочки). Ребро идёт от х1 к z1 в случае, если нам необходим х1, чтобы вычислить значение z1. Это граф зависимости между вычисляемыми значениями:

Граф соответствует комбинации наших функций. Такой граф называют многослойным персептроном, и здесь уже можно видеть некоторые слои:

- входной слой (признаки);
- скрытый слой (нейроны);
- выходной слой (предсказания).

### НЕЛИНЕЙНОСТИ В НЕЙРОНАХ 

Возьмём в качестве примера следующий граф:

Если нелинейности убрать, то на этом примере видно, что наша модель станет очень простой: мы можем подставить выражения для z1 и z2 в нашу модель а:

Мы можем раскрыть скобки, привести подобные слагаемые и всё, что мы получим — линейную комбинацию х1 и х2. При этом модель сложнее не становится.



### Задание 3.1
Зачем перцептроны делают многослойными?  

Ответ: Несколько слоёв позволяют разделить данные, которые не делятся одной линией 

### Задание 3.2
Что будет, если убрать нелинейность из скрытого слоя?  


Ответ:  
- Скрытого слоя как бы не станет
- Модель не сможет работать со сложными данными, не делящимися одной линией


### 4. MLP

**MLP** — это простейший пример нейросети:

Слои в MLP называют:

- Dense layer (плотный);
- Fully-connected layer (полносвязный).

### Архитектура MLP:

- количество слоёв;
- количество нейронов в каждом слое;
- функция активации, которую будем использовать.


### Задание 4.1

Какие из параметров обучаемые, а какие являются гиперпараметрами нейросети?

Параметр | Вид
:-- | :--
__Веса связей между входными нейронами и слоем Z__ |	Обучаемые параметры 
__Количество нейронов в слое Z__ |	гиперпараметры
__Функция активации в слое Z__ |	гиперпараметры
__Веса связей между слоем Z и слоем H__ |	Обучаемые параметры

### 5. TensorFlow

**TENSORFLOW (TF) — DEEP LEARNING ФРЕЙМВОРК**

Основа вычислений в **TF — граф**. Каждая вершина графа — это одна операция, у которой есть входы и выходы.

- Вход любой операции — это набор тензоров (многомерных массивов).
- Выход любой операции — это тоже набор тензоров.  

А у нас целый граф операций, между которыми перекидываются тензоры.

#### Дополнительные материалы:
https://www.oreilly.com/content/hello-tensorflow/


### Задание 5.1
Тензором являются:
- данные, поступающие на вход
- веса связей между слоями
- ошибка предсказания

### 6. Пример обучения


Функция потерь обычно дифференцируемая. Если представить, что у нас есть параметр w, который нужно оптимизировать, то мы можем начать с любой точки (initial weight) и посчитать в ней производную. В данном случае это tg наклона касательной.

В качестве дополнительной литературы рекомендуем ознакомиться с визуализацией обучения нейронной сети с помощью **TensorFlow Playground** (http://playground.tensorflow.org/)

### Задание 6.1
Какое минимальное количество нейронов должно быть в скрытом слое, чтобы решить задачу Exclusive OR с test loss < 0.1?
(задача Exclusive OR): Exclusive OR  
    
Ответ: 3

### Задание 6.2
Почему задача Gaussian всегда решается с хорошим качеством (test loss < 0.01), а задача Exclusive OR не всегда сходится, даже при достаточном количестве нейронов скрытого слоя?  

(задача Gaussian): Exclusive OR

(задача Exclusive OR): Exclusive OR  

Ответ: Задача Exclusive OR имеет несколько минимумов 

### 7. Детали градиентного спуска: цепное правило


### Задание 7.1
Обязательно ли применять цепное правило для расчёта производной функции?  

Ответ: да, нет, да, нет

### 8. Граф вычисления производных


### АЛГОРИТМ ВЫЧИСЛЕНИЯ ПРОИЗВОДНОЙ В ГРАФЕ 

Как посчитать производную a по b:

- Находим непосещённый путь из a в b.  
- Перемножаем значения на рёбрах в пути.  
- Добавляем в сумму.  
- Возвращаемся к п.1.


### Задание 8.1
Сколько слагаемых будет содержать производная графа из 2 скрытых слоёв, если в первом скрытом слое 3 нейрона, а во втором — 2?  

Ответ: 6

### 9. Пример одного нейрона


Рассмотрим, из чего он состоит по порядку:

x1, x2 — признаки. Это то, что подаётся на вход (плейсхолдеры);  
α, β — веса модели (переменные);  
звездочка*  — операции произведения (после идёт подсчёт суммы);  
s — применяем сигмоиду;  
z — записываем в новую переменную;  
L — функция потерь, которая берёт на вход правильные ответы y, предсказанные ответы z  и говорит, насколько они близки друг к другу;  
y — плейсхолдер, правильный ответ.  

Производные функции нам нужны, чтобы узнать как нужно изменить α и β, чтобы минимизировать наши потери: 

Для того чтобы взять производную, мы переворачиваем наш граф:



Для каждой стрелочки считаем производную. По сути нам нужно найти обратный путь от L до α:

Так же считается и по β:

В TF  все производные строятся автоматически и достаточно быстро. 

### Задание 9.1
Как изменится схема нашего графа, если вместо задачи бинарной классификации мы будем делать многоклассовую классификацию с тремя классами?  

Ответ:
- Количество выходных нейронов увеличится до 3
- Изменится функция потерь (Это будет кроссэнтропия)
- Изменится функция активации на выходном слое (Это будет softmax)

### 10. Цепное правило и граф производных


Теперь у нас есть алгоритм для подсчёта производных для любых дифференцируемых графов вычислений. Эффективный способ вычисления всех производных называется back-propagation (обратное распространение ошибки):

### BACK-PROPAGATION (BACK-PROP) 

В Back-propogation есть два прохода: прямой и обратный. Те производные, которые считает обратный граф, нужно считать в определённой точке. Именно для этого нужен прямой проход — он рассчитает аргументы всех этих производных:

### ИНИЦИАЛИЗАЦИЯ ВЕСОВ 

Мы не можем инициализировать нулями. 

Если на данном примере мы стартуем на нулевых весах, то w2 и w3 будут обновляться симметрично, а значит, мы не научим никакую сложную комбинацию за счёт простоты сети. Это называют симметрией. 

Чтобы сломать симметрию, мы можем использовать случайный шум.

В качестве дополнительной литературы рекомендуем вам прочесть статью «Step-by-step backpropagation example» (https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/)

### Задание 10.1
Зачем нужен прямой проход в backpropagation?  

Ответ: Чтобы рассчитать значения активаций каждого нейрона 

### 11. Практика. TF в Google Colab


Используемый в видео notebook: skillfactory-dl-2-screencast.ipynb. Notebook использует устаревшую версию TensorFlow, и изучать его не нужно.

В этом видео мы познакомимся со средой Google Colab и рассмотрим, что можно делать в TF.

Google Colab (https://colab.research.google.com/) — сервис, который позволяет запускать Juputer-ноутбуки, в которых есть видеокарты и много оперативной памяти.
Перейдём на страницу https://colab.research.google.com/notebooks/welcome.ipynb.

Рекомендуем вам залогиниться через аккаунт Google.
Используемый в видео notebook skillfactory-dl-2-screencast.ipynb сразу можно открыть в Google Colab.

Вы можете сразу изучить все комбинации клавиш во вкладке Tools — Keyboard chortcuts, например: Ctrl + Enter для запуска ячейки.

### 12. Практика

Ноутбук к скринкасту можно открыть в Google Colab.

### 13. Домашнее задание

В домашнем задании вам предстоит решить задачу классификации одежды по датасету Fashion MNIST с помощью Keras.

Для выполнения домашнего задания откройте Jupyter Notebook с инструкциями по решению задачи и сохраните его на свой Google Диск, с которого вы сможете работать на Google Colaboratory. 

Чтобы завершить домашнюю работу, введите свои ответы на вопросы в поля ниже. 

Удачи!


Ноутбук с решением:  

https://colab.research.google.com/drive/1NswpvRPhhrEPqwZjS08X0sex4d4R9RXI?usp=sharing

### Задание 13.1
Обучите сеть без скрытых слоев (постройте аналог обычной линейной модели). Какое accuracy вы получили на валидации?  

Ответ: ≥0.82 

### Задание 13.2
Обучите сеть с двумя скрытыми слоями по 128 нейронов в каждом. Какое accuracy на валидации получили?  

Ответ: ≥0.86

### Задание 13.3
Сколько параметров в последней сети?  

Ответ: 118282


### 14. Знакомство с PyTorch

**PyTorch** — такой же фреймворк автоматического дифференцирования, как и TensorFlow, поэтому, прежде чем приступать к знакомству с ним, рассмотрим, чем PyTorch отличается от последнего.

В дальнейшей работе с Deep Learning мы будем использовать именно PyTorch. Так в чём же его особенности?

**TensorFlow ↓**

- строим вычислительный граф из блоков;
- вся тренировка нейросети происходит внутри метода fit();
- нельзя контролировать промежуточные вычисления.  

**PyTorch ↓**

- центральное место разработки модели — цикл обучения;
- шаги обучения прописываются самостоятельно;
- можно контролировать промежуточные вычисления.


### Задание 14.1
Почему в Tensorflow нет цикла обучения?  

Ответ: Он есть внутри метода fit() и имплементирован на C++, потому недоступен извне 

### 15. Подробнее о тензорах
**Тензор** — структура данных, содержащая числа в виде массивов разной размерности.

Размерность | Название
:-- | :--
__0__ |	Скаляр 
__1__ |	Вектор
__2__ |	Матрица
__3__ |	Тензор

Именно так, по факту тензором называется массив размерностью не только 3, но и любых других размерностей. Его можно инициализировать списком значений или массивом Numpy.

PyTorch представляет более сотни разных операций над тензорами:

- Индексирование и слайсинг
- Арифметические операции: сложение, умножение, возведение в степень
- Матричные операции: конкатенация, стекинг, транспонирование

Давайте сделаем маленькое практическое задание для закрепления понимания.

Рассмотрим очень важную операцию в глубоком обучении — матричное умножение. Важно не путать поэлементное умножение и матричное умножение.

**В поэлементном умножении:**

- размеры матриц всегда совпадают;
- результат — матрица, где каждый элемент — произведение элементов из исходных матриц в соответствующих позициях.  

**В матричном умножении:**

- размеры матриц могут не совпадать;
- в каждой ячейке результирующей матрицы — скалярное произведение векторов соответствующего столбца и строки.

### Задание 15.1
В ноутбуке вы видите два тензора, которые инициализированы как матрицы 4 х 4.

Требуется выполнить три последовательных действия:
вычислить выражение;
сделать конкатенацию;
посчитать скалярное произведение первой и последней строки получившегося тензора.
Детально условия задания прописаны в ноутбуке. Результатом должно быть одно число.

Ответ: 50  

Ноутбук с решением здесь: https://colab.research.google.com/drive/14MvNh71f63g1ShKtQOUbJY5RukRxZFAa?usp=sharing

### Задание 15.2
Есть тензор из нулей размера 4 х 4

Нужно заполнить третью строку единицами. Выберите подходящий вариант:

Ответ: t1[2,:]=1


### 16. Обучение нейросети

Давайте теперь создадим полноценный скрипт обучения нейросети для решения задачи линейной регрессии.




### Задание 16.1
Какое минимальное количество данных нужно взять для тренировки, чтобы отклонение от правильного значения b было не более 2%?  

Ответ: > 500   

### Задание 16.2
Попробуйте в loss заменить MSE (среднеквадратичное отклонение) на MAE (абсолютное отклонение). Качество предсказаний после этого:  

Ответ: Ухудшилось

### 17. Конструируем нейросеть из блоков
Сейчас мы построим настоящую, «взрослую» нейросеть, выполняющую классификацию картинок одежды из датасета Fashion MNIST, с использованием которого вы уже делали классификатор на TensorFlow. Поскольку задача решается одна и та же, будет проще увидеть разницу между этими двумя фреймворками.


Ноутбук: https://colab.research.google.com/drive/1xzAiIDppRvmcctHE-JrsEHlRMlOR96IU?usp=sharing


### 18. Домашнее задание
В этом домашнем задании вам снова предстоит поиграть с параметрами задачи классификации одежды по датасету Fashion MNIST, теперь уже при помощи фреймворка PyTorch.

Для выполнения домашнего задания откройте Jupyter Notebook из прошлого урока и сохраните его на свой Google Диск, с которого вы сможете работать на Google Colaboratory. 

Чтобы завершить домашнюю работу, введите свои ответы на вопросы в поля ниже. 

Удачи!

### Задание 18.1
Обучите сеть без последних двух полносвязных слоёв и дропаута. Какое accuracy на валидации у вас получилось?  

Ответ: accuracy > 90%    

### Задание 18.2
Попробуйте увеличить learning rate до 0.01. Какое accuracy на валидации у вас получилось?  

Ответ: 85% < accuracy < 90%    

### Задание 18.3
Сделайте замер accuracy не на тестовом сете, а на трейнсете. Какое значение получилось (округлите до процентов)?  

Ответ: 92


### 19. Заключение
Вот и всё, друзья! ⭐

Конечно, мы прошли лишь малую часть того, что можно сделать на PyTorch, но на этом мы ни в коем случае не прощаемся с нейросетями.

Далее вас ждёт несколько недель профориентации, где вы сможете «потрогать» различные направления обучения и попробовать свои силы в них. А затем, в зависимости от специализации, вы будете изучать те или иные блоки, например свёрточные сети для компьютерного зрения и рекуррентные сети или блоки Attention для обработки естественного языка. 

На этом модуль завершается. Желаем вам успехов в выборе направления и дальнейшего постижения науки о глубоком обучении!
