# Добро пожаловать в мир дифференцируемых функций

Для начала небольшой ликбез, кто в школе ещё не проходил начала анализа.

**Производная**. Интуитивно, производной называют скорость изменения функции. Её можно записать так:

$$ f'(x) = \frac{f(x+\Delta x) - f(x)}{\Delta x}, \quad \Delta x \to 0 $$

Её в основном считают, пользуясь этим определением. Например для функции $x^2$ она такая:

$$ f'(x) = (x^2)' = \frac{(x+\Delta x)^2 - x^2}{\Delta x} = \frac{2x\Delta x + \Delta x^2}{\Delta x} = 2x + \Delta x \to 2x $$

У производной очень много полезных свойств, позволяющих нам исследовать функции. Например, у нас есть такое свойство, что в точке экстремума (то есть минимума, максимума или «седловой точки») производная должна равняться нулю. Поэтому большинство простых задач на оптимизацию функции заключается в том, чтобы посчитать её производную (не фиксируя $x$), приравнять к нулю и посмотреть, в каких точках это равенство выполняется. 

**Градиент**. Что, если у нас фукция от нескольких переменных? В таком случае вводят обобщение производной — градиент. Это вектор (просто набор чисел), каждой компонентой которого является значение производной по очередному аргументу при фиксированных остальных.

**Ок, зачем он нужен?** Пусть у нас есть какая-нибудь функция, которую мы хотим минимизировать, и у нас есть предположение, что она имеет вид какой-нибудь гладкой ямы. Тогда мы будем действовать так: начнем с какой-нибудь точки и будем делать много очень маленьких шажков в сторону наибольшего уменьшения функции, пока не придем в локальный минимум.

* Что значит «в сторону наибольшего уменьшения»? Это значит «против градиаента».
* Что значит «пока не придём в локальный минимум». Это значит «пока градиент не ноль».

![grad_descent](images/gradient_descent.png)

Если learning rate достоаточно маленький, мы точно придем в локальный минимум. Но, возможно, не глобальный. Гарантированно находить глобальный минимум произвольной функции наука не умеет.

Как найти минимум такой функции? Давайте сделаем много маленьких шагов против градиента. Рано или поздно мы придем в минимум, хотя бы локальный.

В принципе, мы бы могли считать градиент численно — просто сделать для каждого параметра это маленькие изменение и посмотреть, насколько стало лучше. Это возможно, но просто *безумно* долго: для каждого параметра нам нужно прогнать все ещё раз.

# Ок, зачем это надо?

Определим следующую «иерархию хороших функций»:

* Аналитически решаемые, то есть минимум которых можно выразить какой-то простой формулой. Например, таким является линейная регрессия — можно взять производную, приравлять к нулю и выразить сразу все параметры.
* Выпуклые. У них гарантируется решение, причём единственное. Его можно найти разными методами, в частности градиентным спуском, но обычно даже быстрее, чем спуском. Пример: логистическая регрессия.
* Дифференцируемые. К ним можно применить градиентный спуск, но нужно очень много изворачиваться, чтобы он сошелся не к локальному минимуму, а к глобальному. **<-- YOU ARE HERE**
* Дискретные. Тут всё грустно, но нам хотя бы можно быстро узнать её значение.
* Невычислимые. Иногда нам нужно оценивать что-нибудь совсем не формализуемое математикой — например, качество перевода, или поведение пользователя. Невычислимыми функциями в частности занимается Reinforcement Learning.

Глубокое обучение — это про все методы, чьи функции потерь достаточно хорошие — то есть имеют производную.

Для деревьев и линейных методов не обязательно понимать алгоритм, как они обучаются — это происходит вседа быстро. Для нейронных сетей это важно, потому что они самые общие, но и самые долгие для обучения. Иногда обучение нейросети может занимать по несколько недель на очень дорогом железе.

В словосочетании «Deep Learning» автор понимает слово «Deep» как «непонятно, за что отвечает этот конкретный параметр» и как «дифференцируемое».

Чтобы понимать DL, вам **нужно** сначала понять производные и градиентный спуск.

# Почему сейчас

Вообще, очень много чего было изобретено в 90е. Во-первых, было мало данных, во-вторых, вычислительных пощностей. С 1990 по 2010 «обычные», лежащие на полках магазинов GPU стали в 5000 раз быстрее, что позволило обучать нейросети людям без доступа к суперкомпьютерам.

Помимо железа и данных,
* Лучшие функции активации. Когда-то использовали везде сигмоиду из-за её теорерной интерпретации, потом исследовали проблему затухающего градиента.
* Лучшие функции потерь. Когда-то использовали везде MSE.
* Техники инициализации весов. Инициализировать всё константой **очень** неправильно — все активации будут очень малыми. Сейчас инициализация работает так, чтобы 
* Фреймворки, позволяющие не считать градиенты самому и значительно упрощающие код. За 10 строчек в примере в конце тетрадки на самом деле стоят тысячи строк кода Keras и десятки тысяч строк кода более низкоуровневых библиотек, на котором в свою очередь строится он сам.
* Улучшения градиентного спуска. Например, Adam и RMSProp.

**Мотивация**. Нейросети отличаются от других методов тем, у них функции ошибки всегда «гладкие» — если чуть-чуть изменить значение отдельного параметра, то вывод сети почти не изменится.

![hierarchy](images/hierarchy.png)

Основная

Наш мозг является вдохновлением, а не объектом для реверс-инжениринга. По началу можно будет проводить аналогии с мозгом, но с какого-то момента модели будут настолько дикие, что ...

![nn](images/nn.png)

## Ок, как их обучать?

**Эта часть важна**. Достаточно простые шняги — линейная и логистическая регрессия, например — имеют аналитическое решение.

Автор выделяет несколько классов «хороших» функций.

* Аналитические решаемые. Например, таким является лосс в MSE — можно взять производную, приравлять к нулю и выразить сразу все параметры.
* Выпуклые. У них гарантируется решение, причём единственное. Его можно найти разными методами, в частности градиентным спуском.
* Дифференцируемые. К ним можно применить градиентный спуск, но нужно очень много изворачиваться, чтобы он сошелся не к локальному минимуму, а к глобальному. **<-- YOU ARE HERE**
* Дискретные. Тут всё грустно, но нам хотя бы можно быстро узнать её значение.
* Невычислимые. Иногда нам нужно оценивать что-нибудь совсем не формализуемое математикой — например, качество перевода, или поведение пользователя. Невычислимыми функциями в частности занимается Reinforcement Learning.

**Производная**. Интуитивно, производной называют скорость изменения функции. Её можно записать так:

$$ f'(x) = \frac{f(x+\Delta x) - f(x)}{\Delta x}, \quad \Delta x \to 0 $$

Чуть формальнее вам объяснят на курсе матана. Её в основном считают, пользуясь этим определением. Например для функции $x^2$ она такая:

$$ f'(x) = (x^2)' = \frac{(x+\Delta x)^2 - x^2}{\Delta x} = \frac{2x\Delta x + \Delta x^2}{\Delta x} = 2x + \Delta x \to 2x $$

**Градиент**. Градиентом какой-либо функции называют специальный вектор, составленный из производных по разным параметрам.

Как найти минимум такой функции? Давайте сделаем много маленьких шагов против градиента. Рано или поздно мы придем в минимум, хотя бы локальный.

В принципе, мы бы могли считать градиент численно — просто сделать для каждого параметра это маленькие изменение и посмотреть, насколько стало лучше. Это возможно, но просто *безумно* долго: для каждого параметра нам нужно прогнать все ещё раз.

Придумали способ посчитать градиент эффективно — за один прогон суммарно — основывающийся на следующем свойстве производной:

$$ f(g(x))' = f'(g(x)) g'(x) $$

TODO: доказать его

Как этот факт можно использовать? Вспомним, что сеть — это вычислительный граф. Как конкретный параметр влияет на функцию потерь? Ну, он куда-то дальше передается. Точнее, он передается последовательно в $n$ функций дальше:

$$ f_x = f_1(f_2(\ldots f_n(x))) $$

Производной такой штуки будет, соответственно,

$$ f'_x = f_1'(x) f_2(\ldots f_n(x))) $$

TODO: как-нибудь нормально записать

Получается, мы можем *рекурсивно* посчитать градиент следующих вершин в графе, и после этого мы сразу можем посчитать градиент текущей вершины.

![grad_descent](images/gradient_descent.png)

# Backpropogation

По сути, это решение задачи «посчитай все производные» динамическим программированием, если кто занимался алгоритмами.

Нейросеть — это просто последовательность простых тензорных операций, у каждой из которых мы можем посчитать градиент.

Алгоритм обратного распространения ошибки посдсчитывает все градиенты, начиная с конечного значения целевой функции. Он считает «вклад» каждого параметра.

Не всегда inference будет работать так же как и train (и не всегда его можно будет посчитать за такое же время), но на первых занятиях это будет так.

## Стохастическая версия

Обратим внимание, что мы делаем *маленький* шаг. Но данных у нас много. Чтобы для всех вычислить градиент, потребуется много ресурсов.

Нам не обязательно считать все — достаточно взять какой-нибудь кусок данных (его называют batch) — и посчитать градиент только на нем. Градиент получается достаточно хорошим, если batch достаточно большой и репрезентативный.

## Фреймворки

У нас 12 дней, а не 6 лет, поэтому мы не будем вдаваться в подробности, как эти производные считаются аналитически. Это не очень сложно, но довольно трудоемко. Это сделали за нас.

Все фреймворки сейчас разделяются на 2 типа: статические (TensorFlow, Theano) и динамические (PyTorch, Chainer). Также есть обертки над ними (Keras), которые упрощают жизнь и абстрагируют целые слои и процедуры.

Выбор фреймворка — настоящая религиозная война. Автор пишет на PyTorch, но так как курс у нас не очень долгий, то будет писать все на Keras.

# MNIST

Есть стандартный датасет. В нем 50000 картинок, по 5000 на каждую цифру от 0 до 9. Требуется распознать их.

In [1]:
import keras
from keras.layers import Dense # «плотный» слой — матричное умножение
from keras.models import Sequential # вспомогательный класс, позволяющий последовательно выполнять операции
from keras.optimizers import SGD # Stochastic Gradient Descent

Using TensorFlow backend.


In [2]:
from keras.datasets import mnist # датасет настолько известный, что он есть по умолчанию почти везде
#(x_train, y_train), (x_test, y_test) = mnist.load_data()
(X, y), _ = mnist.load_data()

Особенности формата: сейчас каждая картинка представляет собой трехмерные массивы (напомним, что многомерные массивы называют тензорами) размера n x 28 x 28. Мы хотим представить каждую как вектор размера $784 = 28^2$.

In [12]:
X = X.reshape(60000, 784)

Ещё одна деталь: инициализация весов — отдельное искусство. В фреймворках оно опять же сделано за нас. Но сделано оно так, что предполагает, что входные данные — числа от 0 до 1, а сейчас они от 0 до 255. Исправим это:

In [13]:
X = X.astype('float32')
X /= 255

## Какой лосс использовать для классификации?

Есть такой принцип максимального правдоподобия.

Давайте максимизировать произведение вероятностей истинных событий. Звучит логично.

$$ L = \prod p_i $$

Произведение оптимизировать очень не удобно. Давайте воспользуемся следующим трюком: давайте возьмем логарифм (любой, ведь все логарифмы отличаются в константу раз) и будем максимизировать сумму:

$$ \log L = \log \prod p_i = \sum \log p_i $$

Эту штуку называют кроссэнтропией. Такое название пошло из теории информации, но нам пока знать это не надо.

Для удобноства вместо чисел — от 0 до 9 — сконвертируем их в вектора размера 10, где будет стоять единица в нужном месте, и тогда функция потерь запишется так:

...

Такая кодировка называется one-hot.

In [14]:
y = keras.utils.to_categorical(y_train, 10)

Давайте сохраним этот пайплайн. Он нам понадобится.

In [None]:
# save mnist

Собственно, вот в чем прелесть Keras: не нужно думать о размерах матриц, например.

In [15]:
model = Sequential([
    Dense(512, activation='relu', input_shape=(784,)),
    Dense(128, activation='relu'),
    Dense(64, activation='relu'),
    Dense(10, activation='softmax'),
])

Есть специальная функция, которая позволит проверить, что мы все сделали правильно.

In [16]:
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 512)               401920    
_________________________________________________________________
dense_2 (Dense)              (None, 128)               65664     
_________________________________________________________________
dense_3 (Dense)              (None, 64)                8256      
_________________________________________________________________
dense_4 (Dense)              (None, 10)                650       
Total params: 476,490
Trainable params: 476,490
Non-trainable params: 0
_________________________________________________________________


Keras оборачивает *статические* фреймворки. Им нужно скомпилировать сеть, заранее передав функцию потерь, оптимизатор и, опционально, желаемые метрики.

In [19]:
model.compile(loss='categorical_crossentropy',
              optimizer=SGD(),
              metrics=['accuracy'])

history = model.fit(X, y,
          batch_size=32,
          epochs=50,
          validation_split=0.1)

Train on 60000 samples, validate on 10000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7f7c1f5dbf28>

In [None]:
plt.plot(history.history['acc'], c='r')
plt.plot(history.history['val_acc'], c='ro')

Попробуйте поиграться с параметрами сети. Попробуйте поставить другую функцию потерь, чтобы убедиться, что кроссэнтропия действительно лучше всех коррелирует с точностью.