<p style="align: center;">
    <img align=center src="../img/dls_logo.jpg" width=500 height=500>
</p>

<h1 style="text-align: center;">
    <b>Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ</b>
</h1>

---

<h1 style="text-align: center;">
    Производная и градиент
</h1>

**На основе https://github.com/romasoletskyi/Machine-Learning-Course**

## Приращение линейной функции

Давайте рассмотрим линейную функцию $y=kx+b$ и построим её график: 

<img src="../img/linear_models_derivative_8.svg"> 

Введём понятие **приращения** функции в точке $(x, y)$ как отношение вертикального изменения (измненеия функции по вертикали) $\Delta y$ к горизонтальному изменению $\Delta x$ и вычислим приращение для линейной функции:

$$
slope=\frac{\Delta y}{\Delta x}=\frac{y_2-y_1}{x_2-x_1}=\frac{kx_2+b-kx_1-b}{x_2-x_1}=k\frac{x_2-x_1}{x_2-x_1}=k
$$  

Видим, что приращение в точке у прямой не зависит от $x$ и $\Delta x$.

## Приращение произвольной функции

Но что, если функция не линейная, а произвольная? В таком случае просто нарисуем **касательную** в точке, в которой ищем приращение, и будем смотреть уже на приращение касательной. Так как касательная - это прямая, мы уже знаем, какое у неё приращение (см. выше).

<img src="../img/linear_models_derivative_9.svg" width=500> 

Имея график функции, мы, конечно, можем нарисовать касательную в точке. Но часто функции заданы аналитически, и хочется уметь сразу быстро получать формулу для приращения функциии в точке. Тут на помощь приходит **производная**. Давайте посмотрим на определение производной и сравним его с нашим понятием приращения:

$$
f'(x) = \lim_{\Delta x \to 0}\frac{\Delta y}{\Delta x} = \lim_{\Delta x \to 0}\frac{f(x + \Delta x) - f(x)}{\Delta x}
$$  

То есть, по сути, значение производной функции в точке - это и есть приращение функции, если мы устремляем длину отрезка $\Delta x$ к нулю.

Посомтрим на интерактивное демо, демонстрирующее стремление $\Delta x$ к нулю:

In [None]:
# !pip install ipywidgets

In [None]:
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

import matplotlib.pyplot as plt
import numpy as np

%matplotlib inline

In [None]:
@interact(scale=(-0.5, 4.0, 0.1))
def f(scale=1.0):
    z = 10**scale
    x_min = 1.5 - 6 / z
    x_max = 1.5 + 6 / z
    l_min = 1.5 - 4 / z
    l_max = 1.5 + 4 / z
    xstep = (x_max - x_min) / 100
    lstep = (l_max - l_min) / 100
    
    x = np.arange(x_min, x_max, xstep)
    
    plt.plot(x, np.sin(x), '-b')     
    
    plt.plot((l_min,l_max), (np.sin(l_min), np.sin(l_max)), '-r')
    plt.plot((l_min,l_max), (np.sin(l_min), np.sin(l_min)), '-r')
    plt.plot((l_max,l_max), (np.sin(l_min), np.sin(l_max)), '-r')
    
    yax = plt.ylim()    
    
    plt.text(l_max + 0.1 / z, (np.sin(l_min) + np.sin(l_max)) / 2, "$\Delta y$")
    plt.text((l_min + l_max) / 2, np.sin(l_min) - (yax[1] - yax[0]) / 20, "$\Delta x$")
    
    plt.show()
    
    print('slope =', (np.sin(l_max) - np.sin(l_min)) / (l_max - l_min))

Видим, что при уменьшении отрезка $\Delta x$, значение приращения стабилизируется (перестаёт изменяться). Это число и есть приращение функции в точке, равное производной функции в точке. Производную функции $f(x)$ в точке x обознают как $f'(x)$ или как $\frac{d}{dx}f(x)$.

### Пример вычисления проиводной

Возьмём производную по определению:

1. $f(x)=x$  

$$
\frac{\Delta y}{\Delta x}=\frac{x+\Delta x-x}{\Delta x}=1\Rightarrow \frac{d}{dx}(x)=1
$$  

2. $f(x)=x^2$  

$$
\frac{\Delta y}{\Delta x}=\frac{(x+\Delta x)^2-x^2}{\Delta x}=\frac{x^2+2x\Delta x+\Delta x^2-x^2}{\Delta x}=2x+\Delta x\rightarrow 2x (\Delta x\rightarrow 0)\Rightarrow \frac{d}{dx}(x^2)=2x
$$  
    
3. В общем случае для степенной функции $f(x)=x^n$ формула будет такой:  

$$
\frac{d}{dx}(x^n)=nx^{n-1}
$$  

## Правила вычисления производной

Рассмотрим правила дифференцирования:  

1. Если $f(x)$ - константа, то её производная (приращение) равно $0$:  

    $$
    (C)' = 0
    $$

2. Производная суммы функций - это сумма производных:  

    $$
    (f(x) + g(x))' = f'(x) + g'(x)
    $$

3. Производная разности - это разность производных:

    $$
    (f(x) - g(x))' = f'(x) - g'(x)
    $$

4. Производная произведения функций:  

    $$
    (f(x)g(x))' = f'(x)g(x) + f(x)g'(x)
    $$

5. Производная частного функций: 

    $$
    \left(\frac{f(x)}{g(x)}\right)'=\frac{f'(x)g(x)-g'(x)f(x)}{g^2(x)}
    $$

6. Производная сложной функции (**chain rule**):  

    $$
    (f(g(x)))'=f'(g(x))g'(x)
    $$

    Можно записать ещё так: 

    $$
    \frac{d}{dx}(f(g(x)))=\frac{df}{dg}\frac{dg}{dx}
    $$

### Примеры

1. Вычислим производную функции $f(x) = \frac{x^2}{cos(x)} + 100$:  

$$
f'(x) = \left(\frac{x^2}{cos(x)}+100\right)' = \left(\frac{x^2}{cos(x)}\right)' + (100)' = \frac{(2x)\cos(x) - x^2(-\sin(x))}{cos^2(x)}
$$


2. Вычислим производную функции $f(x) = tg(x)$:  

$$
f'(x) = \left(tg(x)\right)' = \left(\frac{\sin(x)}{\cos(x)}\right)' = \frac{\cos(x)\cos(x) - \sin(x)(-\sin(x))}{cos^2(x)} = \frac{1}{cos^2(x)}
$$

## Частные производные

Когда мы имеем функцию многих переменных, её уже сложнее представить себе в виде рисунка (в случае более 3-х переменных это действительно не всем дано). Однако формальные правила взятия производной у таких функций сохраняются. Они в точности совпадают с теми, которые рассмотрены выше для функции одной переменной.

Итак, правило взятия частной производной функции многих переменных:

1. Пусть $f(\bar{x}) = f(x_1, x_2, \ldots, x_n)$ - функция многих переменных.


2. Частная проиводная по $x_i$ этой функции - это производная по $x_i$, считая все остальные переменные **константами**.

Более математично, частная производная функции $f(x_1,x_2,\ldots,x_n)$ по $x_i$ равна:

$$
\frac{\partial f(x_1,x_2,\ldots,x_n)}{\partial x_i}=\frac{df_{x_1,\ldots,x_{i-1},x_{i+1},\ldots,x_n}(x_i)}{dx_i},
$$  

где $f_{x_1,\ldots,x_{i-1},x_{i+1},\ldots,x_n}(x_i)$ означает, что переменные $x_1,\ldots,x_{i-1},x_{i+1},\ldots,x_n$ - это фиксированные значения, и с ними нужно обращаться как с константами.

### Примеры   

1. Найдём частные производные функции $f(x, y) = -x^7 + (y - 2)^2 + 140$ по $x$ и по $y$:

$$
f_x'(x, y) = \frac{\partial{f(x, y)}}{\partial{x}} = -7x^6
$$

$$
f_y'(x, y) = \frac{\partial{f(x, y)}}{\partial{y}} = 2(y - 2)
$$

2. Найдём частные производные функции $f(x, y, z) = \sin(x)\cos(y)tg(z)$ по $x$, по $y$ и по $z$:

$$
f_x'(x, y) = \frac{\partial{f(x, y)}}{\partial{x}} = \cos(x)\cos(y)tg(z)
$$

$$
f_y'(x, y) = \frac{\partial{f(x, y)}}{\partial{y}} = \sin(x)(-\sin(y))tg(z)
$$

$$
f_z'(x, y) = \frac{\partial{f(x, y)}}{\partial{y}} = \frac{\sin(x)\cos(y)}{\cos^2{z}}
$$

## Градиентный спуск

**Градиентом** функции $f(\bar{x})$, где $\bar{x} \in \mathbb{R^n}$, то есть $\bar{x} = (x_1, x_2, .., x_n)$, называется вектор из частных производных функции $f(\bar{x})$:

$$
grad(f) = \nabla f(\bar{x}) = \left(\frac{\partial{f(\bar{x})}}{\partial{x_1}}, \frac{\partial{f(\bar{x})}}{\partial{x_2}}, \ldots, \frac{\partial{f(\bar{x})}}{\partial{x_n}}\right)
$$

Пусть задана функция $f(x)$. Хотим найти аргумент, при котором она достигает минимума.

Алгоритм градиентного спуска:

1. $x^0$ - начальное значение (обычно берётся просто из разумных соображений или случайное).

2. $x^i = x^{i-1} - \alpha \nabla f(x^{i-1})$, где $\nabla f(x^{i-1})$ - это градиент функции $f$, в который подставлено значение $x^{i-1}$.

3. Выполнять пункт 2, пока не выполнится условие остановки: $||x^{i} - x^{i-1}|| < eps$, где $||x^{i} - x^{i-1}|| = \sqrt{(x_1^i - x_1^{i-1})^2 + .. + (x_n^i - x_n^{i-1})^2}$.

### Примеры

In [None]:
from tqdm.notebook import tqdm
from time import sleep

#### Пример 1

Посчитаем формулу градиентного спуска для функции $f(x) = 10x^2$:

$$
x^i = x^{i-1} - \alpha \nabla f(x^{i-1}) = x^{i-1} - \alpha f'(x^{i-1}) = x^{i-1} - \alpha (20x^{i-1})
$$

Имея эту формулу, напишем код градиентного спуска:

In [None]:
def f(x):
    return 10 * x**2

def gradient_descent(alpha=0.001, eps=0.01):
    # начальная инициализация
    x_pred = 100
    x = 50
    
    for i in tqdm(range(100000)):
        # смотрим, на каком мы шаге
        # print(i)
        
        # условие остановки
        if np.sum((x - x_pred)**2) < eps**2:
            break
            
        x_pred = x
        # по формуле выше
        x = x_pred - 20 * alpha * x_pred
        
        sleep(0.005)
        
    return x

In [None]:
x_min = gradient_descent()

In [None]:
x_min

In [None]:
f(x_min)

#### Пример 2

Посчитаем формулу градиентного спуска для функции $f(x, y) = 10x^2 + y^2$:

$$
\left(\begin{matrix} x^i \\ y^i \end{matrix}\right) = \left(\begin{matrix} x^{i-1} \\ y^{i-1} \end{matrix}\right) - \alpha \nabla f(x^{i-1}, y^{i-1}) = \left(\begin{matrix} x^{i-1} \\ y^{i-1} \end{matrix}\right) - \alpha \left(\begin{matrix} \frac{\partial{f(x^{i-1}, y^{i-1})}}{\partial{x}} \\ \frac{\partial{f(x^{i-1}, y^{i-1})}}{\partial{y}} \end{matrix}\right) = x^{i-1} - \alpha \left(\begin{matrix} 20x^{i-1} \\ 2y^{i-1} \end{matrix}\right)
$$

Осталось написать код, выполняющий градиентный спуск, пока не выполнится условие остановки:

In [None]:
def f(x):
    return 10 * x[0]**2 + x[1]**2

def gradient_descent(alpha=0.01, eps=0.001):
    # начальная инициализация
    x_prev = np.array([100, 100])
    x = np.array([50, 50])
    
    for i in tqdm(range(100000)):
        # смотрим, на каком мы шаге
        # print(_)
        
        # условие остановки
        if np.sum((x - x_prev)**2) < eps**2:
            break
            
        x_prev = x
        # по формуле выше
        x = x_prev - alpha * np.array(20 * x_prev[0], 2 * x_prev[1])
        
        sleep(0.005)

    return x

In [None]:
x_min = gradient_descent()

In [None]:
x_min

In [None]:
f(x_min)

## Домашнее задание

1. Вычислите производную функции $f(x)=\frac{1}{x}$ по определению и сравните с производной степенной функции в общем случае.

2. Найдите производную функции $Cf(x)$, где С - число.

3. Найдите производные функций:

$$
f(x)=x^3+3\sqrt{x}-e^x
$$
    
$$
f(x)=\frac{x^2-1}{x^2+1}
$$
    
$$
\sigma(x)=\frac{1}{1+e^{-x}}
$$
    
$$
L(y, \hat{y}) = (y-\hat{y})^2
$$

4. Напишите формулу и код для градиентного спуска для функции:

    $$
    f(w, x) = \frac{1}{1 + e^{-wx}}
    $$

    То есть по аналогии с примером 2 вычислите частные производные по $w$ и по $x$ и запишите формулу в векторном виде.

В задаче 3 производную нужно брать по $\hat{y}$.

## Полезные ссылки

#### Функции

* Прикольный сайт с рисунками, где кривые задаются уравнениями и функциями: https://www.desmos.com/calculator/jwshvscdzb

#### Производные

* Про то, как брать частные производные: http://www.mathprofi.ru/chastnye_proizvodnye_primery.html

* Сайт на английском, но там много видеоуроков и задач по производным: https://www.khanacademy.org/math/differential-calculus/derivative-intro-dc

* Задачи на частные производные: http://ru.solverbook.com/primery-reshenij/primery-resheniya-chastnyx-proizvodnyx/  

* Ещё задачи на частные производные: https://xn--24-6kcaa2awqnc8dd.xn--p1ai/chastnye-proizvodnye-funkcii.html  

* Матричные производные: http://nabatchikov.com/blog/view/matrix_der  

#### Градиентный спуск

* Основная статья по градиентному спуску: http://www.machinelearning.ru/wiki/index.php?title=Метод_градиентного_спуска

* Статья на Хабре про градиетный спуск для нейронных сетей: https://habr.com/post/307312/  

#### Методы оптимизации в нейронных сетях

* Сайт с анимациями того, как сходятся алгоритмы градиентного спуска: www.denizyuret.com/2015/03/alec-radfords-animations-for.html

* Статья на Хабре про методы оптимизации (градиентный спуск) в нейронных сетях: https://habr.com/post/318970/

* Ещё один сайт (на английском) про методы оптимизации (градиентный спуск) в нейронных сетях (очень подробно): http://ruder.io/optimizing-gradient-descent/