## Градиент

Пусть $F(x, y, z)$ - функция трех переменных, $(x, y, z)$ - декартовы координаты.
Градиентом функции $F(x, y, z)$ называется векторное поле
$$
\nabla F(x, y, z)=\frac{\partial F}{\partial x} \mathbf{i}+\frac{\partial F}{\partial y} \mathbf{j}+\frac{\partial F}{\partial z} \mathbf{k}
$$
где $\frac{\partial F}{\partial x}, \frac{\partial F}{\partial y}$ и $\frac{\partial F}{\partial z}-$ частные производные функции $F(x, y, z)$, а і, j и $\mathbf{k}$ - базис декартовой системы координат $(x, y, z)$
Иногда градиент обозначается так: $\operatorname{grad} F(x, y, z)$.

Главное свойство градиента – он показывает направление наискорейшего роста функции.

**Пример**

Найдите градиент функции $f(x, y)=x^{2}+y^{2}$ в точках $M(0,0), N(1,-1), P(1,1)$

**Решение:**


$\frac{\partial f}{\partial x}=2 x \quad \frac{\partial f}{\partial y}=\left.2 y \quad \quad \quad \quad \quad \operatorname{grad} f\right|_{M}=\left.(2 x, 2 y)\right|_{x=0, y=0}=(0,0)$
$$
\left.\overrightarrow{g r a d} f\right|_{N}=\left.(2 x, 2 y)\right|_{x=1, y=-1}=(2,-2)
$$
$\overrightarrow{g r a d} f=\left(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right)=\left.(2 x, 2 y) \quad \quad \quad \quad \quad \operatorname{grad} f\right|_{P}=\left.(2 x, 2 y)\right|_{x=1, y=1}=(2,2)$

В точке $N$ градиент (2,-2) , то есть при увеличении $x$ функция $f$ будет возрастать, а при увеличении $y$ ー убывать. В точке $P$ значение градиента (2,2) , это значит что в окрестности $P$ наша сумма квадратов возрастает по обеим переменным. В точке $M$ градиент нулевой.

**Что значит нулевой вектор градиента?**

Смысл:
* Все частные производные равны нулю.
* Все касательные в точке $M$ горизонтальны.
* $M$ — стационарная точка функции : максимум, минимум или седло (точка перегиба).

## Градиентный спуск

Градиентный спуск - это алгоритм оптимизации, используемый для поиска значений параметров (коэффициентов) функции (f), которая минимизирует функцию стоимости (cost).

Градиентный спуск лучше всего использовать, когда параметры не могут быть вычислены аналитически (например, с использованием линейной алгебры) и должны быть найдены с помощью алгоритма оптимизации.

Процедура начинается с начальных значений коэффициента или коэффициентов функции. Это может быть 0,0 или небольшое случайное значение.

$$ \text{коэффициент} = 0.0 $$

Значение функции стоимости рассчитывается по формуле:

$$ cost = f(\text{коэффициент}) $$

Рассчитывается производная стоимости. Производная - это понятие из математического анализа и относится к наклону функции в данной точке. Нам нужно знать наклон, чтобы знать направление (знак) для перемещения значений коэффициентов, чтобы снизить затраты на следующей итерации.

$$ delta = \text{производная}(cost) $$

Теперь, когда мы знаем по производной, какое направление идет вниз, мы можем обновить значения коэффициентов. Необходимо указать параметр скорости обучения (альфа), который контролирует, насколько коэффициенты могут изменяться при каждом обновлении.

$$ \text{коэффициент} = \text{коэффициент} – (alpha * delta)$$

Этот процесс повторяется до тех пор, пока функция стоимости не станет 0 или достаточно близка к нулю, чтобы быть достаточно хорошей.

Метод градиентного спуска требует, чтобы вы знали градиент вашей функции затрат или функции, которую вы оптимизируете. Далее мы увидим, как мы можем использовать это в алгоритмах машинного обучения.

А сам алгоритм будет выглядеть примерно так:

<img src="https://cdn-images-1.medium.com/max/600/1*iNPHcCxIvcm7RwkRaMTx1g.jpeg" width=300>

### Пример

<img src="https://upload.wikimedia.org/wikipedia/commons/3/32/Rosenbrock_function.svg" width=400>
<img src="https://upload.wikimedia.org/wikipedia/commons/a/a7/Rosenbrock_function.PNG" width=400>

Реализуем метод градиентного спуска на Python без использования библиотек. Посмотрим, как он ведёт себя при разных параметрах и критериях остановки.

Оптимизировать будем **функцию Розенброка:**

$f(x, y)=(1-x)^{2}+100\left(y-x^{2}\right)^{2}$

Задаём функцию градиента, посчитав производные:

$d x=2 x-2+100\left(-4 y x+4 x^{3}\right)$

$d y=100\left(2 y-2 x^{2}\right)$

Зададим параметры. Начальная точка (0, 0), γ = **0.1**, условием остановки зададим **20 000** итераций.

Имплементируем формулу градиентного спуска:

$x^{(n+1)}=x^{(n)}-\gamma \nabla f\left(x^{(n)}\right)$

In [None]:
def f(x, y):
    return (1 - x) ** 2 + 100 * (y - x ** 2) ** 2

def grad(x, y):
    '''
    dx = f'x
    dy = f'y
    '''
    dx = 2 * x - 2 + 100 * (-4 * y * x + 4 * x ** 3)
    dy = 100 * (2 * y - 2 * x ** 2)
    return (dx, dy)

def dist(x1, x2):
    '''
    x1 - 1st point like (x, y)
    x2 - 2nd point like (x, y)
    return ||x1-x2||_2^2
    '''
    return (x1[0] - x2[0]) ** 2 + (x1[1] - x2[1]) ** 2

In [None]:
f(0,0), f(1,1), f(0,1), f(0,1.5)

In [None]:
# where to start
x0 = (0, 0)
# learning rate
gamma = 1e-3  # 0.001, 0.000001
max_iter = 20000
eps = 1e-12

x_cur = x0
vals = []
coords = []
i = 0

while True:
    # refresh points
    x_new = (x_cur[0] - (gamma) * grad(*x_cur)[0],
             x_cur[1] - (gamma) * grad(*x_cur)[1])

    if dist(x_new, x_cur) < eps:  # check their change
        print('\ndist(x_new, x_cur) < eps')
        break

    x_cur = x_new
    vals.append(f(*x_cur))  # append function value

    coords.append(x_cur)  # append points
    if i % 1000 == 0:  # count iterations
        print(
            f"iter={i}; x=({x_cur[0]:.3f}, {x_cur[1]:.3f});"
            f" f(x)={f(*x_cur):.2f}; grad f(x)=({grad(*x_cur)[0]:.3f}, {grad(*x_cur)[1]:.3f})"
        )
    i += 1
    if i > max_iter:
        print('\nmax iter reached')
        break

print()
print(f'last iter = {i}')
print(f'last x = {x_cur}')

In [None]:
from scipy import optimize

optimize.minimize(lambda x: f(*x), x0=(0, 0)) 

**Задание**
- Найдите градиентным спуском минимум функции $f(x,y)=2 x^{2}-4 x y+y^{4}+2$

In [None]:
def grad_descent(x0, f, grad, dist, gamma=1e-3, max_iter=20000, eps=1e-12):

    x_cur = x0
    vals = []
    coords = []
    i = 0

    while True:
        # refresh points
        x_new = (x_cur[0] - (gamma) * grad(*x_cur)[0],
                 x_cur[1] - (gamma) * grad(*x_cur)[1])

        if dist(x_new, x_cur) < eps:  # check their change
            print('\ndist(x_new, x_cur) < eps')
            break

        x_cur = x_new
        vals.append(f(*x_cur))  # append function value

        coords.append(x_cur)  # append points
        if i % 1000 == 0:  # count iterations
            print(
                f"iter={i}; x=({x_cur[0]:.3f}, {x_cur[1]:.3f});"
                f" f(x)={f(*x_cur):.2f}; grad f(x)=({grad(*x_cur)[0]:.3f}, {grad(*x_cur)[1]:.3f})"
            )
        i += 1
        if i > max_iter:
            print('\nmax iter reached')
            break

    print()
    print(f'last iter = {i}')
    print(f'last x = {x_cur}')

In [None]:
# ваш код

In [None]:

# ваш код

In [None]:

# ваш код

In [None]:

# ваш код

In [None]:

# ваш код

In [None]:

# ваш код

In [None]:

# ваш код

### Пример

Необходимо применить [SGDRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html). 

In [None]:
#импорт необходимых библиотек и самого набора данных
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from itertools import combinations
from scipy.stats import ttest_ind
from sklearn.model_selection import train_test_split

In [None]:
df = sns.load_dataset('diamonds')

df.head(10)

Выведем информацию о датасете:

In [None]:
df.isna().sum()

In [None]:
df.shape

In [None]:
df.describe()

Удалим колонки, с которыми не будем работать:

In [None]:
df.drop(['depth', 'table', 'x', 'y', 'z'], axis=1, inplace=True)

Логарифмируем признаки со слишком разным диапазоном значений:

In [None]:
df['carat'] = np.log(1+df['carat'])
df['price'] = np.log(1+df['price'])

Закодируем категориальные признаки:

In [None]:
df = pd.get_dummies(df, drop_first=True) 
df.head()

Разделим данные на обучающую и тестовую выборки:

In [None]:
X_cols = [col for col in df.columns if col!='price'] 
X = df[X_cols]
y = df['price']
X.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

In [None]:
from sklearn.linear_model import SGDRegressor

# your code here
sgd = SGDRegressor(random_state=42)
sgd.fit(X_train, y_train)
sgd.score(X_train, y_train) #r2

In [None]:
sgd.score(X_test, y_test)