### Урок 5. Домашняя работа

**Задача высокого уровня** В реализацию функции `gradient` добавьте параметр $\lambda$, чтобы получить регуляризованный градиентный спуск

Формула поменяется следующим образом:
$$
\left\{
\begin{array}{cc}
\frac{\partial L}{\partial w_0} = \frac{2}{n}\cdot(-1)\cdot \sum_{i=1}^{n} 1\cdot \left(y_i - \sum_{j=1}^{m}w_jx_j^i\right) + \lambda\cdot 2\cdot w_0&\\
\frac{\partial L}{\partial w_k} = \frac{2}{n}\cdot(-1)\cdot \sum_{i=1}^{n} x_k^i \cdot\left(y_i - \sum_{j=1}^{m}w_jx_j^i\right) + \lambda\cdot 2\cdot w_k& k\neq 0 \\
\end{array}
\right.
$$

In [8]:
import numpy as np
import pandas as pd

data = pd.read_csv('non_linear.csv', sep=',')
data = data[(data.x_train > 1) & (data.x_train < 5)].copy()
data.head()

Unnamed: 0,x_train,y_train
5,1.182421,1.860341
6,1.251605,1.878928
7,1.270474,2.430015
8,1.402553,2.327856
9,1.427711,2.203649


In [81]:
from scipy.spatial import distance
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

def gradient(X, y, w, l) -> np.array:
    # количество обучающих примеров в выборке
    n = X.shape[0]
    # считаем прогноз
    y_hat = X.dot(w.T)
    # вычисляем ошибку прогноза
    error = y - y_hat
    # дальше pointwise перемножение - умножаем каждую из координат на ошибку
    grad = ((np.multiply(X, error).sum(axis=0)*(-1.0)*2.0)/ n) + 2.0*l*w
    return grad, error




In [55]:
def eval_w_next(X, y, eta, w_current, l):
    # вычисляем градиент
    grad, error = gradient(X, y, w_current, l)
    # делаем шаг градиентного спуска
    w_next = w_current - eta*grad
    # проверяем условие сходимости
    weight_evolution = distance.euclidean(w_current, w_next)
    return (w_next, weight_evolution, grad)


In [75]:
def gradient_descent(X: np.array, y: np.array, eta=0.01, epsilon=0.001, l = 0.001) -> np.array:
    m = X.shape[1] # количество фичей
    # инициализируем рандомом веса
    w = np.random.random(m).reshape(1, -1)
    w_next, weight_evolution, grad = eval_w_next(X, y, eta, w, l)
    step = 0
    # повторяем до сходимости вектора весов
    while weight_evolution > epsilon:
        w = w_next
        w_next, weight_evolution, grad = eval_w_next(X, y, eta, w, l)
        step += 1
        if step % 100 ==0:
            print("step %s |w-w_next|=%.5f, grad=%s" % (step, weight_evolution, grad))
    print("step %s |w-w_next|=%.5f, grad=%s" % (step, weight_evolution, grad))
    return w

In [84]:
# трансформируем плоский массив X в вектор-столбец
X = data['x_train'].values.reshape(-1, 1)
n = X.shape[0]
# добавляем тривиальный признак w_0, столбец из единиц. См. прошлый урок, почему так
X = np.hstack([
    np.ones(n).reshape(-1,1),
    X
])
w = gradient_descent(X, data['y_train'].values.reshape(-1, 1), eta=0.008, l = 0.00001)

step 100 |w-w_next|=0.00469, grad=[[-0.56329984  0.16272613]]
step 200 |w-w_next|=0.00386, grad=[[-0.46354655  0.13390938]]
step 300 |w-w_next|=0.00318, grad=[[-0.3814583   0.11019571]]
step 400 |w-w_next|=0.00261, grad=[[-0.31390685  0.09068144]]
step 500 |w-w_next|=0.00215, grad=[[-0.2583179  0.0746229]]
step 600 |w-w_next|=0.00177, grad=[[-0.21257306  0.06140813]]
step 700 |w-w_next|=0.00146, grad=[[-0.17492905  0.05053352]]
step 800 |w-w_next|=0.00120, grad=[[-0.14395132  0.04158467]]
step 893 |w-w_next|=0.00100, grad=[[-0.12008662  0.03469064]]
