# Алгоритм линейной регрессии. Градиентный спуск <a class='anchor' id='lin_space1'>

In [1]:
import numpy as np

In [2]:
X = np.array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
              [1, 1, 2, 5, 3, 0, 5, 10, 1, 2]])

In [3]:
y = [45, 55, 50, 55, 60, 35, 75, 80, 50, 60]

In [4]:
def calc_mae(y, y_pred):
    err = np.mean(np.abs(y - y_pred))
    return err

def calc_mse(y, y_pred):
    err = np.mean((y - y_pred)**2) # <=> 1/n * np.sum((y_pred - y)**2)
    return err

### Задание 1 <a class='anchor' id='lin_space1_1'>

Проведите небольшое исследование алгоритма градиентного спуска. Оцените влияние значений скорости обучения (eta) и количества итераций на ошибку алгоритма. Как связаны эти два гиперпараметра между собой? Подберите скорость обучения и количество итераций до совпадения ответов алгоритма с результатами МНК. Как можно ускорить процесс вычисления весов?

In [5]:
n = X.shape[1]
eta = 1e-2
W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

for i in range(100):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= eta * (1/n * 2 * np.sum(X[k] * (y_pred - y)))
    if i % 10 == 0:
        eta /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.01        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #10: W_new = [ 6.67106886 10.61676385], MSE = 749.71
Iteration #20: W_new = [ 9.49320908 10.25731657], MSE = 648.91
Iteration #30: W_new = [11.85740092  9.83349244], MSE = 570.46
Iteration #40: W_new = [13.86876921  9.46898661], MSE = 508.03
Iteration #50: W_new = [15.59085668  9.15672679], MSE = 457.73
Iteration #60: W_new = [17.07337653  8.88789585], MSE = 416.77
Iteration #70: W_new = [18.35601294  8.65530964], MSE = 383.06
Iteration #80: W_new = [19.47073522  8.45317196], MSE = 355.08
Iteration #90: W_new = [20.44350656  8.27677488], MSE = 331.65


При заданном количестве итераций, при уменьшении eta ошибка будет выше, чем при большем значении eta. Например, при eta = 1e-3 на 90-ой итерации ошибка MSE = 828.76.

При увеличении числа итераций ошибка будет уменьшаться, например, при 1000 итерациях на 990 шаге ошибка MSE = 175.6.

При уменьшении скорости обучения eta количество итераций, необходимое для сходимости алгоритма, будет увеличиваться, то есть чем меньше скорость обучения eta, тем медленее сходится алгоритм и большее число итераций нужно сделать. И наоборот, чем выше скорость обучение, тем алгоритм быстрее сходится, но есть риск "перепрыгнуть" точку минимума.

Для ускорения вычисления весов можно избавиться от цикла и переписать через матричные операции.

### Задание 2 <a class='anchor' id='lin_space1_1'>

В этом коде мы избавляемся от итераций по весам, но тут есть ошибка, исправьте ее:

In [6]:
eta = 1e-2
W = np.array([1, 0.5])
for i in range(100):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    W -= (eta * (1/n * 2 * np.dot(X, (y_pred - y))))
    if i % 10 == 0:
        eta /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #10: W_new = [ 6.67106886 10.61676385], MSE = 749.71
Iteration #20: W_new = [ 9.49320908 10.25731657], MSE = 648.91
Iteration #30: W_new = [11.85740092  9.83349244], MSE = 570.46
Iteration #40: W_new = [13.86876921  9.46898661], MSE = 508.03
Iteration #50: W_new = [15.59085668  9.15672679], MSE = 457.73
Iteration #60: W_new = [17.07337653  8.88789585], MSE = 416.77
Iteration #70: W_new = [18.35601294  8.65530964], MSE = 383.06
Iteration #80: W_new = [19.47073522  8.45317196], MSE = 355.08
Iteration #90: W_new = [20.44350656  8.27677488], MSE = 331.65


### Задание 3 <a class='anchor' id='lin_space1_1'>

Вместо того, чтобы задавать количество итераций, задайте условие остановки алгоритма - когда ошибка за итерацию начинает изменяться ниже определенного порога. Сколько нужно сделать итераций, если установить допустимое отклонение mse в размере diff=1e-6, а значение eta=1e-2?

In [7]:
eta = 1e-2
diff = 1e-6
err_prev = 1.0
W = np.array([1, 0.5])
i = 0
while True:
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    W -= (eta * (1/n * 2 * np.dot(X, (y_pred - y))))
    print(f'Iteration #{i}: W_new = {W}, MSE = {round(err, 2)}')
    
    if np.fabs(err - err_prev) < diff:
        break
    err_prev = err
    i += 1

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #1: W_new = [2.9122 6.6934], MSE = 1777.04
Iteration #2: W_new = [3.582352 8.242912], MSE = 1233.12
Iteration #3: W_new = [4.14613024 9.2253808 ], MSE = 995.61
Iteration #4: W_new = [4.63968479 9.83998351], MSE = 887.35
Iteration #5: W_new = [ 5.08649208 10.21600803], MSE = 833.71
Iteration #6: W_new = [ 5.50180176 10.43737578], MSE = 803.21
Iteration #7: W_new = [ 5.89552318 10.55855991], MSE = 782.62
Iteration #8: W_new = [ 6.27409912 10.61491815], MSE = 766.34
Iteration #9: W_new = [ 6.64172205 10.62940003], MSE = 752.02
Iteration #10: W_new = [ 7.0011236 10.6169007], MSE = 738.65
Iteration #11: W_new = [ 7.35408709 10.58708704], MSE = 725.83
Iteration #12: W_new = [ 7.70178013 10.54623222], MSE = 713.36
Iteration #13: W_new = [ 8.04497059 10.49840646], MSE = 701.16
Iteration #14: W_new = [ 8.38416679 10.44625003], MSE = 689.21
Iteration #15: W_new = [ 8.71970845 10.39147501], MSE = 677.49
Iteration #16: W_new = [ 9.05182578

При заданно скорости сходимости необходимо сделать 905 итераций, для того, чтобы ошибка MSE перестала меняться с заданной степенью точности.