# Алгоритм линейной регрессии. Градиентный спуск

In [1]:
import numpy as np
import sys

In [2]:
X = np.array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
              [1, 1, 2, 5, 3, 0, 5, 10, 1, 2]])

y = [45, 55, 50, 55, 60, 35, 75, 80, 50, 60]

In [3]:
def calc_mae(y, y_pred):
    err = np.mean(np.abs(y - y_pred))
    return err

def calc_mse(y, y_pred):
    err = np.mean((y - y_pred)**2) # <=> 1/n * np.sum((y_pred - y)**2)
    return err

### Задание 1

*Проведите небольшое исследование алгоритма градиентного спуска.*

*Оцените влияние значений скорости обучения (eta) и количества итераций на ошибку алгоритма. Как связаны эти два гиперпараметра между собой?*

*Подберите скорость обучения и количество итераций до совпадения ответов алгоритма с результатами МНК.*

*Как можно ускорить процесс вычисления весов?*

In [4]:
n = X.shape[1]
alpha = 1e-2
W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {alpha} \
       \nInitial weights = {W} \n')

for i in range(100):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= alpha * (1/n * 2 * np.sum(X[k] * (y_pred - y)))
    if i % 10 == 0:
        alpha /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.01        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #10: W_new = [ 6.67106886 10.61676385], MSE = 749.71
Iteration #20: W_new = [ 9.49320908 10.25731657], MSE = 648.91
Iteration #30: W_new = [11.85740092  9.83349244], MSE = 570.46
Iteration #40: W_new = [13.86876921  9.46898661], MSE = 508.03
Iteration #50: W_new = [15.59085668  9.15672679], MSE = 457.73
Iteration #60: W_new = [17.07337653  8.88789585], MSE = 416.77
Iteration #70: W_new = [18.35601294  8.65530964], MSE = 383.06
Iteration #80: W_new = [19.47073522  8.45317196], MSE = 355.08
Iteration #90: W_new = [20.44350656  8.27677488], MSE = 331.65


Исследуем влияние значений скорости обучения eta на ошибку MSE. Уменьшим значение eta при таком же значений количества итераций.

In [5]:
n = X.shape[1]
alpha = 1e-3
W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {alpha} \
       \nInitial weights = {W} \n')

for i in range(100):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= alpha * (1/n * 2 * np.sum(X[k] * (y_pred - y)))
    if i % 10 == 0:
        alpha /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.001        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [1.108 0.877], MSE = 3047.75
Iteration #10: W_new = [1.98538229 3.73754631], MSE = 1991.2
Iteration #20: W_new = [2.65151474 5.62717924], MSE = 1473.64
Iteration #30: W_new = [3.17602393 6.90966203], MSE = 1203.1
Iteration #40: W_new = [3.60140403 7.80143614], MSE = 1052.67
Iteration #50: W_new = [3.95459332 8.43516509], MSE = 963.95
Iteration #60: W_new = [4.25330617 8.89440055], MSE = 908.59
Iteration #70: W_new = [4.50960937 9.23308795], MSE = 872.15
Iteration #80: W_new = [4.73200372 9.48685965], MSE = 846.97
Iteration #90: W_new = [4.9266705  9.67974823], MSE = 828.76


На той же итерации ошибка MSE стала больше. Это связано с тем, что в этом случае алгоритм сходится медленнее, поэтому на том же номере итерации ошибка будет больше.

Увеличим значение eta.

In [6]:
n = X.shape[1]
alpha = 1e-1
W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {alpha} \
       \nInitial weights = {W} \n')

for i in range(100):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= alpha * (1/n * 2 * np.sum(X[k] * (y_pred - y)))
    if i % 10 == 0:
        alpha /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.1        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [11.8 38.2], MSE = 3047.75
Iteration #10: W_new = [12651.73553914 69617.0969639 ], MSE = 18310954068.05
Iteration #20: W_new = [ 7732434.81888022 42641607.3785219 ], MSE = 9128819654907584.0
Iteration #30: W_new = [1.06344502e+09 5.86454589e+09], MSE = 2.3279203642668515e+20
Iteration #40: W_new = [3.00127077e+10 1.65510116e+11], MSE = 2.5451335298159486e+23
Iteration #50: W_new = [1.55345341e+11 8.56677968e+11], MSE = 9.572295620500124e+24
Iteration #60: W_new = [1.27742291e+11 7.04456313e+11], MSE = 9.351480126476035e+24
Iteration #70: W_new = [1.38141953e+10 7.61806995e+10], MSE = 1.6408589528283986e+23
Iteration #80: W_new = [1.51674189e+08 8.36432543e+08], MSE = 3.125533537874479e+19
Iteration #90: W_new = [116395.49978363 641638.79866064], MSE = 31317286806394.58


На том же номере итерации ошибка также больше. Причина в том, что при большой скорости обучения есть вероятность того, что алгоритм будет постоянно перепрыгивать точку минимума или вообще расходиться.

При увеличении числа итераций ошибка будет уменьшаться. Например, на 900-ой итерации ошибка равна MSE = 43.99.

In [7]:
n = X.shape[1]
alpha = 1e-2
W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {alpha} \
       \nInitial weights = {W} \n')

for i in range(1000):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= alpha * (1/n * 2 * np.sum(X[k] * (y_pred - y)))
    if i % 100 == 0:
        alpha /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.01        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #100: W_new = [26.92778597  7.10095078], MSE = 201.46
Iteration #200: W_new = [36.55234278  5.3556858 ], MSE = 78.6
Iteration #300: W_new = [40.78354544  4.58842244], MSE = 52.71
Iteration #400: W_new = [42.77180005  4.22788312], MSE = 46.47
Iteration #500: W_new = [43.76430815  4.04790708], MSE = 44.77
Iteration #600: W_new = [44.28770223  3.95299763], MSE = 44.25
Iteration #700: W_new = [44.57781114  3.90039085], MSE = 44.08
Iteration #800: W_new = [44.74605536  3.86988236], MSE = 44.02
Iteration #900: W_new = [44.84771779  3.85144744], MSE = 43.99


При уменьшении скорости обучения eta алгоритм будет медленнее приближаться к точке минимума, поэтому для сходимости потребуется большее количество итерации. Т.е. чем меньше скорость обучение, тем больше число итерации.

И наоборот, при увеличении скорости обучения алгоритм будет приближаться к точке минимума быстрее и количество итераций будет меньше. Однако в этом случае появляется вероятность того, что алгоритм будет постоянно перепрыгивать точку минимума или вообще расходиться.

Подберем значения скорости обучения eta и количества итерации до совпадения с результатом МНК. Для МНК получились такие результаты

W = [45.0625,  3.8125])

MSE = 43.96874999999999.

In [8]:
n = X.shape[1]
alpha = 1e-2
W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {alpha} \
       \nInitial weights = {W} \n')

for i in range(2000):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= alpha * (1/n * 2 * np.sum(X[k] * (y_pred - y)))
    if i % 100 == 0:
        alpha /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

print(f'\nIteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.01        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #100: W_new = [26.92778597  7.10095078], MSE = 201.46
Iteration #200: W_new = [36.55234278  5.3556858 ], MSE = 78.6
Iteration #300: W_new = [40.78354544  4.58842244], MSE = 52.71
Iteration #400: W_new = [42.77180005  4.22788312], MSE = 46.47
Iteration #500: W_new = [43.76430815  4.04790708], MSE = 44.77
Iteration #600: W_new = [44.28770223  3.95299763], MSE = 44.25
Iteration #700: W_new = [44.57781114  3.90039085], MSE = 44.08
Iteration #800: W_new = [44.74605536  3.86988236], MSE = 44.02
Iteration #900: W_new = [44.84771779  3.85144744], MSE = 43.99
Iteration #1000: W_new = [44.91148301  3.8398846 ], MSE = 43.98
Iteration #1100: W_new = [44.95285668  3.83238213], MSE = 43.97
Iteration #1200: W_new = [44.98054088  3.82736202], MSE = 43.97
Iteration #1300: W_new = [44.99959036  3.82390769], MSE = 43.97
Iteration #1400: W_new = [45.01303554 

Для скорости обучения eta = 1e-2 и количества итерации 2000 результат примерно совпадает с МНК.

Для вычисления весов можно использовать матричные операции вместо циклов для ускорения вычисления.

### Задание 2

*В этом коде мы избавляемся от итераций по весам, но тут есть ошибка, исправьте ее:*

In [9]:
n = X.shape[1]
eta = 1e-2
w = np.array([1, 0.5])
for i in range(1001):
    y_pred = np.dot(w, X)
    err = calc_mse(y, y_pred)
    w -= (eta * (1/n * 2 * np.dot(X, (y_pred - y))))
    if i % 100 == 0:
        eta /= 1.1
        print(i, w, err)

0 [2.08 4.27] 3047.75
100 [26.92778597  7.10095078] 201.4630556112843
200 [36.55234278  5.3556858 ] 78.59924594677099
300 [40.78354544  4.58842244] 52.711728865094166
400 [42.77180005  4.22788312] 46.47126036151425
500 [43.76430815  4.04790708] 44.77157784175431
600 [44.28770223  3.95299763] 44.25442472488509
700 [44.57781114  3.90039085] 44.080439582646086
800 [44.74605536  3.86988236] 44.01631755962738
900 [44.84771779  3.85144744] 43.99064649975398
1000 [44.91148301  3.8398846 ] 43.979567406617754


Результат совпадает с предыдущим вариантом.

In [10]:
n = X.shape[1]
alpha = 1e-2
W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {alpha} \
       \nInitial weights = {W} \n')

for i in range(1001):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= alpha * (1/n * 2 * np.sum(X[k] * (y_pred - y)))
    if i % 100 == 0:
        alpha /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.01        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #100: W_new = [26.92778597  7.10095078], MSE = 201.46
Iteration #200: W_new = [36.55234278  5.3556858 ], MSE = 78.6
Iteration #300: W_new = [40.78354544  4.58842244], MSE = 52.71
Iteration #400: W_new = [42.77180005  4.22788312], MSE = 46.47
Iteration #500: W_new = [43.76430815  4.04790708], MSE = 44.77
Iteration #600: W_new = [44.28770223  3.95299763], MSE = 44.25
Iteration #700: W_new = [44.57781114  3.90039085], MSE = 44.08
Iteration #800: W_new = [44.74605536  3.86988236], MSE = 44.02
Iteration #900: W_new = [44.84771779  3.85144744], MSE = 43.99
Iteration #1000: W_new = [44.91148301  3.8398846 ], MSE = 43.98


### Задание 3

*Вместо того, чтобы задавать количество итераций, задайте условие остановки алгоритма - когда ошибка за итерацию начинает изменяться ниже определенного порога. Сколько нужно сделать итераций, если установить допустимое отклонение mse в размере diff = 1e-6, а значение eta = 1e-2?*

In [11]:
n = X.shape[1]
eta = 1e-2
diff = 1e-6
W = np.array([1, 0.5])

print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

i = 0
err_prev = sys.float_info.max
while True:
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    W -= (eta * (1/n * 2 * np.dot(X, (y_pred - y))))
    if i % 100 == 0:
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')
        
    if np.fabs(err - err_prev) < diff:
        break
    
    err_prev = err
    i += 1

print(f'\nIteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.01        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #100: W_new = [28.38281518  6.83710367], MSE = 177.43
Iteration #200: W_new = [38.38986469  5.02247953], MSE = 65.33
Iteration #300: W_new = [42.39314129  4.29654705], MSE = 47.39
Iteration #400: W_new = [43.99463466  4.00614091], MSE = 44.52
Iteration #500: W_new = [44.63530512  3.8899652 ], MSE = 44.06
Iteration #600: W_new = [44.89160255  3.84348962], MSE = 43.98
Iteration #700: W_new = [44.99413322  3.82489726], MSE = 43.97
Iteration #800: W_new = [45.03515017  3.81745947], MSE = 43.97
Iteration #900: W_new = [45.05155882  3.81448401], MSE = 43.97

Iteration #904: W_new = [45.05195252  3.81441262], MSE = 43.97


Для заданных значений diff = 1e-6 и eta = 1e-2 требуется 905 итераций, чтобы ошибка перестала меняться с заданной точностью diff.