# Домашнее задание 1, Кривоногов Н.В.

1. Проведите небольшое исследование алгоритма градиентного спуска. Оцените влияние значений скорости обучения (eta) и количества итераций на ошибку алгоритма. Как связаны эти два гиперпараметра между собой? Подберите скорость обучения и количество итераций до совпадения ответов алгоритма с результатами МНК. Как можно ускорить процесс вычисления весов?

2. (*) В этом коде мы избавляемся от итераций по весам, но тут есть ошибка, исправьте ее:
w = np.array([1, 0.5])
for i in range(1001):
    y_pred = np.dot(w, X.T)
    err = calc_mse(y, y_pred)
    w -= (eta * (1/n * 2 * np.sum(X.T * (y_pred - y)))) # ошибка!
    if i % 100 == 0:
        print(i, w, err)
        
3. (*) Вместо того, чтобы задавать количество итераций, задайте условие остановки алгоритма - когда ошибка за итерацию начинает изменяться ниже определенного порога. Сколько нужно сделать итераций, если установить допустимое отклонение mse в размере 1e-6, а значение eta=1e-2?

#### 1. MSE при МНК == 43.97

In [1]:
import numpy as np

def calc_mse(y, y_pred):
    err = np.mean((y - y_pred)**2)
    return err

X = np.array([[ 1,  1],
              [ 1,  1],
              [ 1,  2],
              [ 1,  5],
              [ 1,  3],
              [ 1,  0],
              [ 1,  5],
              [ 1, 10],
              [ 1,  1],
              [ 1,  2]])

y = [45, 55, 50, 55, 60, 35, 75, 80, 50, 60]


n = X.shape[0]

eta = 1e-1
n_iter = 120

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nNumber of iterations = {n_iter} \
       \nInitial weights = {W} \n')

for i in range(n_iter):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    if i % 10 == 0:
        eta /= 1.1
        print(f'Iteration #{i}: W_new = {W}, eta = {eta}, MSE = {round(err, 2)}')

Number of objects = 10        
Learning rate = 0.1        
Number of iterations = 120        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [11.8 38.2], eta = 0.09090909090909091, MSE = 3047.75
Iteration #10: W_new = [12651.73553914 69617.0969639 ], eta = 0.08264462809917356, MSE = 18310954068.05
Iteration #20: W_new = [ 7732434.81888022 42641607.3785219 ], eta = 0.07513148009015777, MSE = 9128819654907584.0
Iteration #30: W_new = [1.06344502e+09 5.86454589e+09], eta = 0.06830134553650706, MSE = 2.327920364266852e+20
Iteration #40: W_new = [3.00127077e+10 1.65510116e+11], eta = 0.0620921323059155, MSE = 2.545133529815946e+23
Iteration #50: W_new = [1.55345341e+11 8.56677968e+11], eta = 0.056447393005377725, MSE = 9.572295620500115e+24
Iteration #60: W_new = [1.27742291e+11 7.04456313e+11], eta = 0.051315811823070656, MSE = 9.35148012647598e+24
Iteration #70: W_new = [1.38141953e+10 7.61806995e+10], eta = 0.04665073802097332, MSE = 1.6408589528283862e+23
Iteration #80: W_new = [1.

Вручную размер MSE == 43.97 удается получить при: 
    
Learning rate = 0.08        
Number of iterations = 180 

Learning rate = 0.1        
Number of iterations = 120

Очень важно при использовании метода градиентного спуска правильно подбирать шаг. Если длина шага будет слишком мала, то метод будет слишком медленно приближаться к правильному ответу, и потребуется очень большое количество итераций для достижения сходимости. Если же длина наоборот будет слишком большой, появится вероятность "перепрыгивания" алгоритма через минимум функции или вообще отсутствия сходимости градиентного спуска.

Лучшая стратегия: маленькие шаги - всё равно дойдем; главное - небольшая скорость обучения. 

#### 2. (*) 

In [2]:
# Вариант 1:

w = np.array([1, 0.5])

for i in range(1001):
    y_pred = np.dot(w, X.T)
    err = calc_mse(y, y_pred)
    w -= (eta * (1/n * 2 * np.sum(X.T * (y_pred - y)))) # ошибка!
    if i % 100 == 0:
        print(i, w, err)

0 [16.45359466 15.95359466] 3047.75
100 [11.10416667 10.60416667] 597.4895833333333
200 [11.10416667 10.60416667] 597.4895833333333
300 [11.10416667 10.60416667] 597.4895833333333
400 [11.10416667 10.60416667] 597.4895833333333
500 [11.10416667 10.60416667] 597.4895833333333
600 [11.10416667 10.60416667] 597.4895833333333
700 [11.10416667 10.60416667] 597.4895833333333
800 [11.10416667 10.60416667] 597.4895833333333
900 [11.10416667 10.60416667] 597.4895833333333
1000 [11.10416667 10.60416667] 597.4895833333333


Тут ошибка заключется в суммировании (sum), а не перемножении (dot) матриц. 

In [3]:
# Вариант 2: 

n = X.shape[0]

eta = 1e-2 
n_iter = 100

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

for i in range(n_iter):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
#     for k in range(W.shape[0]):
#         W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    # ИЗМЕНЕНИЯ
    W -= eta * (1/n * 2 * np.dot(X, y_pred - y))
    # ИЗМЕНЕНИЯ
    #
    if i % 10 == 0:
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.01        
Initial weights = [1.  0.5] 



ValueError: shapes (10,2) and (10,) not aligned: 2 (dim 1) != 10 (dim 0)

Ошибка заключается в нарушении формулы вычисления градиента: необходимо перемножение транспонированной матрицы X. 

Кроме того, даже математически: нарушалось правило перемножения матриц - несоблюдение размерности: 

In [4]:
X.shape, len(y_pred - y)

((10, 2), 10)

In [5]:
(X.T).shape, len(y_pred - y)

((2, 10), 10)

In [6]:
n = X.shape[0]

eta = 1e-2 
n_iter = 660

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

for i in range(n_iter):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
#     for k in range(W.shape[0]):
#         W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    # ИЗМЕНЕНИЯ
    W -= eta * (1/n * 2 * np.dot(X.T, y_pred - y))
    # ИЗМЕНЕНИЯ
    #
    if i % 10 == 0:
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.01        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #10: W_new = [ 7.0011236 10.6169007], MSE = 738.65
Iteration #20: W_new = [10.3486292  10.10603105], MSE = 622.03
Iteration #30: W_new = [13.38789582  9.55618391], MSE = 525.24
Iteration #40: W_new = [16.16088505  9.05336203], MSE = 444.66
Iteration #50: W_new = [18.69110735  8.59454545], MSE = 377.58
Iteration #60: W_new = [20.99981865  8.17589626], MSE = 321.72
Iteration #70: W_new = [23.10641138  7.79389815], MSE = 275.22
Iteration #80: W_new = [25.02858024  7.44534246], MSE = 236.5
Iteration #90: W_new = [26.78247081  7.12730145], MSE = 204.27
Iteration #100: W_new = [28.38281518  6.83710367], MSE = 177.43
Iteration #110: W_new = [29.84305573  6.57231156], MSE = 155.08
Iteration #120: W_new = [31.17545797  6.33070096], MSE = 136.48
Iteration #130: W_new = [32.39121367  6.11024241], MSE = 120.99
Iteration #140: W_new = [33.50053475  5.9

#### 3. (*)

In [7]:
diff = 1e-6
eta = 1e-2
mse = 0

W = np.array([1, 0.5])

for i in range(1, 10000):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    if abs((err - mse)) <= diff:
        print(f'{i} итераций нужно сделать.')
        break
    mse = err

905 итераций нужно сделать.
