***1. Подберите скорость обучения (eta) и количество итераций***

In [3]:
import numpy as np
import matplotlib.pyplot as plt

In [5]:
def calc_mae(y, y_pred):
    err = np.mean(np.abs(y - y_pred))
    return err

def calc_mse(y, y_pred):
    err = np.mean((y - y_pred)**2)
    return err

In [137]:
X = np.array([[ 1,  1],
              [ 1,  1],
              [ 1,  2],
              [ 1,  5],
              [ 1,  3],
              [ 1,  0],
              [ 1,  5],
              [ 1, 10],
              [ 1,  1],
              [ 1,  2]])
y = [45, 55, 50, 55, 60, 35, 75, 80, 50, 60]
n = X.shape[0]

eta = 1e-1  # изначальные значения (0.01), увеличиваем его до 0.1
n_iter = 107  

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

for i in range(n_iter + 1):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    if i % 10 == 0:  # снижаем скорость на каждой десятой итерации
        eta /= 1.1
    print(f'Iteration #{i}: W_new = {W}, MSE = {round(err, 2)}')


Number of objects = 10        
Learning rate = 0.1        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [11.8 38.2], MSE = 3047.75
Iteration #1: W_new = [ -0.90909091 -49.94545455], MSE = 14389.98
Iteration #2: W_new = [ 36.77190083 141.29090909], MSE = 66113.99
Iteration #3: W_new = [ -36.70894065 -279.12021037], MSE = 314579.35
Iteration #4: W_new = [132.48552694 640.00168021], MSE = 1506411.05
Iteration #5: W_new = [ -230.42184898 -1374.08652787], MSE = 7221915.7
Iteration #6: W_new = [ 571.2475024  3035.13829408], MSE = 34629770.72
Iteration #7: W_new = [-1177.87293117 -6621.42416166], MSE = 166059056.83
Iteration #8: W_new = [ 2658.24441722 14523.63575502], MSE = 796302968.95
Iteration #9: W_new = [ -5736.78316138 -31781.18989716], MSE = 3818515946.2
Iteration #10: W_new = [12651.73553914 69617.0969639 ], MSE = 18310954068.05
Iteration #11: W_new = [ -23950.99610232 -132241.72204498], MSE = 87806639103.07
Iteration #12: W_new = [ 45591.59269723 251256.17267761], MSE = 31692

In [138]:
""" Попробуем найти оптимальное количество итераций при разных скоростях обучения, посмотрим, где получится минимальная MSE.
    Итерации продолжаем, пока норма отклонения вектора весов на текущем шаге от предыдущего не станет меньше 1e-3 (𝜀).
""" 


mse_list = []

for el in [75, 50, 25, 15, 10, 7, 5]: # проходим по списку значений количества итераций, после которого меняется скорость
    iter_numb, prev_w, new_el, dev_norm = 0, 0, [], 0.001
    W = np.array([1, 0.5])
    eta = 1e-1  # изначальная скорость (поменяли с 1е-2 на 1е-1)
    while dev_norm >= 1e-3:  # пока норма отклонения вектора весов на текущем шаге от предыдущего не станет меньше 1e-3
        iter_numb += 1
        y_pred = np.dot(X, W)
        err = calc_mse(y, y_pred)
        prev_w = W.copy()
        for k in range(W.shape[0]):
            W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
        if iter_numb >=2:
            dev_norm = np.sqrt(sum([i ** 2 for i in (prev_w - W)])) # норма отклонения вектора весов на текущем шаге от предыдущего
        if iter_numb % el == 0:
            eta /= 1.1  # попробовали несколько вариантов значения делителя, оставили изначальное
        new_el.append(round(err, 3))
        
    mse_list.append(new_el)


for i in mse_list:
    print(f'Number of iterations: {len(i)}; MSE_min = {min(i)}, position om min value: {i.index(min(i))}')
    
""" Из результатов работы этого блока кода определили, что изначальное значение скорости, равное 1e-1, более оптимально.
    Уменьшение скорости лучше производить на каждой десятой итерации, при этом целесообразно оставить изначальное значение
    делителя.
    Теперь вернемся к первому блоку кода и посмотрим, на каком цикле до 136 мы получаем минимальное значение MSE (округляем 
    до 2 знаков после запятой).
"""
    

Number of iterations: 27526; MSE_min = 3047.75, position om min value: 0
Number of iterations: 18301; MSE_min = 3047.75, position om min value: 0
Number of iterations: 9176; MSE_min = 3047.75, position om min value: 0
Number of iterations: 1696; MSE_min = 3047.75, position om min value: 0
Number of iterations: 140; MSE_min = 43.969, position om min value: 136
Number of iterations: 150; MSE_min = 43.972, position om min value: 141
Number of iterations: 176; MSE_min = 44.01, position om min value: 172



Ответ: подобранная начальная скорость обучения (eta) = 1e-1, она снижается каждые 10 итераций в 1.1 раза. 
       Количество итераций = 107 (если мы округляем MSE до 2 знаков после запятой), MSE min = 43.97.
    

***2*. В этом коде мы избавляемся от итераций по весам, но тут есть ошибка, исправьте ее***

In [134]:
n = X.shape[0]

eta = 1e-2 
n_iter = 100

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

for i in range(n_iter):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
     
#     for k in range(W.shape[0]):
#         W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    # ИЗМЕНЕНИЯ
    W -= eta * (1/n * 2 * np.dot(X.T, y_pred - y)) # транспонировали Х !!!
    # ИЗМЕНЕНИЯ
    #
    
    if i % 10 == 0:
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 10        
Learning rate = 0.01        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [2.08 4.27], MSE = 3047.75
Iteration #10: W_new = [ 7.0011236 10.6169007], MSE = 738.65
Iteration #20: W_new = [10.3486292  10.10603105], MSE = 622.03
Iteration #30: W_new = [13.38789582  9.55618391], MSE = 525.24
Iteration #40: W_new = [16.16088505  9.05336203], MSE = 444.66
Iteration #50: W_new = [18.69110735  8.59454545], MSE = 377.58
Iteration #60: W_new = [20.99981865  8.17589626], MSE = 321.72
Iteration #70: W_new = [23.10641138  7.79389815], MSE = 275.22
Iteration #80: W_new = [25.02858024  7.44534246], MSE = 236.5
Iteration #90: W_new = [26.78247081  7.12730145], MSE = 204.27


***3*. Вместо того, чтобы задавать количество итераций, задайте другое условие останова алгоритма - когда веса перестают изменяться меньше определенного порога  𝜖 .***

In [142]:
# используем код из решения первой задачи, немного изменив его


iter_numb, prev_w, dev_norm = 0, 0, 0.001
W = np.array([1, 0.5])
eta = 1e-1  # поменяли с 1е-2 на 1е-1)
while dev_norm >= 1e-3:  # пока норма отклонения вектора весов на текущем шаге от предыдущего не станет меньше 1e-3
    iter_numb += 1
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
    prev_w = W.copy()
    W -= eta * (1/n * 2 * np.dot(X.T, y_pred - y))
    if iter_numb >=2:
        dev_norm = np.sqrt(sum([i ** 2 for i in (prev_w - W)])) # норма отклонения вектора весов на текущем шаге от предыдущего
    if iter_numb % 10 == 0:
        eta /= 1.1
    print(f'Iteration #{iter_numb}: W_new = {W}, W_dev_norm = {dev_norm}, MSE = {round(err, 2)}')


Iteration #1: W_new = [11.8 38.2], W_dev_norm = 0.001, MSE = 3047.75
Iteration #2: W_new = [ -2.18 -58.76], W_dev_norm = 97.96265615018817, MSE = 14389.98
Iteration #3: W_new = [ 44.812 182.332], W_dev_norm = 245.62898959202678, MSE = 86572.71
Iteration #4: W_new = [ -62.2496 -424.484 ], W_dev_norm = 616.1881563699193, MSE = 541552.32
Iteration #5: W_new = [ 216.19072 1096.11136], W_dev_norm = 1545.8781519431707, MSE = 3405772.4
Iteration #6: W_new = [ -473.41424  -2720.381696], W_dev_norm = 3878.295275936689, MSE = 21433853.39
Iteration #7: W_new = [1264.7976256 6852.9646144], W_dev_norm = 9729.868450732625, MSE = 134904428.35
Iteration #8: W_new = [ -3088.64066816 -17165.99364992], W_dev_norm = 24410.300716720463, MSE = 849097745.9
Iteration #9: W_new = [ 7839.98365542 43091.5691607 ], W_dev_norm = 61240.58054494862, MSE = 5344288729.93
Iteration #10: W_new = [ -19571.65457208 -108083.75617894], W_dev_norm = 153640.4142856437, MSE = 33637385994.28
Iteration #11: W_new = [ 42951.87690