In [1]:
import numpy as np

In [2]:
import pandas as pd

In [3]:
import matplotlib.pyplot as plt

*Preconditions*

In [4]:
np.random.seed(1234)
# Возьмем 2 признака и 1000 объектов
n_features = 2
n_objects = 1000

# сгенерируем вектор истинных весов
w_true = np.random.normal(size=(n_features))

# сгенерируем матрицу X, вычислим Y с добавлением случайного шума
X = np.random.uniform(-7, 7, (n_objects, n_features))
Y = X.dot(w_true) + np.random.normal(0, 0.5, size=(n_objects))

# возьмем нулевые начальные веса
w = np.zeros(n_features)

In [5]:
# реализуем функцию, определяющую среднеквадратичную ошибку
def mserror(X, w, y):
    y_pred = X.dot(w)
    return (np.sum((y_pred - y)**2)) / len(y)

In [6]:
def calc_mae(y, y_pred):
    err = np.mean(np.abs(y - y_pred))
    return err

def calc_mse(y, y_pred):
    err = np.mean((y - y_pred)**2)
    return err

In [7]:
def mse_manual(w1, w2, y_pred):
    w = np.array([w1, w2])
    y = X.dot(w)
    return (sum((y - y_pred)**2)) / len(y)

**1. Подберите скорость обучения (eta) и количество итераций**

In [None]:
n = X.shape[0]

eta = 1e-2 
n_iter = 100

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

for i in range(n_iter):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    if i % 10 == 0:
        eta /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err, 2)}')

*Решение:*

Подготовка данных

In [9]:
#Воспользуемся готовыми формулами с урока.
np.random.seed(1234)
# Возьмем 2 признака и 1000 объектов 
n_features = 2
n_objects = 1000

In [10]:
# сгенерируем вектор истинных весов
w_true = np.random.normal(size=(n_features))

In [11]:
# сгенерируем матрицу X, вычислим Y с добавлением случайного шума
X = np.random.uniform(-7, 7, (n_objects, n_features))
y = X.dot(w_true) + np.random.normal(0, 0.5, size=(n_objects))

In [12]:
# возьмем нулевые начальные веса
w = np.zeros(n_features)

In [13]:
n = X.shape[0]

In [14]:
#Начальные веса
W = np.array([1, 0.5])

In [15]:
n_iter = 2000
eta = 1e-2 

Функция рассчета MSE. На выходе получаем номер итеррации, где MSE прекращает уменьшаться и значение MSE.
Т.к. значение epsilon использовано в задаче 3. критерием оценки в данной задаче сделаем MSE

In [16]:
# Расчет y_pred по итеррациям
def y_pred_calc(n_iter, X, y, eta):
    #-------------------------------------------------------------------
    #Values which will be defaulted each run of function
    #-------------------------------------------------------------------
    W = np.array([1, 0.5])    
    mse_old = 1
    # ------------------------------------------------------------------
    for i in range(n_iter):                 
        y_pred = np.dot(X, W)
        err = calc_mse(y, y_pred)
        for k in range(W.shape[0]):
            W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
        if i % 10 == 0:
            eta /= 1.1
            #print(f'Iteration #{i}: W_new = {W}, MSE = {round(err, 2)}')  
        #----------------------------------------------------------------
        # exit from loop due to stable MSE value
        #----------------------------------------------------------------
        if err == mse_old:
            break
        mse_old = err
        #----------------------------------------------------------------
    return i, mse_old

Проверка работы функции

In [17]:
n_crit, MSE = y_pred_calc(n_iter, X, y, eta)

In [18]:
n_crit, MSE

(83, 0.2413403112113865)

Расчет оптимального количества 

In [19]:
mse_list = []

In [20]:
for counter in range (1, 1000, 1):
    eta_f = counter/10000
    result = y_pred_calc(n_iter, X, y, eta_f)
    mse_list.append(list([*result, eta_f]))    
    

In [21]:
mse_list = np.array(mse_list)
print(mse_list)

[[1.99900000e+03 2.71228930e+01 1.00000000e-04]
 [1.99900000e+03 1.34279667e+01 2.00000000e-04]
 [1.99900000e+03 6.71508764e+00 3.00000000e-04]
 ...
 [1.24000000e+02 2.41340311e-01 9.97000000e-02]
 [1.24000000e+02 2.41340311e-01 9.98000000e-02]
 [1.27000000e+02 2.41340311e-01 9.99000000e-02]]


Преобразовываем в pandas dataframe как более простой для обработки и отображения.

In [22]:
df = pd.DataFrame(mse_list, dtype='float64')
df.head()

Unnamed: 0,0,1,2
0,1999.0,27.122893,0.0001
1,1999.0,13.427967,0.0002
2,1999.0,6.715088,0.0003
3,1999.0,3.422286,0.0004
4,1999.0,1.805815,0.0005


In [23]:
pd.set_option("display.precision", 10)

Начальная величина eta и количество итерраций для достижения минимальной величины MSE

In [24]:
min_mse = df[df[1] == df[1].min()]
min_mse

Unnamed: 0,0,1,2
179,35.0,0.2413403112,0.018
295,12.0,0.2413403112,0.0296
335,14.0,0.2413403112,0.0336
412,21.0,0.2413403112,0.0413
468,28.0,0.2413403112,0.0469
526,42.0,0.2413403112,0.0527
569,46.0,0.2413403112,0.057
685,68.0,0.2413403112,0.0686
771,84.0,0.2413403112,0.0772
801,91.0,0.2413403112,0.0802


**2*. В этом коде мы избавляемся от итераций по весам, но тут есть ошибка, исправьте ее**

In [None]:
n = X.shape[0]

eta = 1e-2 
n_iter = 100

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

for i in range(n_iter):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
#     for k in range(W.shape[0]):
#         W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    # ИЗМЕНЕНИЯ
    W -= eta * (1/n * 2 * np.dot(X, y_pred - y))
    # ИЗМЕНЕНИЯ
    #
    if i % 10 == 0:
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

*Решение*

Если говорить о работе numpy то ошибка в вычислении произведения. Т.к. массивы разных размерностей не могут быть перемножены. 
Скорее всего, матрица X должна быть транспонирована

In [25]:
n = X.shape[0]

eta = 1e-2 
n_iter = 100

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

for i in range(n_iter):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
#     for k in range(W.shape[0]):
#         W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    # ИЗМЕНЕНИЯ
    W -= eta * (1/n * 2 * np.dot(X.T, (y_pred - y)))
    # ИЗМЕНЕНИЯ
    #
    if i % 10 == 0:
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

Number of objects = 1000        
Learning rate = 0.01        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [ 0.77555414 -0.08042107], MSE = 55.08
Iteration #10: W_new = [ 0.46486357 -1.16593699], MSE = 0.25
Iteration #20: W_new = [ 0.46611043 -1.18287596], MSE = 0.24
Iteration #30: W_new = [ 0.46621995 -1.18317306], MSE = 0.24
Iteration #40: W_new = [ 0.46622317 -1.18317875], MSE = 0.24
Iteration #50: W_new = [ 0.46622325 -1.18317886], MSE = 0.24
Iteration #60: W_new = [ 0.46622325 -1.18317886], MSE = 0.24
Iteration #70: W_new = [ 0.46622325 -1.18317886], MSE = 0.24
Iteration #80: W_new = [ 0.46622325 -1.18317886], MSE = 0.24
Iteration #90: W_new = [ 0.46622325 -1.18317886], MSE = 0.24


**3*. Вместо того, чтобы задавать количество итераций, задайте другое условие останова алгоритма - когда веса перестают изменяться меньше определенного порога  𝜖 .**

Воспользуемся решением из предыдущей задачи

Изменения:  
Добавлена отдельная функция по вычислению Эвклидовой нормы для получения разности, которая будет сравниваться с величиной эпсилон.  
Добавлен критерий выхода по этой величине.  
Добавлен цикл с критерием выхода при слишком большом числе итерраций.  
Добавлено определение переменных, которые будут использоваться в цикле.

In [26]:
def norm(item):
    total = 0
    for elem in item:              
        total += elem**2
    return np.sqrt(total)

In [47]:
n = X.shape[0]

eta = 1e-3 
n_iter = 100

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

#for i in range(n_iter):
#--------------------------------------------------------------------
# Change-------------------------------------------------------------
#--------------------------------------------------------------------
epsilon = 1e-5
w_old = [1, 1]
i = 0
norm_w_old = norm(w_old)
while i < 100000: 
#-------------------------------------------------------------------

    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
    W -= eta * (1/n * 2 * np.dot(X.T, y_pred - y))
    if i % 10 == 0:
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')
        
#--------------------------------------------------------------------
# Change-------------------------------------------------------------
#--------------------------------------------------------------------        
    diff = norm_w_old - norm(W)
    norm_w_old = norm(W)
    i += 1
    if abs(diff) < epsilon:
        break
#--------------------------------------------------------------------   
        

Number of objects = 1000        
Learning rate = 0.001        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [0.97755541 0.44195789], MSE = 55.08
Iteration #10: W_new = [ 0.79783482 -0.03864547], MSE = 26.99
Iteration #20: W_new = [ 0.67975301 -0.37663857], MSE = 13.31
Iteration #30: W_new = [ 0.6025447 -0.6144786], MSE = 6.64
Iteration #40: W_new = [ 0.55234586 -0.7819419 ], MSE = 3.38
Iteration #50: W_new = [ 0.51992429 -0.89992314], MSE = 1.79
Iteration #60: W_new = [ 0.49915014 -0.98309297], MSE = 1.0
Iteration #70: W_new = [ 0.48596687 -1.04175792], MSE = 0.62
Iteration #80: W_new = [ 0.47770007 -1.08316283], MSE = 0.43
Iteration #90: W_new = [ 0.47259415 -1.11240335], MSE = 0.33
Iteration #100: W_new = [ 0.4695024  -1.13306562], MSE = 0.29
Iteration #110: W_new = [ 0.46768015 -1.14767494], MSE = 0.26
Iteration #120: W_new = [ 0.46664716 -1.15801065], MSE = 0.25
Iteration #130: W_new = [ 0.46609624 -1.16532721], MSE = 0.25
Iteration #140: W_new = [ 0.46583286 -1.17050958], M