## Урок 1. Алгоритм линейной регрессии. Градиентный спуск

In [None]:
import numpy as np
import matplotlib.pyplot as plt

__Задача:__ предсказание баллов ЕГЭ ученика в зависимости от кол-ва лет стажа его репетитора

In [None]:
X = np.array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
              [1, 1, 2, 5, 3, 0, 5, 10, 1, 2]])
X

In [None]:
X.shape

In [None]:
y = [45, 55, 50, 55, 60, 35, 75, 80, 50, 60]

Уравнение прямой: $y = a*x + b$

In [None]:
y_pred1 = 35 * np.ones(10) + X[1]*5
y_pred2 = 40 * np.ones(10) + X[1]*7.5

In [None]:
plt.scatter(X[1], y)
plt.plot(X[1], y_pred1, label='1')
plt.plot(X[1], y_pred2, label='2')
plt.legend()
plt.show()

Простая ошибка

In [None]:
err1 = np.sum(y - y_pred1)
err2 = np.sum(y - y_pred2)
err1, err2

MAE (Mean Absolute Error)

In [None]:
mae_1 = np.sum(np.abs(y - y_pred1)) / 10
mae_2 = np.sum(np.abs(y - y_pred2)) / 10
mae_1, mae_2

MSE (Mean Squared Error)

In [None]:
mse_1 = np.mean((y - y_pred1)**2)
mse_2 = np.mean((y - y_pred2)**2)
mse_1, mse_2

Метод наименьших квадратов (МНК)

In [None]:
X.shape

In [None]:
X.T.shape

In [None]:
all(X @ y == np.dot(X,y))

In [None]:
W = np.linalg.inv(np.dot(X, X.T)) @ X @ y
W

In [None]:
y_pred3 = W[0] * X[0] + W[1] * X[1]

In [None]:
plt.scatter(X[1], y)
plt.plot(X[1], y_pred1, label='1 - manual')
plt.plot(X[1], y_pred2, label='2 - manual')
plt.plot(X[1], y_pred3, label='3 - analytical solution')
plt.legend()
plt.show()

In [None]:
def calc_mae(y, y_pred):
    err = np.mean(np.abs(y - y_pred))
    return err

def calc_mse(y, y_pred):
    err = np.mean((y - y_pred)**2) # <=> 1/n * np.sum((y_pred - y)**2)
    return err

In [None]:
calc_mae(y, y_pred1), calc_mse(y, y_pred1)

In [None]:
calc_mae(y, y_pred2), calc_mse(y, y_pred2)

In [None]:
calc_mae(y, y_pred3), calc_mse(y, y_pred3)

Градиентный спуск

In [None]:
n = 10
Q = 1/n * np.sum((y_pred3 - y)**2) # функционал ошибки, y = X*w

In [None]:
alpha = 1e-2 # величина шага
g = alpha * (1/n * 2 * np.sum(X[0] * (W[0] * X[0] - y)))

In [None]:
W[0], W[0] - g

### Д/З

1. Подберите скорость обучения (alpha) и количество итераций

In [None]:
n = X.shape[1]
W = np.array([1, 0.5])

alpha = #<...>
N_iter = #<...>

print(f'Number of objects = {n} \
       \nLearning rate = {alpha} \
       \nInitial weights = {W} \n')

for i in range(N_iter):
    y_pred = np.dot(W, X)
    err = #<..MSE error.>
    for k in range(W.shape[0]):
        W[k] -= #<..Gradient step.>
    if i % 10 == 0:
        alpha /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

*2. В этом коде мы избавляемся от итераций по весам, но тут есть ошибка, исправьте ее

In [None]:
n = X.shape[1]
W = np.array([1, 0.5])

alpha = #<...>
N_iter = #<...>

print(f'Number of objects = {n} \
       \nLearning rate = {alpha} \
       \nInitial weights = {W} \n')

for i in range(N_iter):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    W -= alpha * (1/n * 2 * np.sum(X * (y_pred - y)))
    W_pred = W
    if i % 10 == 0:
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err,2)}')

*3. Вместо того, чтобы задавать количество итераций, задайте условие остановки алгоритма - когда ошибка за итерацию начинает изменяться ниже определенного порога (упрощенный аналог параметра tol в линейной регрессии в sklearn).