# Алгоритмы анализа данных
## Алгоритм линейной регрессии. Градиентный спуск

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [2]:
X = np.array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
              [1, 1, 2, 1, 3, 0, 5, 10, 1, 2]])
X

array([[ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1],
       [ 1,  1,  2,  1,  3,  0,  5, 10,  1,  2]])

In [3]:
y = [45, 55, 50, 59, 65, 35, 75, 80, 50, 60]
y

[45, 55, 50, 59, 65, 35, 75, 80, 50, 60]

In [4]:
def calc_mse(y, y_pred):
    err = np.mean((y - y_pred)**2)
    return err

**Задача 1**

Подберите скорость обучения (alpha) и количество итераций

In [72]:
n = X.shape[1]
alpha = 1e-2
W = np.array([1, 0.5])
W, alpha

(array([1. , 0.5]), 0.01)

In [73]:
for i in range(501):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    for ii in range(W.shape[0]):
        W[ii] -= alpha * (1/n * 2 * np.sum(X[ii] * (y_pred - y)))
    if i % 100 == 0:
        print(i, W, err)

0 [2.102 3.9  ] 3173.15
100 [31.88770806  6.74418155] 175.19445858001848
200 [41.83683774  4.90699865] 61.9177717428135
300 [45.33508261  4.26102097] 47.913169919666764
400 [46.56511152  4.03388672] 46.18175564810758
500 [46.99760587  3.95402334] 45.96769776787538


**Задание 2**

В этом коде мы избавляемся от итераций по весам, но тут есть ошибка, исправьте ее.

In [16]:
n = X.shape[1]
alpha = 1e-2
W = np.array([1, 0.5])
W, alpha

(array([1. , 0.5]), 0.01)

In [17]:
for i in range(501):
    y_pred = np.dot(W, X)
    err = calc_mse(y, y_pred)
    # W -= alpha * (1/n * 2 * np.sum(X * (y_pred - y), axis = 1))
    # or
    W -= alpha * (1/n * 2 * X @ (y_pred - y))
    if i % 100 == 0:
        print(i, W, err)

0 [2.102 3.9  ] 3173.15
100 [31.88770806  6.74418155] 175.19445858001853
200 [41.83683774  4.90699865] 61.9177717428135
300 [45.33508261  4.26102097] 47.913169919666764
400 [46.56511152  4.03388672] 46.18175564810758
500 [46.99760587  3.95402334] 45.96769776787538


**Задание 3**

Вместо того, чтобы задавать количество итераций, задайте условие остановки алгоритма - когда ошибка за итерацию 
начинает изменяться ниже определенного порога (упрощенный аналог параметра tol в линейной регрессии в sklearn).

In [94]:
n = X.shape[1]
alpha = 1e-2
tol = 1e-3
W = np.array([1, 0.5])
W, alpha

(array([1. , 0.5]), 0.01)

In [95]:
err = 1
prev_err = 0
i = 0


while np.abs(err - prev_err) > tol:
    i += 1
    y_pred = np.dot(W, X)
    prev_err = err
    err = calc_mse(y, y_pred)
    W -= alpha * (1/n * 2 * np.sum(X * (y_pred - y), axis=1))
    if i % 100 == 0:
        print(i, W, err)


print(i, W, err)

100 [31.72648327  6.77395294] 177.92494760058068
200 [41.78014899  4.91746666] 62.25534704257841
300 [45.3151501   4.26470166] 47.95490496498403
400 [46.55810299  4.0351809 ] 46.186915427300114
480 [46.94003874  3.96465355] 45.98434114415108
