<a href="https://colab.research.google.com/github/ddekun/Data_analysis_algorithms/blob/lesson1/hw1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Алгоритмы анализа данных

## Урок 1. Алгоритм линейной регрессии. Градиентный спуск

### Домашнее задание

**1. Проведите небольшое исследование алгоритма градиентного спуска. Оцените влияние значений скорости обучения (eta) и количества итераций на ошибку алгоритма. Как связаны эти два гиперпараметра между собой? Подберите скорость обучения и количество итераций до совпадения ответов алгоритма с результатами МНК. Как можно ускорить процесс вычисления весов?**

Чем меньше eta, тем меньше шаг градиентного спуска, и тем медленнее алгоритм сходится. С другой стороны, слишком большое значение eta может привести к тому, что алгоритм будет пропускать оптимальное решение и будет осциллировать вокруг него.

Чем больше количество итераций, тем точнее будет найдено оптимальное решение. Однако, слишком большое количество итераций может привести к переобучению, когда модель будет хорошо подстроена под тренировочный набор, но будет плохо работать на новых данных.

In [22]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [3]:
X = np.array([[ 1,  1],
              [ 1,  1],
              [ 1,  2],
              [ 1,  5],
              [ 1,  3],
              [ 1,  0],
              [ 1,  5],
              [ 1, 10],
              [ 1,  1],
              [ 1,  2]])

In [4]:
y = [45, 55, 50, 55, 60, 35, 75, 80, 50, 60]

In [7]:
def calc_mae(y, y_pred):
    err = np.mean(np.abs(y - y_pred))
    return err

def calc_mse(y, y_pred):
    err = np.mean((y - y_pred)**2)
    return err

In [10]:
n = X.shape[0]

# Изменения
eta = 1e-3 
n_iter = 500

W = np.array([1, 0.5])
print(f'Number of objects = {n} \
       \nLearning rate = {eta} \
       \nInitial weights = {W} \n')

for i in range(n_iter):
    y_pred = np.dot(X, W)
    err = calc_mse(y, y_pred)
    for k in range(W.shape[0]):
        W[k] -= eta * (1/n * 2 * X[:, k] @ (y_pred - y))
    if i % 10 == 0:
        eta /= 1.1
        print(f'Iteration #{i}: W_new = {W}, MSE = {round(err, 2)}')

Number of objects = 10        
Learning rate = 0.001        
Initial weights = [1.  0.5] 

Iteration #0: W_new = [1.108 0.877], MSE = 3047.75
Iteration #10: W_new = [1.98538229 3.73754631], MSE = 1991.2
Iteration #20: W_new = [2.65151474 5.62717924], MSE = 1473.64
Iteration #30: W_new = [3.17602393 6.90966203], MSE = 1203.1
Iteration #40: W_new = [3.60140403 7.80143614], MSE = 1052.67
Iteration #50: W_new = [3.95459332 8.43516509], MSE = 963.95
Iteration #60: W_new = [4.25330617 8.89440055], MSE = 908.59
Iteration #70: W_new = [4.50960937 9.23308795], MSE = 872.15
Iteration #80: W_new = [4.73200372 9.48685965], MSE = 846.97
Iteration #90: W_new = [4.9266705  9.67974823], MSE = 828.76
Iteration #100: W_new = [5.09823829 9.82827603], MSE = 815.07
Iteration #110: W_new = [5.25026691 9.94400351], MSE = 804.43
Iteration #120: W_new = [ 5.38556058 10.03515101], MSE = 795.91
Iteration #130: W_new = [ 5.50637544 10.10765119], MSE = 788.93
Iteration #140: W_new = [ 5.61456026 10.16584453], MSE 

**2*. В этом коде мы избавляемся от итераций по весам, но тут есть ошибка, исправьте ее**

In [None]:
# w = np.array([1, 0.5])
# for i in range(1001):
#     y_pred = np.dot(w, X.T)
#     err = calc_mse(y, y_pred)
#     w -= (eta * (1/n * 2 * np.sum(X.T * (y_pred - y)))) # ошибка!
#     if i % 100 == 0:
#         print(i, w, err)

Ошибка заключается в том, что необходимо транспонировать матрицу при вычислении градиента, а не только вектор целевой переменной y.

In [13]:
w = np.array([1, 0.5])
for i in range(1001):
    y_pred = np.dot(w, X.T)
    err = calc_mse(y, y_pred)
    w -= (eta * (1/n * 2 * np.dot(X.T, (y_pred - y)))) # исправлено!
    if i % 100 == 0:
        print(i, w, err)

0 [2.08 4.27] 3047.75
100 [28.38281518  6.83710367] 177.42704441959268
200 [38.38986469  5.02247953] 65.32695101413637
300 [42.39314129  4.29654705] 47.386842165377494
400 [43.99463466  4.00614091] 44.51576957544466
500 [44.63530512  3.8899652 ] 44.0562931092674
600 [44.89160255  3.84348962] 43.98276009456375
700 [44.99413322  3.82489726] 43.97099212677991
800 [45.03515017  3.81745947] 43.969108822167414
900 [45.05155882  3.81448401] 43.968807424651004
1000 [45.05812303  3.8132937 ] 43.96875919004132


3*. Вместо того, чтобы задавать количество итераций, задайте условие остановки алгоритма - когда ошибка за итерацию начинает изменяться ниже определенного порога. Сколько нужно сделать итераций, если установить допустимое отклонение mse в размере diff=1e-6, а значение eta=1e-2?

In [30]:
def mse(y_pred, y_true):
    return np.mean((y_pred - y_true)**2)

def gradient(X, y, w):
    y_pred = X.dot(w)
    error = y_pred - y
    grad = 2 * X.T.dot(error) / len(y)
    return grad

data = pd.DataFrame({'x1': [1, 2, 3, 4, 5], 'x2': [2, 4, 6, 8, 10], 'y': [4, 8, 12, 16, 20]})
X = data[['x1', 'x2']].values
y = data['y'].values

w = np.random.randn(2)
eta = 1e-2
diff = 1e-6

error = mse(X.dot(w), y)
num_iterations = 0
while True:
    w -= eta * gradient(X, y, w)
    new_error = mse(X.dot(w), y)
    if abs(new_error - error) < diff:
        break
    error = new_error
    num_iterations += 1

print('Weights:', w)
print('Final error:', error)
print('Number of iterations:', num_iterations)

Weights: [0.404606   1.79769493]
Final error: 1.887511090985731e-08
Number of iterations: 5
