## Домашнее задание по неделе 4

Как было рассказано на лекции, стохастический градиентый спуск сходится быстрее, чем полный, хотя и менее стабильно. В этом задании вам предлагается реализовать стохастический градиентный спуск и сравнить его с точным вычислением весов линейной модели по скорости работы и значению метрики качества.

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import warnings

np.random.seed(0)

warnings.filterwarnings('ignore')
%matplotlib inline

### Задание 0

Реализуйте класс ```LinearRegressionSGD``` c обучением и и применением линейной регрессии, построенной с помощью стохастического градиентного спуска, с заданным интерфейсом.

In [41]:
from sklearn.base import BaseEstimator

class LinearRegressionSGD(BaseEstimator):
    def __init__(self, epsilon=1e-4, max_steps=100, w0=None, alpha=1e-4, batch_size=1):
        """
        epsilon: разница для нормы изменения весов
        max_steps: максимальное количество шагов в градиентном спуске
        w0: np.array (d,) - начальные веса
        alpha: шаг обучения
        """
        self.epsilon = epsilon
        self.max_steps = max_steps
        self.w0 = w0
        self.alpha = alpha
        self.w = None
        self.batch_size = batch_size
        self.w_history = []

    def fit(self, X, y):
        """
        X: np.array (l, d)
        y: np.array (l)
        ---
        output: self
        """
        l, d = X.shape
        if self.w0 is None:
          self.w0 = np.random.rand(d)
          print(self.w0)

        self.w = self.w0
        w_new = 0
        for step in range(self.max_steps):
          self.w_history.append(self.w)
          indices = np.random.choice(l, self.batch_size, replace=False)
          X_batch = X.iloc[indices]
          y_batch = y.iloc[indices]
          w_new = self.w - self.alpha * self.calc_gradient(X_batch, y_batch)
          if (np.linalg.norm(w_new - self.w) < self.epsilon):
            break

          self.w = w_new
        if (np.linalg.norm(w_new - self.w) < self.epsilon):
          print("Breaked because of diff wath less then epsilon")
        else:
          print("Breaked because of steps wath more then we can do")
        return self

    def predict(self, X):
        """
        X: np.array (l, d)
        ---
        output: np.array (l)
        """
        if self.w is None:
            raise Exception('Not trained yet')

        return np.dot(X, self.w)

    def calc_gradient(self, X, y):
        """
        X: np.array (l, d)
        y: np.array (l)
        ---
        output: np.array (d)
        """

        l, d = X.shape
        return (2/l) * np.dot(X.T,(np.dot(X, self.w) - y))

Проверять работу мы будем на имеющемся в sklearn наборе данных.
Возьмем стандартный [датасет](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html) со стоимостью жилья в различных районах Калифорнии в 1990 году.  Датасет содержит информацию о средних ценах на жилье в районе и какие-то параметры района: средний возраст домов, среднее число комнат, население

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing
data = fetch_california_housing(as_frame=True)
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10)

In [3]:
X_train.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
17853,5.3994,23.0,5.019157,1.022989,910.0,3.48659,37.44,-121.88
15963,3.9567,52.0,5.173664,1.127863,1848.0,3.526718,37.71,-122.44
20106,3.05,17.0,5.383764,1.095941,753.0,2.778598,37.94,-120.29
15525,2.25,16.0,4.331113,1.10942,2737.0,2.604186,33.14,-117.05
5234,2.0187,39.0,4.876068,1.102564,1313.0,5.611111,33.94,-118.23


### Задание 1

Метрикой качества в нашей задаче будет MAPE - Mean Absolute Percentage Error. Реализуйте её с заданным интефейсом и вычислите
```MAPE(y_test, y_0)```, где ```y_0 = (mean(y_test), mean(y_test), ...)```

In [16]:
import numpy as np

def MAPE(y_true, y_pred):
    """
    y_true: np.array (l) - истинные значения
    y_pred: np.array (l) - предсказанные значения
    ---
    output: float [0, +inf) - средняя абсолютная процентная ошибка
    """
    
    return np.abs((y_true - y_pred) / y_true).mean()


In [34]:
y_0 = np.full_like(y_test, np.mean(y_test))

np.round(MAPE(y_test, y_0) * 100, 1)

62.2

### Задание 2

Обучите ```LinearRegressionSGD``` с базовыми параметрами на тренировочном наборе данных (```X_train```, ```y_train```), сделайте предсказание на тестовых данных ```X_test```, записав результат в переменную ```y_pred_sgd```  и вычислите ошибку MAPE.

In [42]:
sgd = LinearRegressionSGD()

y_pred_sgd = sgd.fit(X_train, y_train).predict(X_test)
y_pred_sgd
# y_train
# MAPE(y_test, y_pred_sgd)

[0.15026141 0.57633841 0.36305149 0.15266238 0.99353665 0.58360663
 0.3608084  0.25723578]
Breaked because of diff wath less then epsilon


array([1.10851052e+235, 4.94831447e+235, 5.03787227e+235, ...,
       3.61886111e+235, 1.99705356e+235, 2.65038574e+235])

### Задание 3

Вычислите веса по точной формуле, используя ```X_train``` и ```y_train```; предскажите с их помощью целевую переменную на ```X_test```, записав результат в переменную ```y_pred_lr``` и вычислите ошибку MAPE.

In [None]:
## y_pred_lr = ...

MAPE(y_test, y_pred_lr)

## Бонусное задание по неделе 4

До этого вы релизовывали модели, в которых не было штрафа за величину весов ```w```. Как было рассказано ранее в лекциях, это может привести к неустойчивости модели и переобучению. Чтобы избежать этих эффектов, предлагается добавить к оптимизируемому функционалу L2-норму весов; таким образом, будем решать задачу гребневой регрессии, Ridge:

$$ \frac{1}{l}(Xw-y)^T(Xw-y) +\gamma||w||_2 \rightarrow \min_{w}. $$

### Задание 11
Реализуйте обучение такой модели в матричном виде (смотрите дополнительные материалы к этой неделе) с помощью стохастического градиентного спуска. Класс должен совпадать по набору реализованных функций с ```LinearRegressionVectorized```, разница будет лишь в параметре $\gamma$, отвечающем за степень регуляризации.

In [None]:
class RidgeSGD(BaseEstimator):
    def __init__(self, epsilon=1e-4, max_steps=1000, w0=None, alpha=1e-2, gamma=0):
        """
        epsilon: разница для нормы изменения весов
        max_steps: максимальное количество шагов в градиентном спуске
        w0: np.array (d,) - начальные веса
        alpha: шаг обучения
        gamma: коэффициент регуляризации
        """
        self.epsilon = epsilon
        self.max_steps = max_steps
        self.w0 = w0
        self.alpha = alpha
        self.gamma = gamma
        self.w = None
        self.w_history = []

    def fit(self, X, y):
        """
        X: np.array (l, d)
        y: np.array (l)
        ---
        output: self
        """
        return self

    def predict(self, X):
        """
        X: np.array (l, d)
        ---
        output: np.array (l)
        """
        pass


    def calc_gradient(self, X, y):
        """
        X: np.array (l, d)
        y: np.array (l)
        ---
        output: np.array (d)
        """
        pass

Так же, как и в основном задании, обучите модель с базовыми параметрами на тренировочных данных и сделайте прогноз y_pred_ridge. Выведите значение MAPE(y_test, y_pred_ridge).