## Домашнее задание по неделе 4

Как было рассказано на лекции, стохастический градиентый спуск сходится быстрее, чем полный, хотя и менее стабильно. В этом задании вам предлагается реализовать стохастический градиентный спуск и сравнить его с точным вычислением весов линейной модели по скорости работы и значению метрики качества.

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import warnings

np.random.seed(0)

warnings.filterwarnings('ignore')
%matplotlib inline

### Задание 0

Реализуйте класс ```LinearRegressionSGD``` c обучением и и применением линейной регрессии, построенной с помощью стохастического градиентного спуска, с заданным интерфейсом.

Обратите внимание на следуюшие моменты:
- Схожий класс использовался в семинаре. Ознакомление с ним упростит вам задачу.
- Выбирайте **10** случайных сэмплов (равномерно) каждый раз. 
- Используйте параметры по умолчанию (epsilon=1e-6, max_steps=10000, w0=None, alpha=1e-8)
- Выход из цикла осуществуется по сравнению 2-нормы разницы весов с epsilon, а функция потерь - MSE. (все, как в семинаре =)

- При желании можете экспериментировать, попробовать выбирать 1<k<n случайных сэмплов и делиться результатами на форуме!

In [13]:
from sklearn.base import BaseEstimator

class LinearRegressionSGD(BaseEstimator):
    def __init__(self, epsilon=1e-6, max_steps=10000, w0=None, alpha=1e-8):
        """
        epsilon: разница для нормы изменения весов 
        max_steps: максимальное количество шагов в градиентном спуске
        w0: np.array (d,) - начальные веса
        alpha: шаг обучения
        """
        self.epsilon = epsilon
        self.max_steps = max_steps
        self.w0 = w0
        self.alpha = alpha
        self.w = None
        self.w_history = []
    
    def fit(self, X, y):
        """
        X: np.array (l, d)
        y: np.array (l)
        ---
        output: self
        """
        ## На каждом шаге градиентного спуска веса можно добавлять в w_history (для последующей отрисовки)
        ## Для выполнения шага выберите 10 случайных(равномерно) сэмплов
        
        l, d = X.shape
        
        if self.w0 is None:
            self.w0 = np.zeros(d)
            
        self.w = self.w0
        
        for step in range(self.max_steps):
            self.w_history.append(self.w)
            
            w_new = self.w - self.alpha * self.calc_gradient(X, y)
            
            if (np.linalg.norm(w_new - self.w) < self.epsilon):
                break
                
            self.w = w_new
        
        return self
    
    def predict(self, X):
        """
        X: np.array (l, d)
        ---
        output: np.array (l)
        """
        
        if self.w is None:
            raise Exception("Not trained yet")
            
        y_pred = np.dot(X, self.w)
            
        return y_pred
    
    def calc_gradient(self, X, y):
        """
        X: np.array (l, d)
        y: np.array (l)
        ---
        output: np.array (d)
        """

        l, d = X.shape
        
        gradient = np.zeros((d, ))
        indeces = np.random.randint(0, d, (10, ))
        
        for index in indeces:
            gradient.append((2/l) * np.dot(X.T, (np.dot(X, self.w) - y))# np.dot(X[:, index].T, (np.dot(X[:, index], self.w[index]) - y[index])))
            
        return gradient

Проверять работу мы будем на имеющемся в sklearn наборе данных boston: в нём нужно по информации о доме предсказать его стоимость.

In [14]:
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

data = load_boston()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

X_train, X_test, y_train, y_test = train_test_split(np.array(X), y, test_size=0.3, random_state=10)

### Задание 1

Метрикой качества в нашей задаче будет MAPE - Mean Absolute Percentage Error. Реализуйте её с заданным интефейсом и вычислите 
```MAPE(y_test, y_0)```, где ```y_0 = (mean(y_test), mean(y_test), ...)```

- Не забудьте умножить значение отношения на 100

In [15]:
def MAPE(y_true, y_pred):
    """
        y_true: np.array (l)
        y_pred: np.array (l)
        ---
        output: float [0, +inf)
    """
        
    return np.sum(np.abs((y_true - y_pred) / y_true)) * (100 / len(y_true))

In [16]:
y_0 = [np.mean(y_test)] * y_test.shape[0]

res_mape = MAPE(y_test, y_0)

res_mape

# your code here


37.41588297684097

In [17]:
# проверка, просто запустите ячейку


### Задание 2 

Обучите ```LinearRegressionSGD``` с базовыми параметрами на тренировочном наборе данных (```X_train```, ```y_train```), сделайте предсказание на тестовых данных ```X_test```, записав результат в переменную ```y_pred_sgd```  и вычислите ошибку MAPE. Проверяться будет ошибка в переменной ```res_mape_SGD```.

In [18]:
sgd = LinearRegressionSGD().fit(X_train, y_train)

y_pred_sgd = sgd.predict(X_test)

res_mape_SGD = MAPE(y_test, y_pred_sgd)

res_mape_SGD

# your code here


ValueError: setting an array element with a sequence.

In [8]:
# проверка, просто запустите ячейку


### Задание 3

Вычислите веса по точной формуле, используя ```X_train``` и ```y_train```; предскажите с их помощью целевую переменную на ```X_test```, записав результат в переменную ```y_pred_lr``` и вычислите ошибку MAPE.

In [9]:
w_true = np.dot(np.dot(np.linalg.inv(np.dot(X_train.T, X_train)), X_train.T), y_train)

y_pred_lr = np.dot(X_test, w_true)

res_mape_form = MAPE(y_test, y_pred_lr)

res_mape_form

# your code here


18.953134816377787

In [10]:
# проверка, просто запустите ячейку


## Бонусное задание по неделе 4

До этого вы релизовывали модели, в которых не было штрафа за величину весов ```w```. Как было рассказано ранее в лекциях, это может привести к неустойчивости модели и переобучению. Чтобы избежать этих эффектов, предлагается добавить к оптимизируемому функционалу L2-норму весов; таким образом, будем решать задачу гребневой регрессии, Ridge:

$$ \frac{1}{l}(Xw-y)^T(Xw-y) +\gamma||w||_2 \rightarrow \min_{w}. $$

### Задание 11
Реализуйте обучение такой модели в матричном виде (смотрите дополнительные материалы к этой неделе) с помощью стохастического градиентного спуска. Класс должен совпадать по набору реализованных функций с ```LinearRegressionVectorized```, разница будет лишь в параметре $\gamma$, отвечающем за степень регуляризации. 

In [11]:
class RidgeSGD(BaseEstimator):
    def __init__(self, epsilon=1e-6, max_steps=10000, w0=None, alpha=1e-8, gamma=0):
        """
        epsilon: разница для нормы изменения весов 
        max_steps: максимальное количество шагов в градиентном спуске
        w0: np.array (d,) - начальные веса
        alpha: шаг обучения
        gamma: коэффициент регуляризации
        """
        self.epsilon = epsilon
        self.max_steps = max_steps
        self.w0 = w0
        self.alpha = alpha
        self.gamma = gamma
        self.w = None
        self.w_history = []
    
    def fit(self, X, y):
        """
        X: np.array (l, d)
        y: np.array (l)
        ---
        output: self
        """
        ## На каждом шаге градиентного спуска веса можно добавлять в w_history (для последующей отрисовки)
        ## Для выполнения шага выберите 10 случайных(равномерно) сэмплов
        
        l, d = X.shape
        
        if self.w0 is None:
            self.w0 = np.zeros(d)
            
        self.w = self.w0
        
        for step in range(self.max_steps):
            self.w_history.append(self.w)
            
            w_new = self.w - self.alpha * self.calc_gradient(X, y)
            
            if (np.linalg.norm(w_new - self.w) < self.epsilon):
                break
                
            self.w = w_new
        
        return self
    
    def predict(self, X):
        """
        X: np.array (l, d)
        ---
        output: np.array (l)
        """
        
        if self.w is None:
            raise Exception("Not trained yet")
            
        y_pred = np.dot(X, self.w)
            
        return y_pred
    
    def calc_gradient(self, X, y):
        """
        X: np.array (l, d)
        y: np.array (l)
        ---
        output: np.array (d)
        """

        l, d = X.shape
        
        gradient = np.zeros((d, ))
        indeces = np.random.randint(0, d, (10, ))
        
        for index in indeces:
            gradient[index] = (2/l) * np.dot(X[:, index].T, (np.dot(X[:, index], self.w[index]) - y[index])) + 2 * self.gamma * self.w[index]
            
        return gradient

Так же, как и в основном задании, обучите модель с базовыми параметрами на тренировочных данных и сделайте прогноз y_pred_ridge. Выведите значение MAPE(y_test, y_pred_ridge).

In [12]:
ridge = RidgeSGD(gamma=5).fit(X_train, y_train)

y_pred_ridge = ridge.predict(X_test)

res_mape_ridge = MAPE(y_test, y_pred_ridge)

res_mape_ridge

76.10631287593901