## Многомерная линейная регрессия из sklearn

In [1]:
import numpy as np
import warnings
from sklearn.datasets import make_regression
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression, SGDRegressor, Lasso

In [2]:
X, y = make_regression(n_samples = 10000)
print(X.shape, y.shape)

(10000, 100) (10000,)


У нас 10000 объектов и 100 признаков. Для начала решим задачу аналитически "из коробки".

In [3]:
reg = LinearRegression().fit(X, y)
print(mean_squared_error(y, reg.predict(X)))
reg.coef_

2.619957835812702e-25


array([ 9.68230640e-14, -3.33066907e-14,  8.08242362e-14,  3.73034936e-14,
        3.33376241e+00,  5.62160448e+01, -7.06101844e-14, -1.77635684e-15,
       -8.52651283e-14, -2.64233080e-14,  3.28626015e-14,  3.28626015e-14,
        1.06581410e-14, -2.62567745e-14,  7.28306304e-14, -7.10542736e-15,
        8.61113405e+01, -5.32907052e-15, -4.79616347e-14,  6.08402217e-14,
        2.48689958e-14,  1.77635684e-14,  3.55271368e-14,  9.23705556e-14,
        2.13162821e-14, -1.24344979e-14, -3.90798505e-14, -3.55271368e-15,
        3.01980663e-14,  3.41948692e-14,  2.84217094e-14,  6.03961325e-14,
        2.27345007e+01,  3.78803227e+01, -2.08721929e-14, -6.26165786e-14,
       -3.06421555e-14, -9.99200722e-14,  5.41788836e-14, -9.76996262e-14,
        1.87981903e+01, -3.55271368e-14,  4.70734562e-14, -6.75015599e-14,
       -9.59787805e-14,  2.48689958e-14, -2.55351296e-15, -1.03916875e-13,
       -6.57252031e-14,  2.66453526e-15,  1.90958360e-14, -3.46389584e-14,
        6.48370246e-14, -

Теперь попробуем обучить линейную регрессию методом градиентного спуска "из коробки".

In [4]:
reg = SGDRegressor(alpha = 0.00000001).fit(X, y)
print(mean_squared_error(y, reg.predict(X)))
reg.coef_

3.553264604811319e-12


array([ 3.06854691e-09, -4.18181583e-08,  5.52675653e-08,  5.32867269e-08,
        3.33376240e+00,  5.62160442e+01,  5.54449968e-08,  2.87677552e-08,
       -8.05639500e-09,  2.42660106e-08,  1.10837187e-08,  5.18185751e-09,
       -2.59473592e-08, -2.89735827e-08, -5.07963256e-08,  2.68112184e-08,
        8.61113397e+01, -4.22635242e-08, -1.16558140e-08,  1.59535467e-08,
        2.68941502e-09, -1.79630199e-08, -3.91794477e-08, -2.59475180e-08,
        5.38865128e-08, -1.31258742e-08,  2.33222267e-08,  8.82733917e-09,
        3.63348244e-09, -1.39049607e-10, -1.18080098e-08, -2.37316202e-08,
        2.27345005e+01,  3.78803223e+01,  4.82476003e-08,  3.08507763e-08,
       -1.56813385e-08, -2.11890394e-08, -4.73571270e-08,  2.07121286e-08,
        1.87981901e+01,  4.76543008e-08, -7.20627781e-08,  1.52830819e-08,
       -4.90817013e-08, -2.18510911e-08, -2.46117346e-08, -1.05446329e-07,
        2.45665989e-08, -3.08284821e-08, -4.65110322e-08, -9.88177290e-09,
        3.72029066e-09,  

***Задание 1 (0.5 балла).*** Объясните, чем вызвано различие двух полученных значений метрики?

Различие двух полученных значений метрики вызвано различием способов минимизации функции потерь и их гиперпараметрами. В случае LinearRegression скорее всего используется стандартный или модифицированный SVD-метод, в случае же с SGDRegressor SGD-метод. Конкретно же данное различие вызвано наличием в SGDRegressor по умолчанию включённой l2-регуляризации с указанным параметром alpha. Его можно установить равным нулю для того, чтобы значение MSE было близко к значению MSE, полученному при обучении LinearRegression.

***Задание 2 (0.5 балла).*** Подберите гиперпараметры в методе градиентного спуска так, чтобы значение MSE было близко к значению MSE, полученному при обучении LinearRegression.

In [5]:
reg = SGDRegressor(alpha = 0.0).fit(X, y)
print(mean_squared_error(y, reg.predict(X)))
reg.coef_

7.541996130079201e-25


array([-2.00689848e-14, -4.18774170e-15,  5.42208616e-15,  3.64788917e-15,
        3.33376241e+00,  5.62160448e+01,  1.32064198e-14,  1.69346207e-14,
       -4.83131763e-14, -6.78597331e-15, -1.27959255e-14,  1.32792030e-14,
        9.22536480e-15, -6.87486875e-15,  1.08551963e-14,  2.17523129e-14,
        8.61113405e+01,  1.13219812e-14,  5.87039218e-15,  1.33939107e-14,
       -1.35147201e-14, -1.00187838e-14, -5.26272728e-15, -5.39412541e-15,
       -9.95001878e-16, -1.26063004e-14, -1.61251088e-14, -1.19440460e-15,
        1.17541617e-14, -1.02653644e-15, -1.85152282e-14,  1.14743711e-15,
        2.27345007e+01,  3.78803227e+01, -8.58898998e-15, -6.21808017e-15,
       -7.39413435e-15, -4.29333338e-15, -1.85299710e-14, -2.38998504e-14,
        1.87981903e+01,  1.88089974e-14, -2.28134157e-14,  3.07668434e-15,
       -2.48103559e-14, -1.99816769e-16,  1.36927840e-14,  1.09584870e-14,
        8.39406108e-15, -1.18828255e-14,  1.64287272e-14, -1.93415136e-16,
       -2.59796225e-14, -

## Моя многомерная линейная регрессия

***Задание 3 (5 баллов)***. Напишите собственную многомерную линейную регрессию, оптимизирующую MSE методом *градиентного спуска*. Для этого используйте шаблонный класс.

Критерий останова: либо норма разности весов на текущей и предыдущей итерациях меньше определенного значения (первый и третий варианты), либо модуль разности функционалов качества (MSE) на текущей и предыдущей итерациях меньше определенного значения (второй и четвертый варианты). Также предлагается завершать обучение в любом случае, если было произведено слишком много итераций.

In [6]:
class LinearRegression(object):
    def __init__(self, alpha = 0.0001, tol = 0.001, max_iter = 1000):
        self.a = alpha
        self.e = tol
        self.n = max_iter

    def fit(self, X, y): # Будем использовать векторную форму

        features = np.c_[X, np.ones(len(X))] # Добавляем столбец с единицами к матрице признаков
        weights = np.ones(features.shape[1]) # Инициализируем вектор подбираемых весов
        diff_mse = 1
        steps = 0
        mse = 1

        while(diff_mse >= self.e):

            if steps > self.n:
                break

            y_pred = features @ weights.T # Вычисляем вектор прогнозируемых значений
            grad = features.T @ (y - y_pred) # Вычисляем вектор частных производных (градиент)

            diff_mse = np.abs((np.sum(np.square(y - y_pred)) / float(len(y))) - mse) # Вычисляем модуль разности MSE
            weights = weights.T + (self.a * grad) # Вычисляем вектор обновленных весов

            if (np.isnan(np.sum(np.sqrt(np.square(grad))))):
                warnings.warn('The model diverged, too big learning rate!')

            mse = np.sum(np.square(y - y_pred)) / float(len(y))
            steps = steps + 1

        return weights

    def predict(self, X, weights):
        return weights[:-1] @ np.array(X).T + weights[-1]

In [7]:
my_reg = LinearRegression()
print(mean_squared_error(y, my_reg.predict(X, my_reg.fit(X, y))))

1.9224653340578444e-07


***Задание 5 (1 балл)***. Обучите линейную регрессию из коробки

* с l1-регуляризацией (from sklearn.linear_model import Lasso)
* со значением параметра регуляризации 0.1

Обучите вашу линейную регрессию с тем же значением параметра регуляризации и сравните результаты. Сделайте выводы.

In [8]:
reg = Lasso(alpha = 0.1).fit(X, y)
print(mean_squared_error(y, reg.predict(X)))
reg.coef_

0.09870757639434172


array([ 0.        , -0.        , -0.        ,  0.        ,  3.23561289,
       56.12141802, -0.        ,  0.        , -0.        ,  0.        ,
        0.        ,  0.        , -0.        , -0.        ,  0.        ,
        0.        , 86.01139093, -0.        ,  0.        , -0.        ,
       -0.        , -0.        , -0.        ,  0.        ,  0.        ,
        0.        ,  0.        , -0.        , -0.        , -0.        ,
        0.        , -0.        , 22.63568343, 37.78135689,  0.        ,
        0.        , -0.        , -0.        , -0.        ,  0.        ,
       18.70342382,  0.        , -0.        , -0.        , -0.        ,
       -0.        , -0.        , -0.        ,  0.        , -0.        ,
       -0.        , -0.        , -0.        ,  0.        ,  0.        ,
       80.53455096, -0.        ,  0.        ,  0.        , -0.        ,
        0.        ,  0.        , -0.        , -0.        , -0.        ,
        0.        ,  0.        , -0.        , -0.        ,  0.  