### Урок 11. Домашняя работа

**Задание простого уровня** Мы говорили, что метрики качества нужны, чтобы сравнивать различные модели между собой. В задаче полиномиальной регрессии реализуйте код для выбора лучшей степени полиному:

* возьмите все степени от 1 до 10 по порядку, без пропусков.
* найдите степень полинома, где будет лучший r2-score
* напишите код, который выводит самую подходящую степень полинома и соответствующий ей скор

Эта процедура называется Grid Search и помогает найти лучшие параметры для модели.

Обучите лучшую модель и сделайте predict

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score


def optimal_degree(source_data: list, max_degree: int):
    
    optimal_degree = 1
    top_error = -5
    
    for degree in range(1, max_degree+1):
        X = np.array([source_data['x_train']**n for n in range(1, degree + 1)]).T
    
        model = LinearRegression().fit(X, data['y_train'])
        y_pred = model.predict(X)

        error = r2_score(data['y_train'], y_pred)
        if 1 - error < 1 - top_error:
            optimal_degree, top_error = degree, error

    print('Лучшая степень полинома %d Ошибка %.7f' % (optimal_degree, top_error))       

In [2]:
data = pd.read_csv('3.10_non_linear.csv', sep=',')

In [3]:
# Применяем функцию
degree = 10
optimal_degree(data, degree)

Лучшая степень полинома 10 Ошибка 0.9091134


In [4]:
X = np.array([data['x_train']**n for n in range(1, degree+1)]).T

model = LinearRegression().fit(X, data['y_train'])

y_pred = model.predict(X)
y_pred

array([ 0.8821006 ,  1.01897586,  1.21593628,  1.90777376,  1.89320051,
        1.96799147,  1.99510703,  2.00255703,  2.05113532,  2.05904852,
        2.07135506,  2.08488896,  2.08789343,  2.05782437,  1.96152892,
        1.70752908,  1.25295916,  1.19221967,  1.03691941,  1.0029106 ,
        0.88643141,  0.87018969,  0.48418425,  0.44549171,  0.29608621,
        0.26126526,  0.20252309,  0.19922486,  0.17116338,  0.15216143,
        0.15216143,  0.15070416,  0.14577305,  0.13117674,  0.09362263,
        0.08594872,  0.07275972,  0.06757122, -0.00888368, -0.00456099,
        0.00499688,  0.05865998,  0.10034361,  0.22510042,  0.27123181,
        0.37545175,  0.56831688,  0.9644282 ,  0.9351924 ,  0.9351924 ])

**Задание среднего уровня** Напишите класс для обучения модели, который содержит:

* функцию `.fit(X, y)` , которая принимает на вход массив фичей `X`, массив таргетов `y` и обучает коэффициенты регрессии. Код для обучения взять из первого урока модуля *Постановка ML задачи линейной регрессии*
* функцию `.predict(X)`, которая по массиву фичей `X` возвращает массив предсказаний `y`

Нужно использовать код для аналитически вычисляемых коэффициентов. 

Это задание позволит понять, как работает линейная регрессия "внутри" библиотечной реализации.

In [5]:
class CustomLinearReg:
    def __init__(self):
        self.w = np.array([])
    
    def fit(self, X, y):
        X_T_X = X.T.dot(X)
        self.w = np.linalg.inv(X_T_X).dot(X.T).dot(y)
    
    def predict(self, X):
        y_pred = X.dot(self.w)
        return y_pred

In [6]:
reg = CustomLinearReg()
reg.fit(data[['x_train']], data['y_train'])
reg.predict(data[['y_train']])

0     0.111033
1     0.117717
2     0.189293
3     0.227318
4     0.269052
5     0.246251
6     0.248712
7     0.321659
8     0.308136
9     0.291695
10    0.292232
11    0.183733
12    0.227482
13    0.278407
14    0.303810
15    0.260125
16    0.098740
17    0.153654
18    0.112151
19    0.100016
20    0.172688
21    0.141164
22    0.089606
23    0.076664
24    0.017655
25    0.022666
26    0.025959
27   -0.009533
28    0.015634
29    0.061773
30    0.041777
31    0.028452
32    0.006660
33    0.014051
34    0.007562
35   -0.007578
36    0.059465
37   -0.044492
38   -0.005061
39    0.012608
40    0.041435
41   -0.030611
42    0.003301
43    0.055425
44    0.021937
45    0.035222
46    0.088613
47    0.118124
48    0.167562
49    0.088004
dtype: float64

**Задание высокого уровня**

1. разделите датасет с домами Бостона из Урока 2 (таргет и фичи) на две части: в одной части 80% датасета (назовём train) в другой 20% (назовём valid) с помощью функции `train_test_split` из библиотеки `sklearn`
1. обучите модель только на train датасете
1. постройте предсказания valid датасете
1. Посчитайте  `r2 score` на валидационном сете

После этого примените к обеим датасетам z-преобразование и повторите шаги 2-4. Как изменилась метрика r2?

Это задание поможет понять, как валидировать линейную регрессию (и другие модели) на отложенной выборке.

In [7]:
from sklearn.datasets import load_boston

boston_dataset = load_boston()

features = boston_dataset.data
y = boston_dataset.target

In [8]:
from sklearn.model_selection import train_test_split

[features_train, features_valid, y_train, y_valid] = train_test_split(features, y, train_size=0.8, test_size=0.2)

In [9]:
model = LinearRegression().fit(features_train, y_train)
y_pred = model.predict(features_valid)

In [10]:
error = r2_score(y_valid, y_pred)
error

0.7620852445816576

In [11]:
from sklearn.preprocessing import StandardScaler

transformed_features = StandardScaler().fit_transform(features)
transformed_y = StandardScaler().fit_transform(y.reshape(-1, 1)).reshape(-1)

In [12]:
[tr_features_train, tr_features_valid, tr_y_train, tr_y_valid] = train_test_split(transformed_features, 
                                                                                  transformed_y,
                                                                                  train_size=0.8, test_size=0.2)

In [13]:
model = LinearRegression().fit(tr_features_train, tr_y_train)
tr_y_pred = model.predict(tr_features_valid)

In [14]:
r2_score(tr_y_valid, tr_y_pred)

0.701190392050731

`r2_score` ухудшилась после применения Z-преобразования