### Урок 11. Домашняя работа

**Задание простого уровня** Мы говорили, что метрики качества нужны, чтобы сравнивать различные модели между собой. В задаче полиномиальной регрессии реализуйте код для выбора лучшей степени полиному:

* возьмите все степени от 1 до 10 по порядку, без пропусков.
* найдите степень полинома, где будет лучший r2-score
* напишите код, который выводит самую подходящую степень полинома и соответствующий ей скор

Эта процедура называется Grid Search и помогает найти лучшие параметры для модели.

Обучите лучшую модель и сделайте predict

In [53]:
import numpy as np
import pandas as pd
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

data = pd.read_csv('3.10_non_linear.csv', sep=',')
data.head()

Unnamed: 0,x_train,y_train
0,0.138368,0.838812
1,0.157237,0.889313
2,0.188684,1.43004
3,0.685553,1.717309
4,0.874237,2.032588


In [54]:
def generate_degrees(source_data: list, degree: int):
    """Функция, которая принимает на вход одномерный массив, а возвращает n-мерный
    
    Для каждой степени от 1 до  degree возводим x в эту степень
    """
    return np.array([
          source_data**n for n in range(1, degree + 1)  
    ]).T

In [55]:
from sklearn.metrics import mean_squared_error

def train_polynomial(degree, data):
    """Генерим данные, тренируем модель
    
    дополнительно рисуем график
    """
    
    X = generate_degrees(data['x_train'], degree)

    model = LinearRegression().fit(X, data['y_train'])
    y_pred = model.predict(X)

    error =  r2_score(data['y_train'], y_pred)
    return error

In [56]:
def find_best_polinom(data, max_n):
    errors = np.array([train_polynomial(n, data) for n in range(1,max_n+1) ])    
    best_degree = np.argmax(errors)+1
    return best_degree, errors[best_degree-1]

In [64]:
result = find_best_polinom(data, 10)
print('Подходящая степень полинома %s, ошибка %s' % result)

Подходящая степень полинома 10, ошибка 0.9091133831297264


In [67]:
X = generate_degrees(data['x_train'], 10)

model = LinearRegression().fit(X, data.y_train)
y_pred = model.predict(X)
y_pred

array([ 0.8821009 ,  1.01897615,  1.21593657,  1.90777399,  1.89320072,
        1.96799166,  1.99510721,  2.00255721,  2.05113549,  2.05904869,
        2.07135523,  2.08488912,  2.08789359,  2.05782452,  1.96152906,
        1.7075292 ,  1.25295926,  1.19221977,  1.0369195 ,  1.00291069,
        0.88643149,  0.87018977,  0.4841843 ,  0.44549176,  0.29608624,
        0.26126528,  0.2025231 ,  0.19922486,  0.17116337,  0.1521614 ,
        0.1521614 ,  0.15070412,  0.14577301,  0.13117668,  0.09362254,
        0.08594863,  0.07275961,  0.06757112, -0.00888384, -0.00456118,
        0.00499669,  0.05865977,  0.10034339,  0.22510017,  0.27123155,
        0.37545149,  0.56831659,  0.96442781,  0.93519201,  0.93519201])

**Задание среднего уровня** Напишите класс для обучения модели, который содержит:

* функцию `.fit(X, y)` , которая принимает на вход массив фичей `X`, массив таргетов `y` и обучает коэффициенты регрессии. Код для обучения взять из первого урока модуля *Постановка ML задачи линейной регрессии*
* функцию `.predict(X)`, которая по массиву фичей `X` возвращает массив предсказаний `y`

Нужно использовать код для аналитически вычисляемых коэффициентов. 

Это задание позволит понять, как работает линейная регрессия "внутри" библиотечной реализации.

In [75]:
import numpy as np
from numpy.linalg import inv

In [76]:
class CustomLinearReg:
    def __init__(self):
        self.w = []
    
    def fit(self, X, y):
        X_new = [1 for i in range(1+len(X)-1)]+X
        X_new = np.array(X_new).reshape(-1,2, order='F')
        Y_new = np.array(y).reshape(-1,1)
        X_T_X = (X_new.T).dot(X_new)
        X_T_X_inverted = inv(X_T_X)
        self.w = X_T_X_inverted.dot(X_new.T).dot(Y_new)
        return self
    
    def predict(self, X):
        X_new = [1 for i in range(1+len(X)-1)]+X
        X_new = np.array(X_new).reshape(-1,2, order='F')
        res = X_new.dot(self.w)
        print(res)

In [77]:
x_hw = [50, 60, 70, 100]
y_hw = [10, 15, 40, 45]

reg= CustomLinearReg().fit(x_hw, y_hw)
reg.predict(x_hw)

[[13.21428571]
 [20.35714286]
 [27.5       ]
 [48.92857143]]


**Задание высокого уровня**

1. разделите датасет с домами Бостона из Урока 2 (таргет и фичи) на две части: в одной части 80% датасета (назовём train) в другой 20% (назовём valid) с помощью функции `train_test_split` из библиотеки `sklearn`
1. обучите модель только на train датасете
1. постройте предсказания valid датасете
1. Посчитайте  `r2 score` на валидационном сете

После этого примените к обеим датасетам z-преобразование и повторите шаги 2-4. Как изменилась метрика r2?

Это задание поможет понять, как валидировать линейную регрессию (и другие модели) на отложенной выборке.

In [78]:
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler

  return f(*args, **kwds)


In [82]:
boston_dataset = load_boston()

features_train = boston_dataset.data[:round(boston_dataset.data.shape[0]*0.8),:]
features_valid = boston_dataset.data[round(boston_dataset.data.shape[0]*0.8):,:]

y_train = boston_dataset.target[:round(boston_dataset.target.shape[0]*0.8)]
y_valid = boston_dataset.target[round(boston_dataset.target.shape[0]*0.8):]

reg = LinearRegression().fit(features_train, y_train)

y_pred = reg.predict(features_valid)

error_before = r2_score(y_valid, y_pred)


y_train = StandardScaler().fit_transform(y_train.reshape(-1,1)).reshape(-1) 
y_valid = StandardScaler().fit_transform(y_valid.reshape(-1,1)).reshape(-1)

reg = LinearRegression().fit(features_train, y_train)

y_pred = reg.predict(features_valid)

error_after = r2_score(y_valid, y_pred)
error_after

print('r2 score до z-преобразования %f, после %f' %(error_before, error_after))

r2 score до z-преобразования -0.252942, после 0.062840


Вывод:
Из данных приведеных выше, после z-преоброзования r2 score стал больше, значит ошибка уменьшилась.