## Домашнее задание 2: Линейные модели. Работа с признаками

Правила:

* Домашнее задание оценивается в 10 баллов.

* Можно использовать без доказательства любые результаты, встречавшиеся на лекциях или семинарах по курсу, если получение этих результатов не является вопросом задания.

* Можно использовать любые свободные источники с *обязательным* указанием ссылки на них.

* Плагиат не допускается.

* Старайтесь сделать код как можно более оптимальным и читаемым.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.max_columns', None)

%pylab inline

%pylab is deprecated, use %matplotlib inline and import the required libraries.
Populating the interactive namespace from numpy and matplotlib


В этом задании мы рассмотрим различные аспекты построения линейной модели. Мы будем работать с одним из классических наборов данных в статистике, содержащим информацию о бриллиантах. Описание можно посмотреть [здесь](https://www.kaggle.com/shivam2503/diamonds).

In [2]:
df = pd.read_csv('diamonds.csv')
df.head(5)

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


Мы будем решать задачу предсказания цены бриллианта `price` в зависимости от его характеристик.

## Построение модели

**Задание 1 (1 балл)** Есть ли в наборе данных пропущенные значения? Если да, удалите их. 

In [3]:
df.isna().any()

Unnamed: 0    False
carat         False
cut           False
color         False
clarity       False
depth         False
table         False
price         False
x             False
y             False
z             False
dtype: bool

Нет пропущенных значений

**Задача 2 (1 балл)** Есть ли в наборе данных бессмысленные столбцы (признаки, не несущие дополнительной информации)? Если да, то удалите их. Поясните свой выбор (напишите текстом обоснование).

In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [5]:
df.drop(columns='Unnamed: 0',inplace=True)

Индес старый нам не нужен

**Задание 3 (1 балл)** Линейная регрессия основана на предположении о линейной связи между признаками и целевой переменной, а потому перед выбором переменных для включения в модель имеет смысл проверить, насколько эта связь выполняется. Для следующих пунктов нам также потребуются корреляции между признаками. Выведите матрицу корреляций между всеми вещественными признаками и целевой переменной.

Какие вещественные признаки коррелируют с целевой переменной больше всего?

In [6]:
corr = df.corr()
corr.style.background_gradient(cmap='coolwarm')

  corr = df.corr()


Unnamed: 0,carat,depth,table,price,x,y,z
carat,1.0,0.028224,0.181618,0.921591,0.975094,0.951722,0.953387
depth,0.028224,1.0,-0.295779,-0.010647,-0.025289,-0.029341,0.094924
table,0.181618,-0.295779,1.0,0.127134,0.195344,0.18376,0.150929
price,0.921591,-0.010647,0.127134,1.0,0.884435,0.865421,0.861249
x,0.975094,-0.025289,0.195344,0.884435,1.0,0.974701,0.970772
y,0.951722,-0.029341,0.18376,0.865421,0.974701,1.0,0.952006
z,0.953387,0.094924,0.150929,0.861249,0.970772,0.952006,1.0


Сильно со стоимостью коррелируют караты, x, y и z

**Задание 4 (1 балл)** Так как линейная модель складывает значения признаков с некоторыми весами, нам нужно аккуратно обработать категориальные признаки. Закодируйте категориальные переменные при помощи OneHot-кодирования (pd.get_dummies). Не забудьте поставить значение параметра drop_first равным True.

In [7]:
df.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [8]:
df['cut'].unique()

array(['Ideal', 'Premium', 'Good', 'Very Good', 'Fair'], dtype=object)

In [9]:
df = pd.get_dummies(df, columns=['cut','color','clarity'], drop_first=True)
df.head()

Unnamed: 0,carat,depth,table,price,x,y,z,cut_Good,cut_Ideal,cut_Premium,cut_Very Good,color_E,color_F,color_G,color_H,color_I,color_J,clarity_IF,clarity_SI1,clarity_SI2,clarity_VS1,clarity_VS2,clarity_VVS1,clarity_VVS2
0,0.23,61.5,55.0,326,3.95,3.98,2.43,0,1,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0
1,0.21,59.8,61.0,326,3.89,3.84,2.31,0,0,1,0,1,0,0,0,0,0,0,1,0,0,0,0,0
2,0.23,56.9,65.0,327,4.05,4.07,2.31,1,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0
3,0.29,62.4,58.0,334,4.2,4.23,2.63,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0
4,0.31,63.3,58.0,335,4.34,4.35,2.75,1,0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0


**Задание 5 (1 балл)** 
Создайте матрицу X, содержащую все признаки, и не содержащую целевую переменную price. Также создайте вектор y, содержащий целевую переменную price.

In [10]:
X, y = df.drop(columns='price'), df['price']

**Задание 5 (1 балл)** 
Перемешайте данные! 

Разделите выборку на тренировочную и тестовую. Долю тестовой выборки укажите равной 0.3.

In [11]:
from sklearn.model_selection import train_test_split

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.25, random_state=42)

**Задание 6 (1 балл)** Зачастую при использовании линейных моделей вещественные признаки масштабируются.  В этой задаче масштабируйте вещественные признаки тренировочной и тестовой выборок при помощи модуля `StandardScaler`.

После применения масштабирования матрица перестает быть объектом Pandas Dataframe - решите эту проблему.

In [12]:
from sklearn.preprocessing import StandardScaler

scal = StandardScaler()

scal.fit(Xtrain)

Xtrain = pd.DataFrame(scal.transform(Xtrain),columns=Xtrain.columns)

Xtest = pd.DataFrame(scal.transform(Xtest),columns=Xtest.columns)

Xtest.head()

Unnamed: 0,carat,depth,table,x,y,z,cut_Good,cut_Ideal,cut_Premium,cut_Very Good,color_E,color_F,color_G,color_H,color_I,color_J,clarity_IF,clarity_SI1,clarity_SI2,clarity_VS1,clarity_VS2,clarity_VVS1,clarity_VVS2
0,-1.177742,0.248451,-0.654923,-1.572152,-1.518219,-1.506668,-0.314298,1.224493,-0.584781,-0.53926,-0.471543,-0.464401,1.95201,-0.430045,-0.331935,-0.234343,-0.185303,-0.568416,-0.451683,-0.422514,-0.54239,3.706441,-0.320244
1,-0.461102,-1.221088,-0.206254,-0.261429,-0.276765,-0.393939,-0.314298,-0.816665,-0.584781,1.854394,-0.471543,2.153313,-0.512292,-0.430045,-0.331935,-0.234343,-0.185303,-0.568416,-0.451683,-0.422514,-0.54239,-0.269801,3.122616
2,-0.8405,0.248451,-1.103591,-0.86775,-0.871264,-0.830579,-0.314298,1.224493,-0.584781,-0.53926,2.120696,-0.464401,-0.512292,-0.430045,-0.331935,-0.234343,-0.185303,-0.568416,-0.451683,-0.422514,-0.54239,-0.269801,3.122616
3,-0.777267,-0.661264,-0.206254,-0.725086,-0.740125,-0.788324,-0.314298,-0.816665,1.710041,-0.53926,2.120696,-0.464401,-0.512292,-0.430045,-0.331935,-0.234343,-0.185303,-0.568416,-0.451683,-0.422514,-0.54239,-0.269801,3.122616
4,1.58343,0.388407,-1.103591,1.521868,1.428047,1.50756,-0.314298,1.224493,-0.584781,-0.53926,2.120696,-0.464401,-0.512292,-0.430045,-0.331935,-0.234343,-0.185303,-0.568416,2.21394,-0.422514,-0.54239,-0.269801,-0.320244


**Задание 7 (1 балл)** Обучите линейную регрессию на тренировочной выборке. Выведите r2-score на тренировочной и тестовой выборках.

In [13]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

lr = LinearRegression()

lr.fit(Xtrain,ytrain)
preds = lr.predict(Xtest)

r2_score(ytest, preds)

0.9195675153810781

**Задание 8 (1 балл)** Выведите на экран веса, которые линейная регрессия присвоила признакам. Назовите вещественные переменные, оценки коэффициентов которых по модулю на порядок превышают оценки прочих вещественных переменных.

In [14]:
lr.intercept_

3942.538301816833

In [15]:
coeff_df = pd.DataFrame(zip(Xtrain.columns, lr.coef_)).sort_values(by=1,key=abs,ascending=False).reset_index(drop=True)
coeff_df

Unnamed: 0,0,1
0,carat,5325.998182
1,clarity_VS2,1808.884783
2,clarity_VS1,1659.89298
3,clarity_SI1,1602.080481
4,clarity_VVS2,1453.634517
5,clarity_VVS1,1276.23234
6,x,-1107.015014
7,clarity_SI2,1033.984046
8,clarity_IF,971.941337
9,color_J,-529.149674


## Попытка улучшить качество модели

Эта часть является творческой, и задания в ней немного сложнее, чем предыдущие. Поэтому за каждое из них можно получить до двух баллов.

**Задание 9* (2 балла)** Как можно заметить из анализа корреляционной матрицы в задании 3, между некоторыми признаками имеется сильная корреляция, что может быть индикатором проблемы *мультиколлинеарности*. Различия в порядке коэффициентов, выявленные в предыдущей задаче, также свидетельствуют об этом. Для решения этой проблемы можно либо исключить некоторые признаки из модели (например, если признак линейно зависим с какими-то другими, его можно исключить из модели, т.е. удалить из матрицы объект-признак и заново обучить модель).

Удалите из матриц Xtrain и Xtest признак, который наиболее сильно коррелирует с остальными. Заново обучите модель и оцените её качество. Улучшилось ли качество модели?
Попробуйте удалить какой-то другой признак (можете попробовать несколько вариантов). Помогло ли это улучшить качество модели?

In [16]:
res = {}

In [17]:
list_of_all_columns = Xtrain.columns
list_of_all_columns

Index(['carat', 'depth', 'table', 'x', 'y', 'z', 'cut_Good', 'cut_Ideal',
       'cut_Premium', 'cut_Very Good', 'color_E', 'color_F', 'color_G',
       'color_H', 'color_I', 'color_J', 'clarity_IF', 'clarity_SI1',
       'clarity_SI2', 'clarity_VS1', 'clarity_VS2', 'clarity_VVS1',
       'clarity_VVS2'],
      dtype='object')

In [18]:
for cols in list_of_all_columns:

    Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.25, random_state=42)

    Xtrain.drop(columns=cols,inplace=True), Xtest.drop(columns=cols, inplace=True)

    scal = StandardScaler()

    scal.fit(Xtrain)

    Xtrain = pd.DataFrame(scal.transform(Xtrain),columns=Xtrain.columns)

    Xtest = pd.DataFrame(scal.transform(Xtest),columns=Xtest.columns)
    
    lr = LinearRegression()

    lr.fit(Xtrain,ytrain)
    preds = lr.predict(Xtest)

    res[cols] = r2_score(ytest, preds)


    r2_score(ytest, preds)

In [19]:
res

{'carat': 0.8426556146303213,
 'depth': 0.9193067235197564,
 'table': 0.9194455793368709,
 'x': 0.9183079528370472,
 'y': 0.9195693017658253,
 'z': 0.9195618084259372,
 'cut_Good': 0.919137683159506,
 'cut_Ideal': 0.9187465268383375,
 'cut_Premium': 0.9188223391709767,
 'cut_Very Good': 0.9189180198102277,
 'color_E': 0.9194312683609228,
 'color_F': 0.9192753690218295,
 'color_G': 0.918658655598859,
 'color_H': 0.9158741395175802,
 'color_I': 0.9126205943521571,
 'color_J': 0.907572063359737,
 'clarity_IF': 0.9038638287505728,
 'clarity_SI1': 0.9094846165834276,
 'clarity_SI2': 0.9142003018391256,
 'clarity_VS1': 0.9038907012851503,
 'clarity_VS2': 0.90550414343824,
 'clarity_VVS1': 0.903164660432828,
 'clarity_VVS2': 0.9022502900674544}

In [418]:
max(res.values())

0.9195693017658253

In [22]:
list(res.keys())[list(res.values()).index(max(res.values()))]

'y'

Если выбросить y, то качество немного возрастет, но совершенно незначительно

**Задание 10* (2 балла)** Иногда генерация новых признаков помогает модели лучше находить взаимосвязи между целевой переменной и признаками. Попробуйте придумать новые признаки и добавить их в модель (можно черпать идеи из ноутбука занятия 3). Помогло ли это улучшить качество модели?

## Выводы

Сделайте выводы, исходя из проделанной работы.

Какого наилучшего качества удалось добиться? Хорошее ли это качество на ваш взгляд? Что для этого вам пришлось сделать?

Также (по желанию) напишите, была ли эта домашняя работа для вас интересной.

In [420]:
# your code here