<a href="https://colab.research.google.com/github/sikalovaliza/ml/blob/main/LinReg_task.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Линейная регрессия. Работа с признаками

## Описание задачи и загрузка данных

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

В этом задании мы рассмотрим различные аспекты построения линейной модели. Мы будем работать с одним из классических наборов данных в статистике, содержащим информацию о бриллиантах. Описание можно посмотреть [здесь](https://www.kaggle.com/shivam2503/diamonds).

In [3]:
data = pd.read_csv('https://raw.githubusercontent.com/evgpat/edu_stepik_practical_ml/main/datasets/diamonds.csv')
data.head(5)

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


Посмотрим на типы столбцов.

In [4]:
data.dtypes

Unnamed: 0,0
Unnamed: 0,int64
carat,float64
cut,object
color,object
clarity,object
depth,float64
table,float64
price,int64
x,float64
y,float64


Мы будем решать задачу предсказания цены бриллианта `price` в зависимости от его характеристик.

## Построение модели

### Задание 1

Есть ли в наборе данных пропущенные значения? Если да, удалите их.

Также выведите на экран число пропусков в каждом столбце.

In [5]:
# your code here
data.isnull().sum()
#пропущенных значений нет

Unnamed: 0,0
Unnamed: 0,0
carat,0
cut,0
color,0
clarity,0
depth,0
table,0
price,0
x,0
y,0


### Задача 2

Есть ли в наборе данных бессмысленные столбцы (признаки, не несущие дополнительной информации)?  
Если да, то удалите их.

In [9]:
# your code here
data = data.drop('Unnamed: 0', axis=1)


KeyError: "['Unnamed: 0'] not found in axis"

In [11]:
data.sample(5)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
48962,0.34,Premium,H,VS2,61.3,60.0,537,4.47,4.53,2.76
43695,0.5,Premium,F,VS2,60.9,58.0,1436,5.1,5.14,3.12
4532,0.91,Premium,E,SI2,62.8,61.0,3639,6.09,6.07,3.82
3486,0.9,Premium,I,VS2,61.8,59.0,3398,6.15,6.21,3.82
37297,0.38,Ideal,F,VS1,62.5,56.0,978,4.6,4.62,2.88


### Задание 3

Линейная регрессия основана на предположении о линейной связи между признаками и целевой переменной, а потому перед выбором переменных для включения в модель имеет смысл проверить, насколько эта связь выполняется. Для следующих пунктов нам также потребуются корреляции между признаками.  
Выведите матрицу корреляций между всеми вещественными признаками и целевой переменной.

Какой вещественный признак коррелирует с целевой переменной больше всего?

In [16]:
# your code here
new_data = data[['carat', 'depth', 'table', 'price', 'x', 'y', 'z']]
new_data.corr()['price']

Unnamed: 0,price
carat,0.921591
depth,-0.010647
table,0.127134
price,1.0
x,0.884435
y,0.865421
z,0.861249


### Задание 4

Так как линейная модель складывает значения признаков с некоторыми весами, нам нужно аккуратно обработать категориальные признаки. Закодируйте категориальные переменные при помощи OneHot-кодирования ([`pd.get_dummies`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)). Не забудьте поставить значение параметра `drop_first` равным `True`.

Сколько получилось столбцов в таблице `data`?

*P.S. Числовые столбцы оставляем в таблице без изменений.*

In [17]:
# your code here
data = pd.get_dummies(data, columns=['cut', 'color', 'clarity'], drop_first=True)
data.sample(5)

Unnamed: 0,carat,depth,table,price,x,y,z,cut_Good,cut_Ideal,cut_Premium,...,color_H,color_I,color_J,clarity_IF,clarity_SI1,clarity_SI2,clarity_VS1,clarity_VS2,clarity_VVS1,clarity_VVS2
12961,1.0,62.1,58.0,5390,6.34,6.45,3.97,False,False,False,...,False,False,False,False,True,False,False,False,False,False
46312,0.3,62.3,55.0,526,4.29,4.34,2.69,False,True,False,...,True,False,False,False,False,False,True,False,False,False
32499,0.33,60.3,58.0,797,4.52,4.5,2.72,False,False,True,...,False,False,False,False,False,False,True,False,False,False
17339,1.23,62.4,61.0,6957,6.85,6.8,4.26,False,False,True,...,True,False,False,False,False,False,False,True,False,False
27364,0.28,62.1,56.0,646,4.19,4.21,2.61,False,True,False,...,False,False,False,False,False,False,False,False,False,True


In [18]:
data.shape

(53940, 24)

### Задание 5

Создайте матрицу `X`, содержащую все признаки, и не содержащую целевую переменную `price`. Также создайте вектор `y`, содержащий целевую переменную `price`.

In [20]:
# your code here
y = data['price']
X = data.drop('price', axis=1)
#X = data.drop(columns=['price'])

Разделите выборку на тренировочную и тестовую. Долю тестовой выборки укажите равной `0.3`.

При разбиении укажите `random_state = 42`.

In [21]:
from sklearn.model_selection import train_test_split

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.3, random_state = 42)

### Задание 6

Зачастую при использовании линейных моделей вещественные признаки масштабируются.  В этой задаче масштабируйте вещественные признаки тренировочной и тестовой выборок при помощи модуля `StandardScaler`.

*  Обучите (`fit`) scaler на тренировочных данных
*  Преобразуйте (`transform`) и трейн, и тест

После применения масштабирования матрица перестает быть объектом `pandas.DataFrame` - решите эту проблему.

In [22]:
from sklearn.preprocessing import StandardScaler

# your code here
scaler = StandardScaler()
scaler.fit(Xtrain)

X_train_scaler=scaler.transform(Xtrain)
X_test_scaler=scaler.transform(Xtest)

Xtrain = pd.DataFrame(X_train_scaler, columns=X.columns)
Xtest = pd.DataFrame(X_test_scaler, columns=X.columns)

In [23]:
Xtrain.sample(5)

Unnamed: 0,carat,depth,table,x,y,z,cut_Good,cut_Ideal,cut_Premium,cut_Very Good,...,color_H,color_I,color_J,clarity_IF,clarity_SI1,clarity_SI2,clarity_VS1,clarity_VS2,clarity_VVS1,clarity_VVS2
164,-1.198115,-1.011418,3.834924,-1.608716,-1.551405,-1.632128,3.175804,-0.814732,-0.585893,-0.539653,...,-0.429307,-0.333294,-0.234494,-0.184885,-0.568277,-0.451216,-0.422668,-0.542475,3.700247,-0.320388
6050,0.442093,-1.011418,2.936697,0.708064,0.66386,0.546569,3.175804,-0.814732,-0.585893,-0.539653,...,2.329335,-0.333294,-0.234494,-0.184885,1.759705,-0.451216,-0.422668,-0.542475,-0.270252,-0.320388
856,0.694433,0.178549,0.242014,0.806082,0.820847,0.827692,-0.314881,-0.814732,1.706796,-0.539653,...,-0.429307,-0.333294,-0.234494,-0.184885,-0.568277,2.216235,-0.422668,-0.542475,-0.270252,-0.320388
11496,-0.567266,-0.59143,0.691128,-0.50379,-0.461216,-0.535751,-0.314881,1.227398,-0.585893,-0.539653,...,-0.429307,-0.333294,-0.234494,-0.184885,-0.568277,-0.451216,-0.422668,1.843403,-0.270252,-0.320388
36107,-1.029889,-0.101443,-1.105327,-1.243377,-1.17638,-1.196389,-0.314881,1.227398,-0.585893,-0.539653,...,-0.429307,-0.333294,-0.234494,5.408771,-0.568277,-0.451216,-0.422668,-0.542475,-0.270252,-0.320388


### Задание 7

Обучите линейную регрессию на тренировочной выборке. Выведите *r2-score* на тренировочной и тестовой выборках.

In [26]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# your code here
model = LinearRegression()
model.fit(Xtrain, ytrain)

y_train_pred = model.predict(Xtrain)
y_test_pred = model.predict(Xtest)

r2_train=r2_score(ytrain, y_train_pred)
r2_test=r2_score(ytest, y_test_pred)

print(f'R² на тренировочной выборке: {r2_train:.4f}')
print(f'R² на тестовой выборке: {r2_test:.4f}')

R² на тренировочной выборке: 0.9196
R² на тестовой выборке: 0.9202


### Задание 8

Выведите на экран веса, которые линейная регрессия присвоила признакам.

Какой признак имеет наибольший отрицательный вес? (наибольший по модулю среди всех отрицательных весов)

In [33]:
# your code here
weights = model.coef_
feature_names = Xtrain.columns.tolist()
weights_df = pd.DataFrame({'Признаки': feature_names, 'Коэффициенты': weights})
print(weights_df)

         Признаки  Коэффициенты
0           carat   5338.615671
1           depth    -90.173817
2           table    -60.332280
3               x  -1100.418850
4               y     -6.458917
5               z    -34.258945
6        cut_Good    170.602933
7       cut_Ideal    414.369515
8     cut_Premium    339.239204
9   cut_Very Good    310.654256
10        color_E    -83.640021
11        color_F   -104.560993
12        color_G   -202.863564
13        color_H   -362.002300
14        color_I   -442.783567
15        color_J   -529.449216
16     clarity_IF    975.933641
17    clarity_SI1   1611.571681
18    clarity_SI2   1042.921215
19    clarity_VS1   1670.318496
20    clarity_VS2   1817.664208
21   clarity_VVS1   1284.809475
22   clarity_VVS2   1461.034194


## Попытка улучшить качество модели

Данная часть является творческой, и задания в ней немного сложнее, чем предыдущие.

Следующие вопросы не проверяются тестами.

### Задание 9

Как можно заметить из анализа корреляционной матрицы в задании 3, между некоторыми признаками имеется сильная корреляция, что может быть индикатором проблемы *мультиколлинеарности*. Различия в порядке коэффициентов, выявленные в предыдущей задаче, также свидетельствуют об этом. Для решения этой проблемы можно либо исключить некоторые признаки из модели (например, если признак линейно зависим с какими-то другими, его можно исключить из модели, т.е. удалить из матрицы объект-признак и заново обучить модель).

Удалите из матриц `Xtrain` и `Xtest` признак, который наиболее сильно коррелирует с остальными. Заново обучите модель и оцените её качество. Улучшилось ли качество модели?

Попробуйте удалить какой-то другой признак (можете попробовать несколько вариантов). Помогло ли это улучшить качество модели?

In [None]:
# your code here

### Задание 10

Иногда генерация новых признаков помогает модели лучше находить взаимосвязи между целевой переменной и признаками. Попробуйте придумать новые признаки и добавить их в модель.  

Помогло ли это улучшить качество модели?

In [None]:
# your code here