<a href="https://colab.research.google.com/github/psaw/hse-ai24-ml/blob/main/DataPrep_task.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Обработка признаков

В этом домашнем задании вы будете решать задачу предсказания стоимости автомобилей по их различным характеристикам.

In [70]:
import pandas as pd
import numpy as np


RANDOM_STATE = 42

In [71]:
df = pd.read_csv("https://raw.githubusercontent.com/evgpat/edu_stepik_practical_ml/main/datasets/cars_prices.csv", decimal='.')

In [72]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


### Описание некоторых признаков

`symboling` - rating corresponds to the degree to which the auto is more risky than its price indicates (+3 more risk and -3 is pretty safe)  
`make` - car types (i.e. car brand)  
`fuel-type` - types of fuel (gas or diesel)  
`aspiration` - engine aspiration (standard or turbo)  
`num-of-doors` - numbers of doors (two or four)  
`body-style` - car body style (sedan or hachback)  
`drive-wheels` - which types of drive wheel (forward-fwd, reversed-rwd)  
`engine-location` - engine mounted location (front or back)  
`wheel-base` - расстояние между осями передних и задних колес  
`length` - car lenght  
`weight` - car weight  
`width` - car width  
`height` - car height  

In [73]:
df.shape

(205, 26)

In [74]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

## Заполнение пропусков

Пропуски в этом датасете обозначены как `?`

In [75]:
for c in df.columns:
    print(c, len(df[df[c] == '?']))

symboling 0
normalized-losses 41
make 0
fuel-type 0
aspiration 0
num-of-doors 2
body-style 0
drive-wheels 0
engine-location 0
wheel-base 0
length 0
width 0
height 0
curb-weight 0
engine-type 0
num-of-cylinders 0
engine-size 0
fuel-system 0
bore 4
stroke 4
compression-ratio 0
horsepower 2
peak-rpm 2
city-mpg 0
highway-mpg 0
price 4


Удалите строки, для которых неизвестно значение price, так как это целевая переменная.

## Вопрос для Quiz

Сколько строк осталось в данных?

In [76]:
# your code here
df = df[df['price']!='?']
df.shape

(201, 26)

Заполните средним значением пропуски в столбцах для числовых признаков и самым популярным значением для категориальных признаков
* `num-of-doors`
* `bore`
* `stroke`
* `horsepower`
* `peak-rpm`

In [77]:
# Заменяем '?' на NaN
df.replace('?', np.nan, inplace=True)

In [78]:
df['peak-rpm'].astype(float).mean()

5117.587939698493

In [79]:
# Преобразуем столбцы с числовыми данными в нужный формат
num_cols = ['bore', 'stroke', 'horsepower', 'peak-rpm']
df[num_cols] = df[num_cols].astype(float)

# Заполняем пропуски средним значением для числовых признаков
for col in num_cols:
    df[col].fillna(df[col].mean(), inplace=True)

# Заполняем пропуски самым популярным значением для категориальных признаков
cat_cols = ['num-of-doors']
for col in cat_cols:
    df[col].fillna(df[col].mode()[0], inplace=True)

# Проверяем результат
print(df.isnull().sum())

symboling             0
normalized-losses    37
make                  0
fuel-type             0
aspiration            0
num-of-doors          0
body-style            0
drive-wheels          0
engine-location       0
wheel-base            0
length                0
width                 0
height                0
curb-weight           0
engine-type           0
num-of-cylinders      0
engine-size           0
fuel-system           0
bore                  0
stroke                0
compression-ratio     0
horsepower            0
peak-rpm              0
city-mpg              0
highway-mpg           0
price                 0
dtype: int64


In [80]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          201 non-null    int64  
 1   normalized-losses  164 non-null    object 
 2   make               201 non-null    object 
 3   fuel-type          201 non-null    object 
 4   aspiration         201 non-null    object 
 5   num-of-doors       201 non-null    object 
 6   body-style         201 non-null    object 
 7   drive-wheels       201 non-null    object 
 8   engine-location    201 non-null    object 
 9   wheel-base         201 non-null    float64
 10  length             201 non-null    float64
 11  width              201 non-null    float64
 12  height             201 non-null    float64
 13  curb-weight        201 non-null    int64  
 14  engine-type        201 non-null    object 
 15  num-of-cylinders   201 non-null    object 
 16  engine-size        201 non

## Вопрос для Quiz

Чему равно среднее значение `peak-rpm` до заполнения пропусков? Ответ округлите до целого числа.

5118

Пропуски в столбце `normalized-losses` предскажите при помощи линейной регрессии по признакам
`symboling`, `wheel-base`, `length`, `width`, `height`, `curb-weight`, `engine-size`, `compression-ratio`, `city-mpg`, `highway-mpg` и заполните их предсказаниями

In [81]:
from sklearn.linear_model import LinearRegression

# your code here
# Преобразуем normalized-losses в числовой формат
df['normalized-losses'] = df['normalized-losses'].astype(float)

# Убираем строки с NaN в целевой переменной и независимых переменных
train_data = df.dropna(subset=['normalized-losses'])
X_train = train_data[['symboling', 'wheel-base', 'length', 'width', 'height',
                       'curb-weight', 'engine-size', 'compression-ratio',
                       'city-mpg', 'highway-mpg']]
y_train = train_data['normalized-losses']

In [82]:
# Создаем и обучаем модель линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказываем значения для строк с NaN в normalized-losses
missing_data = df[df['normalized-losses'].isnull()]
X_missing = missing_data[['symboling', 'wheel-base', 'length', 'width', 'height',
                           'curb-weight', 'engine-size', 'compression-ratio',
                           'city-mpg', 'highway-mpg']]

predictions = model.predict(X_missing)

In [83]:
predictions

array([168.07249262, 168.07249262, 134.0017988 , 150.03347669,
       124.36459916, 136.54127678, 127.28771126, 138.09039231,
       130.51306948, 113.6478041 , 155.82813541, 175.60424066,
       166.04457052,  88.0845543 , 122.53305095, 127.5822689 ,
       161.54047049, 154.33123955, 132.97923436, 178.13829126,
       179.87212963, 179.97064318, 131.27495017, 119.95762868,
       144.30448909, 121.04127767, 177.84275063, 157.63816248,
       157.63816248, 158.50508167,  98.29098277, 154.71344201,
       121.38477454, 137.06488059, 108.12442301,  94.62530543,
       106.22799742])

In [84]:
# Заполняем пропуски предсказанными значениями
df.loc[df['normalized-losses'].isnull(), 'normalized-losses'] = predictions

# Проверяем результат
print(df['normalized-losses'].isnull().sum())

0


## Вопрос для Quiz

Чему равно предсказание линейной регрессии на первом пропущенном значении? Ответ округлите до целого числа.

168

## 2. Кодирование категориальных признаков

1. Закодируйте бинарные признаки `fuel-type`, `aspiration`, `num-of-doors`, `engine-location` каждый отдельной колонкой, состоящей из 0 и 1.
Единицей кодируйте самую частую категорию.

In [85]:
# your code here
# Функция для бинарного кодирования
def binary_encode(df, column):
    # Находим самую частую категорию
    most_frequent = df[column].mode()[0]
    # Создаем новую колонку, где 1 - это самая частая категория, 0 - остальные
    df[column + '_encoded'] = (df[column] == most_frequent).astype(int)

# Кодируем каждый из указанных признаков
columns_to_encode = ['fuel-type', 'aspiration', 'num-of-doors', 'engine-location']
for col in columns_to_encode:
    binary_encode(df, col)

In [86]:
# Проверяем результат
print(df[[col + '_encoded' for col in columns_to_encode]])

     fuel-type_encoded  aspiration_encoded  num-of-doors_encoded  \
0                    1                   1                     0   
1                    1                   1                     0   
2                    1                   1                     0   
3                    1                   1                     1   
4                    1                   1                     1   
..                 ...                 ...                   ...   
200                  1                   1                     1   
201                  1                   0                     1   
202                  1                   1                     1   
203                  0                   0                     1   
204                  1                   0                     1   

     engine-location_encoded  
0                          1  
1                          1  
2                          1  
3                          1  
4                          1

2. Вынесите в переменную `y` целевую переменную `price`, а все остальные колонки - в матрицу `X`.

Закодируйте признаки `make`, `body-style`, `engine-type`, `fuel-system` при помощи LeaveOneOutEncoder.

**Дальше все время работайте с объектами `X`, `y`.**

In [87]:
!pip install category-encoders==2.4



In [88]:
# Преобразуем price в числовой формат (если это еще не сделано)
df['price'] = df['price'].astype(float)

# Выделяем целевую переменную y
y = df['price']

# Выделяем все остальные колонки в матрицу X
X = df.drop(columns=['price'])

# Проверяем размеры y и X
print("Размер y:", y.shape)
print("Размер X:", X.shape)

Размер y: (201,)
Размер X: (201, 29)


In [89]:
from category_encoders.leave_one_out import LeaveOneOutEncoder

# your code here
# Создаем экземпляр LeaveOneOutEncoder
encoder = LeaveOneOutEncoder()

# Кодируем указанные признаки
X_encoded = X.copy()  # Создаем копию X, чтобы сохранить оригинал
columns_to_encode = ['make', 'body-style', 'engine-type', 'fuel-system']

# Применяем LeaveOneOutEncoder для каждого из указанных признаков
for col in columns_to_encode:
    X_encoded[col] = encoder.fit_transform(X[col], y)



In [90]:
X_encoded.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,fuel-type_encoded,aspiration_encoded,num-of-doors_encoded,engine-location_encoded
0,3,168.072493,16500.0,gas,std,two,23569.6,rwd,front,88.6,...,2.68,9.0,111.0,5000.0,21,27,1,1,0,1
1,3,168.072493,14997.5,gas,std,two,22968.6,rwd,front,88.6,...,2.68,9.0,111.0,5000.0,21,27,1,1,0,1
2,1,134.001799,14997.5,gas,std,two,9859.791045,rwd,front,94.5,...,3.47,9.0,154.0,5000.0,19,26,1,1,0,1
3,2,164.0,18641.0,gas,std,four,14465.236559,fwd,front,99.8,...,3.4,10.0,102.0,5500.0,24,30,1,1,1,1
4,2,164.0,17941.0,gas,std,four,14427.602151,4wd,front,99.4,...,3.4,8.0,115.0,5500.0,18,22,1,1,1,1


## Вопрос для Quiz

Чему равно среднее значение в столбце `body-style` после кодирования? Ответ округлите до целого числа.

In [91]:
X_encoded['body-style'].mean()

13207.129353233831

3. Закодируйте признак `drive-wheels` при помощи OHE из библиотеки category_encoders.

In [92]:
!pip install pandas==1.5
# иначе возникает ошибка
# AttributeError: 'Series' object has no attribute 'iteritems'



In [93]:
from category_encoders.one_hot import OneHotEncoder

# your code here

# Создаем экземпляр OneHotEncoder
encoder = OneHotEncoder(cols=['drive-wheels'], use_cat_names=True)

# Применяем кодирование
X_encoded = encoder.fit_transform(X_encoded)

  for cat_name, class_ in values.iteritems():


In [94]:
X_encoded.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels_rwd,drive-wheels_fwd,drive-wheels_4wd,...,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,fuel-type_encoded,aspiration_encoded,num-of-doors_encoded,engine-location_encoded
0,3,168.072493,16500.0,gas,std,two,23569.6,1,0,0,...,2.68,9.0,111.0,5000.0,21,27,1,1,0,1
1,3,168.072493,14997.5,gas,std,two,22968.6,1,0,0,...,2.68,9.0,111.0,5000.0,21,27,1,1,0,1
2,1,134.001799,14997.5,gas,std,two,9859.791045,1,0,0,...,3.47,9.0,154.0,5000.0,19,26,1,1,0,1
3,2,164.0,18641.0,gas,std,four,14465.236559,0,1,0,...,3.4,10.0,102.0,5500.0,24,30,1,1,1,1
4,2,164.0,17941.0,gas,std,four,14427.602151,0,0,1,...,3.4,8.0,115.0,5500.0,18,22,1,1,1,1


4. В столбце `num-of-cylinders` категории упорядочены по смыслу. Закодируйте их подряд идущими числами, начиная с 1, согласно смыслу.

Подряд идущими числами означает - 1, 2, 3 и так далее без пропусков.

In [95]:
# your code here
# Определяем порядок категорий
cylinder_mapping = {
    'two': 1,
    'three': 2,
    'four': 3,
    'five': 4,
    'six': 5,
    'eight': 6,
    'twelve': 7
}

# Кодируем num-of-cylinders
X_encoded['num-of-cylinders'] = X_encoded['num-of-cylinders'].replace(cylinder_mapping)

In [96]:
# Проверяем результат
X_encoded[['num-of-cylinders']]

Unnamed: 0,num-of-cylinders
0,3
1,3
2,5
3,3
4,4
...,...
200,3
201,3
202,5
203,5


## Вопрос для Quiz

Сколько столбцов получилось в матрице `X`?

In [97]:
X_encoded.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 204
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   symboling                201 non-null    int64  
 1   normalized-losses        201 non-null    float64
 2   make                     201 non-null    float64
 3   fuel-type                201 non-null    object 
 4   aspiration               201 non-null    object 
 5   num-of-doors             201 non-null    object 
 6   body-style               201 non-null    float64
 7   drive-wheels_rwd         201 non-null    int64  
 8   drive-wheels_fwd         201 non-null    int64  
 9   drive-wheels_4wd         201 non-null    int64  
 10  engine-location          201 non-null    object 
 11  wheel-base               201 non-null    float64
 12  length                   201 non-null    float64
 13  width                    201 non-null    float64
 14  height                   2

In [98]:
X_encoded.drop(['fuel-type', 'aspiration', 'num-of-doors', 'engine-location'], axis=1, inplace=True)

In [100]:
X_encoded.shape

(201, 27)

In [101]:
X_encoded['normalized-losses'] = X_encoded['normalized-losses'].astype(float)
X_encoded['bore'] = X_encoded['bore'].astype(float)
X_encoded['stroke'] = X_encoded['stroke'].astype(float)
X_encoded['horsepower'] = X_encoded['horsepower'].astype(float)
X_encoded['peak-rpm'] = X_encoded['peak-rpm'].astype(float)

y = y.astype(float)

Разбейте данные на тренировочную и тестовую часть в пропорции 3 к 1, зафиксируйте random_state = 42.

In [102]:
from sklearn.model_selection import train_test_split

# your code here
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.25, random_state=42)

Масштабируйте данные при помощи MinMaxScaler.

Обучайте масштабирование на тренировочных данных, а потом примените и к трейну, и к тесту.

In [103]:
from sklearn.preprocessing import MinMaxScaler

# your code here
# Создаем экземпляр MinMaxScaler
scaler = MinMaxScaler()

# Обучаем масштабирование на тренировочных данных
X_train_scaled = scaler.fit_transform(X_train)

# Применяем масштабирование к тестовым данным
X_test_scaled = scaler.transform(X_test)

# Преобразуем обратно в DataFrame для удобства
X_train_scaled = pd.DataFrame(X_train_scaled, columns=X_train.columns)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=X_test.columns)


Обучите на тренировочных данных линейную регрессию, сделайте предсказание на тесте и вычислите значение $R^2$ на тестовых данных.

In [105]:
# your code here
from sklearn.metrics import r2_score

# Создаем и обучаем модель линейной регрессии
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# Делаем предсказание на тестовых данных
y_pred = model.predict(X_test_scaled)

# Вычисляем значение R^2 на тестовых данных
r2 = r2_score(y_test, y_pred)

print("Значение R^2 на тестовых данных:", r2)

Значение R^2 на тестовых данных: 0.9088107324676913


## Вопрос для Quiz

Чему равно значение $R^2$ на тестовых данных? Ответ округлите до сотых.

0.91