# Определение стоимости автомобиля

## Задача

На основе исторических данных необходимо построить модель для определения стоимости автомобиля

## Критерии

- качество предсказания
- скорость предсказания
- время обучения

## Доп. критерии
- Для оценки качества моделей применяйте метрику RMSE.
- Самостоятельно освойте библиотеку LightGBM и её средствами постройте модели градиентного бустинга.
- Время выполнения ячейки кода Jupyter Notebook можно получить специальной командой. Найдите её.
- Поскольку модель градиентного бустинга может обучаться долго, измените у неё только два-три параметра.

# Шаг 1. Загрузка и анализ данных

In [1]:
import pandas as pd
import numpy as np
from math import sqrt
import time

import warnings
warnings.filterwarnings("ignore")

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.model_selection import cross_val_score, KFold
from sklearn.dummy import DummyRegressor
from sklearn.model_selection import GridSearchCV

from lightgbm import LGBMRegressor

import matplotlib.pyplot as plt
%matplotlib inline

RAND = 12345

In [2]:
try:
    data = pd.read_csv('/datasets/autos.csv')
except FileNotFoundError:
    data = pd.read_csv('autos.csv')

In [3]:
data.head(5)

Unnamed: 0,DateCrawled,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Kilometer,RegistrationMonth,FuelType,Brand,NotRepaired,DateCreated,NumberOfPictures,PostalCode,LastSeen
0,2016-03-24 11:52:17,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   DateCrawled        354369 non-null  object
 1   Price              354369 non-null  int64 
 2   VehicleType        316879 non-null  object
 3   RegistrationYear   354369 non-null  int64 
 4   Gearbox            334536 non-null  object
 5   Power              354369 non-null  int64 
 6   Model              334664 non-null  object
 7   Kilometer          354369 non-null  int64 
 8   RegistrationMonth  354369 non-null  int64 
 9   FuelType           321474 non-null  object
 10  Brand              354369 non-null  object
 11  NotRepaired        283215 non-null  object
 12  DateCreated        354369 non-null  object
 13  NumberOfPictures   354369 non-null  int64 
 14  PostalCode         354369 non-null  int64 
 15  LastSeen           354369 non-null  object
dtypes: int64(7), object(

In [5]:
data.describe()

Unnamed: 0,Price,RegistrationYear,Power,Kilometer,RegistrationMonth,NumberOfPictures,PostalCode
count,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0,354369.0
mean,4416.656776,2004.234448,110.094337,128211.172535,5.714645,0.0,50508.689087
std,4514.158514,90.227958,189.850405,37905.34153,3.726421,0.0,25783.096248
min,0.0,1000.0,0.0,5000.0,0.0,0.0,1067.0
25%,1050.0,1999.0,69.0,125000.0,3.0,0.0,30165.0
50%,2700.0,2003.0,105.0,150000.0,6.0,0.0,49413.0
75%,6400.0,2008.0,143.0,150000.0,9.0,0.0,71083.0
max,20000.0,9999.0,20000.0,150000.0,12.0,0.0,99998.0


## Описание данных

Признаки:
- DateCrawled — дата скачивания анкеты из базы
- VehicleType — тип автомобильного кузова
- RegistrationYear — год регистрации автомобиля
- Gearbox — тип коробки передач
- Power — мощность (л. с.)
- Model — модель автомобиля
- Kilometer — пробег (км)
- RegistrationMonth — месяц регистрации автомобиля
- FuelType — тип топлива
- Brand — марка автомобиля
- NotRepaired — была машина в ремонте или нет
- DateCreated — дата создания анкеты
- NumberOfPictures — количество фотографий автомобиля
- PostalCode — почтовый индекс владельца анкеты (пользователя)
- LastSeen — дата последней активности пользователя

Целевой признак:
- Price — цена (евро)

Сначала проанализируем признаки:
- DateCrawled - дата скачивания анкеты из базы врятли влияет на стоимость автомобиля
- RegistrationMonth - у нас есть информация о годе, месяц избыточен и обычно никого не интересует
- NumberOfPictures - просто нулевой признак с такой же нулевой пользой
- PostalCode, LastSeen, DataCreated - столбцы с сомнительной полезностью

Удалим из стоблцы забракованные признаки

In [6]:
data = data.drop([
#     'DateCrawled', 
#     'RegistrationMonth', 
    'NumberOfPictures', 
    'PostalCode', 
    'LastSeen', 
    'DateCreated'], 
    axis=1)

Оценим кол-во дубликатов

In [7]:
duplicates = data.duplicated().sum()
print(f'Кол-во дубликатов: {duplicates}, процент пропусков от общего кол-ва: {round(duplicates/len(data), 3) * 100}%')

Кол-во дубликатов: 25, процент пропусков от общего кол-ва: 0.0%


Удаляем дубликаты

In [8]:
data = data.drop_duplicates()
data.shape

(354344, 12)

Продолжим анализ признаков,

Подробнее посмотрим на распределенее признаков

In [9]:
data.describe(percentiles=[.01, .05, 0.25, .5, .75, .95])

Unnamed: 0,Price,RegistrationYear,Power,Kilometer,RegistrationMonth
count,354344.0,354344.0,354344.0,354344.0,354344.0
mean,4416.561477,2004.234563,110.091352,128212.330391,5.714574
std,4514.167328,90.231117,189.855996,37904.408738,3.726447
min,0.0,1000.0,0.0,5000.0,0.0
1%,0.0,1980.0,0.0,5000.0,0.0
5%,200.0,1992.0,0.0,40000.0,0.0
25%,1050.0,1999.0,69.0,125000.0,3.0
50%,2700.0,2003.0,105.0,150000.0,6.0
75%,6400.0,2008.0,143.0,150000.0,9.0
95%,14600.0,2016.0,218.0,150000.0,12.0


Год регистрации автомобиля не может быть раньше 1672 (если верить википедии). Если мы говорим про первый серийный с двигателем внутреннего сгорания то уже не страше 1884 года. На авито были найдены Газ АА 1936 года и Opel Admiral 1938 года...С другой стороны отбросить 1% машин, у которых год выпуска раньше 1979 года будет не большой потерей к тому же раритеты врятли будут искать в нашей системе, так что смело откидываем. Также стоит учесть, что раньше текущей даты регистрации быть не может, а процент выбросов меньше 5, смело откидываем все записи моложе 2022.

Среднестатистическая повозка с объемом двигателя примерно 0.5 литра уже способна выдавать 20-40 л.с. Автомобили с мощность двигателя меньше врятли будут кому-то интересны, так что ограничиваем также не меньше 20 л.с., но и с мощностью в 20000 л.с тоже врятли похоже на правду. Ограничим эксклюзивами в 1000 л.с. для круглового счета.

Остается стоимость авто. Стоимость авто исходя из цены металлома за нее врятли будет меньше 200 евро. Ограничим ими.

In [10]:
data = data.query('1960 < RegistrationYear < 2017 and Price > 200 and 20 < Power < 1000')
data = data.loc[~((data['RegistrationYear'] == 2016) & (data['RegistrationMonth'] > 5))]
data = data.drop(['DateCrawled', 'RegistrationMonth'], axis=1)
data.shape

(288074, 10)

Оценим кол-во пропусков в признаках

In [11]:
pd.DataFrame({'Кол-во пропусков': data.isna().sum(), 'Доля пропусков в %': round(data.isna().sum() / len(data), 3) * 100}).sort_values(by='Доля пропусков в %', ascending=False)

Unnamed: 0,Кол-во пропусков,Доля пропусков в %
NotRepaired,39848,13.8
FuelType,13373,4.6
Model,10156,3.5
VehicleType,7359,2.6
Gearbox,4864,1.7
Price,0,0.0
RegistrationYear,0,0.0
Power,0,0.0
Kilometer,0,0.0
Brand,0,0.0


In [12]:
for item in ['NotRepaired', 'VehicleType', 'FuelType', 'Model', 'Gearbox']:
    print('-'*30)
    print(data[item].value_counts())
    print('-'*30)

------------------------------
no     221635
yes     26591
Name: NotRepaired, dtype: int64
------------------------------
------------------------------
sedan          82122
small          67511
wagon          58670
bus            26093
convertible    18677
coupe          14389
suv            10906
other           2347
Name: VehicleType, dtype: int64
------------------------------
------------------------------
petrol      182185
gasoline     87097
lpg           4630
cng            475
hybrid         198
other           77
electric        39
Name: FuelType, dtype: int64
------------------------------
------------------------------
golf                  23933
other                 19873
3er                   17152
polo                  10090
corsa                  9410
                      ...  
serie_2                   4
elefantino                4
serie_3                   3
range_rover_evoque        2
rangerover                2
Name: Model, Length: 249, dtype: int64
--------------

В признаке Model пропущено всего 5% значений, предполагая что данный признак будет иметь больше значение и с невозможностью восстановить данные, удалим отсутствующие значения.

In [13]:
data = data.loc[~data['Model'].isna()]

Большое кол-во пропусков содержится в признаке NotRepaired. Так как предположительно данный признак также должен иметь огромное влияние на цену и невозможностью предугадать "не бит не крашен", заполним пропуски техническим "unknown"

In [14]:
data['NotRepaired'] = data['NotRepaired'].fillna('unknown')

Данные в столбцах Gearbox, FuelType, VehicleType пропущены в небольшом кол-ве случаев. Предположим, что данные признаки не должны оказывать кардинального влияния на цену, то можно их заполнить модами соответсвующий признаков.

In [15]:
data['VehicleType'] = data['VehicleType'].fillna(data
                                                  .groupby('Model')['VehicleType']
                                                  .transform(lambda x: x.value_counts().idxmax())
                                                 )
data['Gearbox'] = data['Gearbox'].fillna(data
                                         .groupby('Model')['Gearbox']
                                         .transform(lambda x: x.value_counts().idxmax())
                                        )
data['FuelType'] = data['FuelType'].fillna(data
                                           .groupby('Model')['FuelType']
                                           .transform(lambda x: x.value_counts().idxmax())
                                          )

Проверим данные на пропуски

In [16]:
data.isna().sum()

Price               0
VehicleType         0
RegistrationYear    0
Gearbox             0
Power               0
Model               0
Kilometer           0
FuelType            0
Brand               0
NotRepaired         0
dtype: int64

В заключение подправим типы данных

In [17]:
data.columns

Index(['Price', 'VehicleType', 'RegistrationYear', 'Gearbox', 'Power', 'Model',
       'Kilometer', 'FuelType', 'Brand', 'NotRepaired'],
      dtype='object')

In [18]:
# data['Price'] = data['Price'].astype('int16')
data['Price'] = pd.to_numeric(data['Price'], downcast='integer')
data['VehicleType'] = data['VehicleType'].astype('category')
# data['RegistrationYear'] = data['RegistrationYear'].astype('int16')
data['RegistrationYear'] = pd.to_numeric(data['RegistrationYear'], downcast='integer')
data['Gearbox'] = data['Gearbox'].astype('category')
# data['Power'] = data['Power'].astype('int16')
data['Power'] = pd.to_numeric(data['Power'], downcast='integer')
data['Model'] = data['Model'].astype('category')
# data['Kilometer'] = data['Kilometer'].astype('int32')
data['Kilometer'] = pd.to_numeric(data['Kilometer'], downcast='integer')
data['FuelType'] = data['FuelType'].astype('category')
data['Brand'] = data['Brand'].astype('category')
data['NotRepaired'] = data['NotRepaired'].astype('category')

In [19]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 277918 entries, 2 to 354368
Data columns (total 10 columns):
 #   Column            Non-Null Count   Dtype   
---  ------            --------------   -----   
 0   Price             277918 non-null  int16   
 1   VehicleType       277918 non-null  category
 2   RegistrationYear  277918 non-null  int16   
 3   Gearbox           277918 non-null  category
 4   Power             277918 non-null  int16   
 5   Model             277918 non-null  category
 6   Kilometer         277918 non-null  int32   
 7   FuelType          277918 non-null  category
 8   Brand             277918 non-null  category
 9   NotRepaired       277918 non-null  category
dtypes: category(6), int16(3), int32(1)
memory usage: 6.6 MB


## Шаг 2. Обучение моделей.

Сначала преобразуем категориальные признаки с помощью OneHotEncoding

In [20]:
data_ohe = pd.get_dummies(data, drop_first=True)
data_ohe.shape

(277918, 306)

Разделим данные на следующие выборки:
- features
    - train
    - valid
    - test
- target

In [21]:
features = data_ohe.drop('Price', axis=1)
target = data['Price']

In [22]:
X_train, X_test, y_train, y_test = train_test_split(
    features, 
    target, 
    test_size=.2, 
    random_state=RAND
)

# features_train, features_valid, target_train, target_valid = train_test_split(
#     features, 
#     target, 
#     test_size=.25, 
#     random_state=RAND
# )
print(f"Количество строк в target_train по классам: {X_train.shape}")
# print(f"Количество строк в target_valid по классам: {features_valid.shape}")
print(f"Количество строк в target_test по классам: {X_test.shape}")

Количество строк в target_train по классам: (222334, 305)
Количество строк в target_test по классам: (55584, 305)


Также для улучшения качества модели отмасштабируем признаки с помощью StandartScaler

In [23]:
numeric = ['RegistrationYear', 'Power', 'Kilometer']

scaler = StandardScaler().fit(X_train[numeric])

X_train[numeric] = scaler.transform(X_train[numeric])
# features_valid[numeric] = scaler.transform(features_valid[numeric])
X_test[numeric] = scaler.transform(X_test[numeric])

In [24]:
# model, RMSE_valid, RMSE_test, work_time, pred_time, param
results = []

Линейная регрессия

In [25]:
start = time.time()
lr_model = LinearRegression()
mse_valid = cross_val_score(lr_model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
rmse_valid = round(sqrt(-mse_valid.mean()), 2)
end = time.time()
work_time_lr_model = round(end - start, 3)

In [26]:
start = time.time()
lr_model.fit(X_train, y_train)
lr_pred = lr_model.predict(X_test)
mse_test = mean_squared_error(y_test, lr_pred)
rmse_test = round(sqrt(mse_test), 2)
end = time.time()
test_time_lr_model = round(end - start, 3)

In [27]:
results.append([lr_model, rmse_valid, rmse_test, work_time_lr_model, test_time_lr_model, np.nan])
results

[[LinearRegression(), 2536.4, 2529.87, 17.54, 4.347, nan]]

Линейная регрессия с L1 регуляризацией (Lasso)

In [28]:
start = time.time()
ls_model = Lasso(alpha=0.01)
mse_valid = cross_val_score(ls_model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
rmse_valid = round(sqrt(-mse_valid.mean()), 2)
end = time.time()
work_time_ls_model = round(end - start, 3)

In [29]:
start = time.time()
ls_model = Lasso(alpha=0.01)
ls_model.fit(X_train, y_train)
ls_pred = ls_model.predict(X_test)
mse_test = mean_squared_error(y_test, ls_pred)
rmse_test = round(sqrt(mse_test), 2)
end = time.time()
test_time_ls_model = round(end - start, 3)

In [30]:
results.append([ls_model, rmse_valid, rmse_test, work_time_ls_model, test_time_ls_model, {'alpha': 0.01}])
results

[[LinearRegression(), 2536.4, 2529.87, 17.54, 4.347, nan],
 [Lasso(alpha=0.01), 2536.39, 2530.21, 415.721, 95.846, {'alpha': 0.01}]]

Линейная регрессия с L2 регуляризацией (Ridge)

In [31]:
start = time.time()
best_alpha = 0
best_rmse_valid = 10000
for alpha in [0, 0.1, 0.01, 0.001]:
    rg_model = Ridge(alpha=alpha)
    mse_valid = cross_val_score(rg_model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
    rmse_valid = round(sqrt(-mse_valid.mean()), 2)
    if rmse_valid < best_rmse_valid:
        best_rmse_valid = rmse_valid
        best_alpha = alpha
end = time.time()
work_time_rg_model = round(end - start, 3)
print(f'best_rmse_valid: {best_rmse_valid}, best_alpha: {best_alpha}')

best_rmse_valid: 2536.36, best_alpha: 0.1


In [32]:
start = time.time()
rg_model = Ridge(alpha=best_alpha)
rg_model.fit(X_train, y_train)
rg_pred = rg_model.predict(X_test)
mse_test = mean_squared_error(y_test, rg_pred)
rmse_test = round(sqrt(mse_test), 2)
end = time.time()
test_time_rg_model = round(end - start, 3)

In [33]:
results.append([rg_model, best_rmse_valid, rmse_test, work_time_rg_model, test_time_rg_model, {'alpha': best_alpha}])

Вывод для линейный моделей:
- все три модели показали одинаковые результаты ~2580
- время обучения и предсказания в разы выше у Ridge
- оптимальный алгоритм - Ridge

LightGBM

In [34]:
start = time.time()
lgbm_model = LGBMRegressor()
param_grid = {
    'max_depth': [10, 15, 20, 25],
    'n_estimators': [100, 200, 400, 700, 1000],
    'random_state': [RAND],
    'learning_rate': [0.1, 0.3, 0.5, 0.7]
}
gs = GridSearchCV(
    estimator=lgbm_model, 
    param_grid=param_grid, 
    cv=5, 
    n_jobs=-1, 
    scoring='neg_mean_squared_error'
)
fitted_model = gs.fit(X_train, y_train)
rmse_valid = round(sqrt(-gs.best_score_), 2)
end = time.time()
work_time_lgbm_model = round(end - start, 3)

In [35]:
start = time.time()
lgbm_model.fit(X_train, y_train)
lgbm_pred = lgbm_model.predict(X_test)
mse_test = mean_squared_error(y_test, lgbm_pred)
rmse_test = round(sqrt(mse_test), 2)
end = time.time()
test_time_lgbm_model = round(end - start, 3)

In [36]:
results.append([lgbm_model, rmse_valid, rmse_test, work_time_lgbm_model, test_time_lgbm_model, gs.best_params_])
results

[[LinearRegression(), 2536.4, 2529.87, 17.54, 4.347, nan],
 [Lasso(alpha=0.01), 2536.39, 2530.21, 415.721, 95.846, {'alpha': 0.01}],
 [Ridge(alpha=0.1), 2536.36, 2529.92, 38.183, 0.804, {'alpha': 0.1}],
 [LGBMRegressor(),
  1494.88,
  1634.03,
  301.286,
  1.309,
  {'learning_rate': 0.3,
   'max_depth': 15,
   'n_estimators': 1000,
   'random_state': 12345}]]

Для контроля проверим результаты константной модели

In [37]:
dum_model = DummyRegressor(strategy='mean')
dum_model.fit(X_train, y_train)
dum_pred = dum_model.predict(X_test)
print(f'RMSE константной модели: {round(sqrt(mean_squared_error(y_test, dum_pred)), 2)}')

RMSE константной модели: 4660.88


In [40]:
results_df = pd.DataFrame(results, columns=['model', 'RMSE_valid', 'RMSE_test', 'work_time', 'pred_time', 'params'])
results_df.sort_values(by='RMSE_test')

Unnamed: 0,model,RMSE_valid,RMSE_test,work_time,pred_time,params
3,LGBMRegressor(),1494.88,1634.03,301.286,1.309,"{'learning_rate': 0.3, 'max_depth': 15, 'n_est..."
0,LinearRegression(),2536.4,2529.87,17.54,4.347,
2,Ridge(alpha=0.1),2536.36,2529.92,38.183,0.804,{'alpha': 0.1}
1,Lasso(alpha=0.01),2536.39,2530.21,415.721,95.846,{'alpha': 0.01}


<b>Общий вывод:</b>
- была проведена предобработка данных
- протестированы следующие модели:
    - LinearRegression
    - Lasso
    - Ridge
    - LGBMRegressor
- Исходя их требований задачи лучшим вариантом оказался LGBMRegressor, хотя стоит отметить, что обучение модели занимает продолжительное время. Возможно данное время можно сократить, продолжив сокращать кол-во дамми-признаков.