# Определение стоимости автомобилей

## Описание проекта 

Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости. 

## Цель проекта

Построить модель, которая умеет определять цену автомобиля по его характеристикам. При выборе итоговой модели необходимо учитывать:
- качество предсказания;
- скорость предсказания;
- время обучения.

## Описание данных

Признаки:
- `DateCrawled` — дата скачивания анкеты из базы
- `VehicleType` — тип автомобильного кузова
- `RegistrationYear` — год регистрации автомобиля
- `Gearbox` — тип коробки передач
- `Power` — мощность (л. с.)
- `Model` — модель автомобиля
- `Kilometer` — пробег (км)
- `RegistrationMonth` — месяц регистрации автомобиля
- `FuelType` — тип топлива
- `Brand` — марка автомобиля
- `Repaired` — была машина в ремонте или нет
- `DateCreated` — дата создания анкеты
- `NumberOfPictures` — количество фотографий автомобиля
- `PostalCode` — почтовый индекс владельца анкеты (пользователя)
- `LastSeen` — дата последней активности пользователя

Целевой признак:
- `Price` — цена (евро)

## План работы

1. Загрузите данные
2. Изучите данные. Заполните пропущенные значения и обработайте аномалии в столбцах. Если среди признаков имеются неинформативные, удалите их.
3. Подготовьте выборки для обучения моделей.
4. Обучите разные модели, одна из которых — LightGBM, как минимум одна — не бустинг. Для каждой модели попробуйте разные гиперпараметры.
5. Проанализируйте время обучения, время предсказания и качество моделей.
6. Опираясь на критерии заказчика, выберете лучшую модель, проверьте её качество на тестовой выборке.

Примечание:
- Для оценки качества моделей применяйте метрику RMSE.
- Значение метрики RMSE должно быть меньше 2500.

In [1]:
!pip install ydata_profiling

Collecting numpy<1.24,>=1.16.0 (from ydata_profiling)
  Downloading numpy-1.23.5-cp39-cp39-win_amd64.whl (14.7 MB)
     ---------------------------------------- 14.7/14.7 MB 4.0 MB/s eta 0:00:00
Installing collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 1.24.4
    Uninstalling numpy-1.24.4:
      Successfully uninstalled numpy-1.24.4


ERROR: Could not install packages due to an OSError: [WinError 5] Отказано в доступе: 'C:\\Users\\Acer\\anaconda3\\Lib\\site-packages\\~~mpy\\.libs\\libopenblas64__v0.3.21-gcc_10_3_0.dll'
Consider using the `--user` option or check the permissions.


[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import warnings

import pandas as pd
import numpy as np
import ydata_profiling
import timeit

from random import randint
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OrdinalEncoder, StandardScaler, OneHotEncoder
from catboost import Pool, CatBoostRegressor, cv
from lightgbm import LGBMRegressor
from sklearn.compose import make_column_transformer

warnings.filterwarnings("ignore")

## Подготовка данных

In [3]:
try:
    data = pd.read_csv(r'C:\Users\Acer\Documents\Практикум\autos.csv')
except:
    data = pd.read_csv('/datasets/autos.csv')

In [4]:
data.head()

Unnamed: 0,DateCrawled,Price,VehicleType,RegistrationYear,Gearbox,Power,Model,Kilometer,RegistrationMonth,FuelType,Brand,Repaired,DateCreated,NumberOfPictures,PostalCode,LastSeen
0,2016-03-24 11:52:17,480,,1993,manual,0,golf,150000,0,petrol,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,18300,coupe,2011,manual,190,,125000,5,gasoline,audi,yes,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,9800,suv,2004,auto,163,grand,125000,8,gasoline,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,1500,small,2001,manual,75,golf,150000,6,petrol,volkswagen,no,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,3600,small,2008,manual,69,fabia,90000,7,gasoline,skoda,no,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   DateCrawled        354369 non-null  object
 1   Price              354369 non-null  int64 
 2   VehicleType        316879 non-null  object
 3   RegistrationYear   354369 non-null  int64 
 4   Gearbox            334536 non-null  object
 5   Power              354369 non-null  int64 
 6   Model              334664 non-null  object
 7   Kilometer          354369 non-null  int64 
 8   RegistrationMonth  354369 non-null  int64 
 9   FuelType           321474 non-null  object
 10  Brand              354369 non-null  object
 11  Repaired           283215 non-null  object
 12  DateCreated        354369 non-null  object
 13  NumberOfPictures   354369 non-null  int64 
 14  PostalCode         354369 non-null  int64 
 15  LastSeen           354369 non-null  object
dtypes: int64(7), object(

Сразу избавимся от признаков, которые не влияют на стоимость автомобиля и перейдём к более детальному анализу оставшихся. 

Удалим признаки:
- `DateCrawled` — дата скачивания анкеты из базы
- `DateCreated` — дата создания анкеты
- `NumberOfPictures` — количество фотографий автомобиля
- `PostalCode` — почтовый индекс владельца анкеты (пользователя)
- `LastSeen` — дата последней активности пользователя
- `RegistrationMonth` -  месяц регистрации автомобиля

Некоторые из этих признаков могут быть использованы дляя предсказания быстроты продажи автомобиля, например количество фотографий, дата создания анкеты и последняя активность пользователя, но в контексте данной задачи эти признаки не нужны.

In [6]:
data = data.drop(['DateCrawled', 'DateCreated', 'NumberOfPictures', 'PostalCode', 'LastSeen', 'RegistrationMonth'], axis=1)

Приведём названия столбцов к общепринятому питоновскому виду.

In [7]:
data.rename(columns={'VehicleType' : 'Vehicle_Type',
                     'FuelType' : 'Fuel_Type',
                     'RegistrationYear' : 'registration_year'}, inplace=True)
data.columns = map(str.lower, data.columns)

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354369 entries, 0 to 354368
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   price              354369 non-null  int64 
 1   vehicle_type       316879 non-null  object
 2   registration_year  354369 non-null  int64 
 3   gearbox            334536 non-null  object
 4   power              354369 non-null  int64 
 5   model              334664 non-null  object
 6   kilometer          354369 non-null  int64 
 7   fuel_type          321474 non-null  object
 8   brand              354369 non-null  object
 9   repaired           283215 non-null  object
dtypes: int64(4), object(6)
memory usage: 27.0+ MB


Удалим явные дубликаты.

In [8]:
data = data.drop_duplicates()
data.duplicated().sum()

0

In [9]:
ydata_profiling.ProfileReport(data)

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



Проверим столбцы `model` и `brand` на наличие неявных дубликатов.

In [10]:
data['model'].sort_values().unique()

array(['100', '145', '147', '156', '159', '1_reihe', '1er', '200',
       '2_reihe', '300c', '3_reihe', '3er', '4_reihe', '500', '5_reihe',
       '5er', '601', '6_reihe', '6er', '7er', '80', '850', '90', '900',
       '9000', '911', 'a1', 'a2', 'a3', 'a4', 'a5', 'a6', 'a8',
       'a_klasse', 'accord', 'agila', 'alhambra', 'almera', 'altea',
       'amarok', 'antara', 'arosa', 'astra', 'auris', 'avensis', 'aveo',
       'aygo', 'b_klasse', 'b_max', 'beetle', 'berlingo', 'bora',
       'boxster', 'bravo', 'c1', 'c2', 'c3', 'c4', 'c5', 'c_klasse',
       'c_max', 'c_reihe', 'caddy', 'calibra', 'captiva', 'carisma',
       'carnival', 'cayenne', 'cc', 'ceed', 'charade', 'cherokee',
       'citigo', 'civic', 'cl', 'clio', 'clk', 'clubman', 'colt', 'combo',
       'cooper', 'cordoba', 'corolla', 'corsa', 'cr_reihe', 'croma',
       'crossfire', 'cuore', 'cx_reihe', 'defender', 'delta', 'discovery',
       'doblo', 'ducato', 'duster', 'e_klasse', 'elefantino', 'eos',
       'escort', 'espac

In [11]:
data['model'] = data['model'].replace('rangerover', 'range_rover')

In [12]:
data[data['model'] == 'rangerover']

Unnamed: 0,price,vehicle_type,registration_year,gearbox,power,model,kilometer,fuel_type,brand,repaired


In [13]:
data['brand'].sort_values().unique()

array(['alfa_romeo', 'audi', 'bmw', 'chevrolet', 'chrysler', 'citroen',
       'dacia', 'daewoo', 'daihatsu', 'fiat', 'ford', 'honda', 'hyundai',
       'jaguar', 'jeep', 'kia', 'lada', 'lancia', 'land_rover', 'mazda',
       'mercedes_benz', 'mini', 'mitsubishi', 'nissan', 'opel', 'peugeot',
       'porsche', 'renault', 'rover', 'saab', 'seat', 'skoda', 'smart',
       'sonstige_autos', 'subaru', 'suzuki', 'toyota', 'trabant',
       'volkswagen', 'volvo'], dtype=object)

**Выводы**:

1. Стоимость `price`: 
 1. Минимальная указанная стоимость составляет 0 евро, скорее всего стоимость автомобиля будет определяться по договорённости с продавцом.
 2. Нулевая стоимость составляет 3% от всех данных, т.к. это целевой признак, то любое значение будет искажать данные. Удалим пропуски.
 
2. Тип автомобильного кузова `vehicle_types`:
 1. В данных 10,6% пропущенных значений. Т.к. даже у одного бренда могут быть модели с разными кузовами, то восстановить данные по бренду не получится. Заменим пропущенные значения имеющимся типом other.
 
3. Год регистрации `registration_year`:
 1. Встречаются неправдоподобные значения от 1000 года до 9999. Удалим значения, не входящие в порог от 1985 до 2016.
 
3. Тип коробки передач `gearbox`:
 1. В данных 5.6% пропущенных значений. Заменим их на заглушку unknown.
 
4. Мощность в лошадинных силых `power`:
 1. В данных 11.4% нулевых значений. Заменим на медиану по модели.
 
5. Модель автомобиля `model`:
 1. В данных 5.6% пропусков. Заменим пропущенные значения имеющимся типом other.
 2. Найденные неявные дубликаты были заменены.
 
6. Пробег `kilometer`:
 1. Чаще всего встречаются автомобили с пробегом от 150 000 км. Данные неравномерные, но оставим их как есть, сильных выбросов в них не наблюдается.
 
8. Тип топлива `fuel_type`:
 1. Неявных дубликатов нет.
 2. В даных 9.3% пропущенных значений. Заменим пропущенные значения наиболее встречающимся значением по модели.
 
9. Марка автомобиля `brand`:
 1. Неявные дубликаты не найдены.
 
10. Была машина в ремонте или нет `repaired`:
 1. В данных 20.1% пропусков. Скорее всего данная строка была пропущена, т.к. машина не была в ремонте. Заменим на False.

Удалим нулевые значения стоимости.

In [14]:
data = data[data['price'] != 0]
data[data['price'] == 0]

Unnamed: 0,price,vehicle_type,registration_year,gearbox,power,model,kilometer,fuel_type,brand,repaired


Заменим пропущенные значения в столбце `vehicle_type` типом other.

In [15]:
data['vehicle_type'] = data['vehicle_type'].fillna('other')
data['vehicle_type'].isna().sum()

0

Удалим значения в столбце `registration_year`, не входящие в порог от 1985 до 2016.

In [16]:
data = data[(data['registration_year'] >= 1985) & (data['registration_year'] <= 2016)]
data[(data['registration_year'] < 1985) | (data['registration_year'] > 2016)]

Unnamed: 0,price,vehicle_type,registration_year,gearbox,power,model,kilometer,fuel_type,brand,repaired


Заменим пропущенные значения в столбце `gearbox` заглушкой unknown.

In [17]:
data['gearbox'] = data['gearbox'].fillna('unknown')
data['gearbox'].isna().sum()

0

Заменим нулевые значения в столбце `power` на медиану по модели.

In [18]:
data.loc[data['power'] == 0, 'power'] = None
data['power'] = data['power'].fillna(data.groupby('model')['power'].transform('median'))
data = data[~data['power'].isna()]

data = data[(data['power'] > data['power'].quantile(0.05)) & (data['power'] < data['power'].quantile(0.95))]

data['power'].isna().sum()

0

Заменим пропущенные значения в столбце `model` типом other.

In [19]:
data['model'] = data['model'].fillna('other')
data['model'].isna().sum()

0

Заменим пропущенные значения в столбце `fuel_type` наиболее встречающимся значением по модели.

In [20]:
data['fuel_type'] = data['fuel_type'].fillna(data.groupby('model')['fuel_type']
                                            .transform(lambda x: x.value_counts().idxmax()))
data['fuel_type'].isna().sum()

0

Значения в столбце `repaired` заменим на False. Так же заменим yes и no на True и False соответственно.

In [21]:
data['repaired'] = data['repaired'].fillna('False')
data['repaired'] = data['repaired'].replace({'yes' : 'True', 'no' : 'False'})
data['repaired'].unique()

array(['False', 'True'], dtype=object)

In [22]:
data = data.reset_index(drop=True)

**Вывод по предобработке данных**:
1. Были устранены явные дубликаты.
2. Найдены и устранены неявные дубликаты.
3. Пропущенные значения в целевом признаке удалены, чтобы избежать искажения в данных.
4. Пропуски в признаках были заменены на более подходящие значения.
5. Удалены выбросы.

## Подготовка данных перед обучением

In [23]:
features = data.drop('price', axis=1)
target = data['price']

In [24]:
features_cbr = features.copy()
features_cbr['power'] = features_cbr['power'].astype('int')

cbr_train, cbr_test = train_test_split(features_cbr, test_size=0.25, random_state=42)

In [25]:
categorial = features.select_dtypes(include='object').columns.to_list()
categorial

['vehicle_type', 'gearbox', 'model', 'fuel_type', 'brand', 'repaired']

In [26]:
numeric = features.select_dtypes(exclude='object').columns.to_list()
numeric

['registration_year', 'power', 'kilometer']

Разделим датасет на обучающую и тестовую выборки

In [27]:
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.25, random_state=42)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((187484, 9), (62495, 9), (187484,), (62495,))

Для моделей DecisionTreeRegressor и lightgbm используем Ordinal Encoder

Численные признаки стандартизируем используя StandardScaler

In [28]:
encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1) 
encoder.fit(X_train[categorial])
X_train[categorial] = encoder.transform(X_train[categorial])
X_test[categorial] = encoder.transform(X_test[categorial])

scaler = StandardScaler()
scaler.fit(X_train[numeric])
X_train[numeric] = scaler.transform(X_train[numeric])
X_test[numeric] = scaler.transform(X_test[numeric])

X_train.head()

Unnamed: 0,vehicle_type,registration_year,gearbox,power,model,kilometer,fuel_type,brand,repaired
167836,3.0,2.156155,1.0,-1.455249,125.0,-1.255274,6.0,10.0,1.0
61306,2.0,-1.741335,1.0,0.860999,163.0,0.597298,6.0,20.0,0.0
163407,7.0,-0.385686,1.0,-0.425805,101.0,0.597298,6.0,10.0,1.0
4159,5.0,-0.046774,1.0,-1.069207,73.0,0.597298,6.0,27.0,0.0
243007,3.0,-0.555142,2.0,0.603639,163.0,0.597298,6.0,39.0,0.0


**Вывод по подготовке данных перед обучением**:
1. Для DecisionTreeRegressor
 1. Числовые признаки были масштабированы с помощью StandardScaler
 2. Категориальные признаки преобразованы OrdinalEncoder.
2. Для CatBoost
 1. Т.к. catboost имеет встроеный преобразователь категориальных признаков, то их отправили без изменений.
 2. Числовые признаки приведены в типу int.
3. Для lightGBM
 1. Числовые признаки были масштабированы с помощью StandardScaler
 2. Категориальные признаки преобразованы OrdinalEncoder.

## Обучение моделей

Создадим словарь, в который будем вносить модель, время обучения и предсказания и значение RMSE.

In [29]:
dict = {}

### DecisionTreeRegressor

In [30]:
dtr = DecisionTreeRegressor(random_state=42)
parameters = [{'max_depth': range(10, 100, 10),
                'max_features' : ['auto', 'sqrt', 'log2']}]
grid_dtr = GridSearchCV(dtr, parameters, cv=5, scoring='neg_mean_squared_error', n_jobs=-1, error_score="raise")
grid_dtr.fit(X_train, y_train)

model_dtr = grid_dtr.best_estimator_
grid_dtr.best_score_

-3513920.4691959815

In [31]:
start_time = timeit.default_timer()

model_dtr.predict(X_train)

elapsed = timeit.default_timer() - start_time

In [32]:
dict['DecisionTreeRegressor'] = grid_dtr.refit_time_, elapsed, (((-1)*grid_dtr.best_score_) ** 0.5)
((-1)*grid_dtr.best_score_) ** 0.5

1874.5454033434296

### CatBoostRegressor

In [33]:
cbr = CatBoostRegressor(loss_function='RMSE', cat_features=categorial, random_state=42)
parameters = {'learning_rate': np.logspace(-2, 0, 5),'iterations': range(20, 80, 20),'depth': range(5,10,2)}

grid_cbr = GridSearchCV(cbr, parameters, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_cbr.fit(cbr_train, y_train, verbose=False);

model_cbr = grid_cbr.best_estimator_
model_cbr

<catboost.core.CatBoostRegressor at 0x1519f290eb0>

In [34]:
start_time = timeit.default_timer()

model_cbr.predict(cbr_train)

elapsed = timeit.default_timer() - start_time

In [35]:
dict['CatBoostRegressor'] = grid_cbr.refit_time_, elapsed, ((-1)*grid_cbr.best_score_) ** 0.5

((-1)*grid_cbr.best_score_ )** 0.5

1550.2836636708805

### LightGBM

In [36]:
lgbm = LGBMRegressor(random_state=42)
parameters = {'learning_rate': np.logspace(0, 5), 'n_estimators': range(20, 60, 20), 'num_leaves': range(10, 20, 5)}

grid_lgbm = GridSearchCV(lgbm, parameters, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_lgbm.fit(X_train, y_train);

model_lgbm = grid_lgbm.best_estimator_
model_lgbm

LGBMRegressor(learning_rate=1.0, n_estimators=40, num_leaves=15,
              random_state=42)

In [37]:
start_time = timeit.default_timer()

model_lgbm.predict(X_train)

elapsed = timeit.default_timer() - start_time

In [38]:
dict['LightGBM'] = grid_lgbm.refit_time_, elapsed, ((-1)*grid_lgbm.best_score_) ** 0.5

((-1)*grid_lgbm.best_score_) ** 0.5

1674.9346753455668

**Вывод по обучению моделей**:
Для обучения были выбраны три модели:
1. DecisionTreeRegressor
2. CatBoostRegressor
3. LightGBMRegressor

Модели обучены на обучающей выборке, метрики RMSE предсказаны на тестовой выборке. Время обучения, время предсказания и значение метрики были помещены в словарь для дальнейшего анализа.

## Анализ моделей

In [39]:
pd.DataFrame.from_dict(dict, orient='index', columns=['Время обучения', 'Время предсказания', 'Метрика RMSE'])

Unnamed: 0,Время обучения,Время предсказания,Метрика RMSE
DecisionTreeRegressor,1.288104,0.112793,1874.545403
CatBoostRegressor,10.802877,0.848116,1550.283664
LightGBM,0.657055,0.210682,1674.934675


**Вывод**:
- DecisionTreeRegressor

Хороший показатель времени обучения 0.65, но самый худший результат по метрике RMSE= 1874.55
- CatBoostRegressor

Показала самый лучший результат по метрике RMSE= 1550.28, но показала самое худшее время 8.78, которое в разы превышает остальные модели.
- LightGBMRegressor

Оптимальный вариант по затраченному времени 0.34 и значению метрики RMSE= 1674.93

Для проверки на тестовой выборке возьмём модель LightGBM

In [40]:
start_time = timeit.default_timer()

predictions = model_lgbm.predict(X_test)

elapsed = timeit.default_timer() - start_time
elapsed

0.09363020000000688

In [41]:
RMSE = mean_squared_error(y_test, predictions) ** 0.5

RMSE

1636.0736352758277

## Вывод

В данном проекте стояла задача предсказания стоимости автомобиля по его характеристикам.

1. Был произведён этап предобработки данных 
 1. Были устранены явные дубликаты.
 2. Найдены и устранены неявные дубликаты.
 3. Пропущенные значения в целевом признаке удалены, чтобы избежать искажения в данных.
 4. Пропуски в признаках были заменены на более подходящие значения.
 5. Удалены выбросы.
 
2. Этап преобразования перед обучением
 1. Для DecisionTreeRegressor
  1. Числовые признаки были масштабированы с помощью StandardScaler
  2. Категориальные признаки преобразованы OrdinalEncoder.
 2. Для CatBoost
  1. Т.к. catboost имеет встроеный преобразователь категориальных признаков, то их отправили без изменений.
  2. Числовые признаки приведены в типу int.
 3. Для lightGBM
  1. Числовые признаки были масштабированы с помощью StandardScaler
  2. Категориальные признаки преобразованы OrdinalEncoder.
  
3. Обучение моделей. Для обучения были выбраны три модели:
 1. DecisionTreeRegressor
 2. CatBoostRegressor
 3. LightGBMRegressor
 
Т.к. для заказчика были важны:
- качество предсказания;
- скорость предсказания;
- время обучения.

**Лучшей моделью предлагаю выбрать LightGBM с показателями: время 0.34, значение метрики RMSE= 1636.073**