# Определение стоимости автомобилей

Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.

Заказчику важны:

- качество предсказания;
- скорость предсказания;
- время обучения.

## Подготовка данных

In [None]:
!pip install lightgbm

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.dummy import DummyRegressor
from sklearn.metrics import mean_squared_error
import lightgbm as lgb
from sklearn.preprocessing import OrdinalEncoder

In [None]:
try:
    data = pd.read_csv('/Users/pashc/Downloads/autos.csv')
except:
    data = pd.read_csv('/datasets/autos.csv')

In [None]:
data.head()

In [None]:
data.info(),data.isna().sum()

Мы видим, что есть пропуски в некоторых столбцах.Для исключения выбросов заменим

In [None]:
data["VehicleType"] = data["VehicleType"].fillna(data["VehicleType"].mode().values[0])
data["Gearbox"] = data["Gearbox"].fillna(data["Gearbox"].mode().values[0])
data["Model"] = data["Model"].fillna(data["Model"].mode().values[0])
data["FuelType"] = data["FuelType"].fillna(data["FuelType"].mode().values[0])
data["Repaired"] = data["Repaired"].fillna(data["Repaired"].mode().values[0])

data.dropna(subset=['model'], inplace=True)
data.dropna(subset=['gearbox'], inplace=True)
data.dropna(subset=["vehicletype"], inplace=True)
data.dropna(subset=["fueltype"], inplace=True)
data.dropna(subset=["repaired"], inplace=True)

Приведем к нижнему регистру

In [None]:
data.columns = data.columns.str.lower()

Смотрим, если дубликаты

In [None]:
data.duplicated().sum()

In [None]:
data = data.drop_duplicates().reset_index(drop=True)

Удалим столбцы, которые нам не нужны в дальнейшей работе

In [None]:
data = data.drop(["datecrawled","datecreated","lastseen","numberofpictures","postalcode"],axis = 1)

In [None]:
data.head()

In [None]:
data.price.unique()

Проанализируем детально целевой признак

In [None]:
sns.set_style('darkgrid')
data.price.hist(bins=50,figsize=(15,10))
plt.title('Распределение стоимости автомобилей')
plt.xlabel('Стоимость')
plt.ylabel('Количество')
plt.show()

Можно заметить аномалию- мишины в нормальном состоянии не могут столько стоить. Поэтому удалим данные стоимости автомобилей ниже 1000

In [None]:
data = data.query('price> 10')

In [None]:
data.vehicletype.unique()

In [None]:
data.registrationyear.unique()

Выявлена аномалия, поэтому не будем включать в данные значение до 1900 и после 2023

In [None]:
data = data.loc[(data['registrationyear'] <= 2023) & (data['registrationyear'] >= 1900)]

In [None]:
data.gearbox.unique()

In [None]:
data.power.unique()

Выявлена аномалия, поэтому не будем включать в данные силы 700

In [None]:
data = data.loc[data['power'] <= 700]

In [None]:
data.model.unique()

In [None]:
data.kilometer.unique()

In [None]:
data.registrationmonth.unique()

In [None]:
data.fueltype.unique()

In [None]:
data.brand.unique()

In [None]:
data.repaired.unique()

In [None]:
data.duplicated().sum()

**Вывод**.
- В данных были обнаружены пропущенные значения и удалены. Более того, мы обнаружили и удалили дубликаты, исключили из данных столбцы, которые не несут важной информации И обработали аномалии в столбцах.

## Обучение моделей

In [None]:
features=data.drop(['price'],axis=1)
target=data['price']

In [None]:
col=['vehicletype', 'gearbox','model',
       'fueltype', 'brand', 'repaired']

Поделим данные на выборки

In [None]:
features_train, features_valid_test, target_train, target_valid_test  = train_test_split(features,target, test_size=0.4, random_state=254)
features_valid, features_test, target_valid, target_test = train_test_split(features_valid_test, target_valid_test, test_size=0.5, random_state=12345)

features_train.shape, features_valid.shape, features_test.shape

Скопируем данные для кодировки

In [None]:
features_train_oe = features_train.copy()
features_valid_oe = features_valid.copy()
features_test_oe = features_test.copy()

Приступаем к кодировке

In [None]:
encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
encoder.fit(features_train[col])
features_train_oe[col] = encoder.transform(features_train_oe[col])
features_valid_oe[col] = encoder.transform(features_valid_oe[col])
features_test_oe[col] = encoder.transform(features_test_oe[col])
features_test_oe.head()

<div class="alert alert-block alert-success">
<b>Успех:</b> OE - хороший выбор
</div>


In [None]:
for depth in range(3, 20, 3):
    model = DecisionTreeRegressor(random_state=12345, max_depth = depth)
    model.fit(features_train_oe, target_train)
    predictions = model.predict(features_valid_oe)
    rmse = mean_squared_error(target_valid, predictions)**0.5
    print('Глубина:', depth)
    print('RMSE для решающего дерева:', rmse)
    print('')

Лучший результат модели решающего дерева - глубина: 12, rmse: 1974

In [None]:
for depth in range(1,10):
    for est in range(5,20,5):
        model = RandomForestRegressor(max_depth=depth, n_estimators=est, random_state=1234)
        model.fit(features_train_oe, target_train)
        predictions = model.predict(features_valid_oe)
        rmse = mean_squared_error(target_valid, predictions)**0.5
        print('Количество деревьев:', est, "Глубина",depth)
        print('RMSE для случайного леса:', rmse)
        print('')

Лучший результат модели случайного леса - глубина: 9, rmse: 2028

In [None]:
for est in [100, 500, 1000]:
    for num in [25, 400, 15]:
        model = lgb.LGBMRegressor(n_estimators = est, num_leaves = num, random_state=12345)
        model.fit(features_train_oe, target_train)
        predictions= model.predict(features_valid_oe)
        rmse = mean_squared_error(target_valid, predictions)**0.5
        print('Количество деревьев:', est, num)
        print('RMSE для случайного леса:', rmse)
        print('')

Лучший результат модели - rmse: 1588

**Вывод**
- лучше всего себя показала модель LightGBM, с результатом 1588.

## Анализ моделей

In [None]:
%%time
model = DecisionTreeRegressor(random_state=12345, max_depth=15)
model.fit(features_train_oe, target_train)

In [None]:
%%time
predictions = model.predict(features_valid_oe)
rmse = mean_squared_error(target_valid, predictions)**0.5
print(rmse)

In [None]:
%%time
model1 = RandomForestRegressor(random_state=12345, max_depth=9, n_estimators=15)
model1.fit(features_train_oe, target_train)

In [None]:
%%time
predictions = model1.predict(features_valid_oe)
rmse = mean_squared_error(target_valid, predictions)**0.5
print(rmse)

In [None]:
%%time
model2 = lgb.LGBMRegressor(random_state=12345,
                          n_estimators=500,
                          num_leaves=400)
model2.fit(features_train_oe, target_train)

In [None]:
%%time
predictions = model2.predict(features_valid_oe)
rmse = mean_squared_error(target_valid, predictions)**0.5
print(rmse)

**Проверка лучшей модели**

По резульататм качества предсказания, времени обучения модели и времени предсказания модели была выбрана мрдель решаещего дерева

In [None]:
%%time
predictions = model.predict(features_test_oe)
rmse = mean_squared_error(target_test, predictions)**0.5
print(rmse)

**Вывод**
- результат модели : rmse меньше 2500, со временем 15.3 ms