# Определение стоимости автомобилей

Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости. 

Заказчику важны:

- качество предсказания (значение метрики RMSE должно быть меньше 2500);
- скорость предсказания;
- время обучения.

Чтобы усилить исследование, не ограничивайтесь градиентным бустингом. Попробуйте более простые модели — иногда они работают лучше. Эти редкие случаи легко пропустить, если всегда применять только бустинг. Поэкспериментируйте и сравните характеристики моделей: время обучения, время предсказания, точность результата.

## Описание данных

- Признаки
    - DateCrawled — дата скачивания анкеты из базы
    - VehicleType — тип автомобильного кузова
    - RegistrationYear — год регистрации автомобиля
    - Gearbox — тип коробки передач
    - Power — мощность (л. с.)
    - Model — модель автомобиля
    - Kilometer — пробег (км)
    - RegistrationMonth — месяц регистрации автомобиля
    - FuelType — тип топлива
    - Brand — марка автомобиля
    - NotRepaired — была машина в ремонте или нет
    - DateCreated — дата создания анкеты
    - NumberOfPictures — количество фотографий автомобиля
    - PostalCode — почтовый индекс владельца анкеты (пользователя)
    - LastSeen — дата последней активности пользователя
- Целевой признак
    - Price — цена (евро)

Импортируем необходимые модули.

In [None]:
import pandas as pd

## Подготовка данных

In [None]:
car_price_path = "./datasets/autos.csv"
df = pd.read_csv(car_price_path)
display(df.head())
df.info()
df.isna().sum()

Удалим малоинформативные колонки.

In [None]:
col_to_drop = ['DateCrawled', 'DateCreated', 'PostalCode', 'LastSeen']
df = df.drop(columns=col_to_drop)

Заменим значения в колонке NumberOfPictures на 0 если фотографий нет и на 1 если они есть.

In [None]:
df['NumberOfPictures'] = df['NumberOfPictures'].astype('bool').astype('int')

Заменим пропущенные значения в колонке с информацией о ремонте на unknown.

Восстановим часть данных.

## Анализ моделей

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнена загрузка и подготовка данных
- [ ]  Выполнено обучение моделей
- [ ]  Есть анализ скорости работы и качества моделей