# Описание задачи


Многие знают про маркетплейсы где продаются б/у вещи, на которых есть возможность недорого купить качественную и полезную вещь. Но всегда волнует вопрос - кто и как устанавливает цену, и какие его характеристики больше всего влияют на итоговую стоимость продажи?! Вопрос становиться особо актуальным, если речь идет про дорогие товары, например про автомобили!    

В рамках данного исследования будет вестить работа с данными о продажах автомобилей на вторичном рынке. 

**Целью проекта будет *разработанная модель* предсказания стоимости автомобиля на вторичном рынке.**


## Данные
**train.csv** - информация о продажах (~440000) автомобилей с аукционов, которые будут использоваться в качестве обучающих данных.

**test.csv** - информация о продажах (~110000) автомобилей с аукционов, которые будут использоваться в качестве тестовых данных. Ваша задача - предсказать значение 'sellingprice' для каждого автомобиля из этого датасета.

**sample_submission.csv** - файл предсказаний в правильном формате.
vin - идентификатор каждого автомобиля в тестовом наборе.
sellingprice - Целевой признак. Для каждого автомобиля предскажите числовое значение стоимости автомобиля.

## Описание полей данных
`year` - год производства

`make` - производитель

`model` - модель

`trim` - модификация

`body` - тип кузова

`transmission` - тип КПП

`vin` - идентификатор (вин)

`state` - штат регистрации

`condition` - состояние по шкале (1-5)

`odometer` - пробег в милях

`color` - цвет кузова

`interior` - цвет интерьера

`seller` - продавец

`sellingprice` - стоимость продажи

`saledate` - дата продажи

## Ход решения задачи

Пошагово:

1. загрузка и ознакомление с данными,
2. предварительная обработка,
3. полноценный разведочный анализ,
4. разработка новых синтетических признаков,
5. проверка на мультиколлинеарность,
6. отбор финального набора обучающих признаков,
7. выбор и обучение моделей,
8. итоговая оценка качества предсказания лучшей модели,
9. анализ важности ее признаков.

### 1. Загрузка и ознакомление с данными

In [1]:
!pip install category_encoders -U



In [None]:
!pip install catboost -U



In [None]:
#импортируем необходимые для работы библиотеки
import pandas as pd
pd.set_option
pd.options.mode.chained_assignment = None
import matplotlib.pyplot as plt 
import numpy as np
import seaborn as sns


from catboost import CatBoostRegressor
from catboost import Pool, cv

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_validate

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression

from sklearn.preprocessing import OrdinalEncoder

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import SimpleImputer
from sklearn.impute import IterativeImputer

from sklearn.base import TransformerMixin

from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import recall_score
from sklearn.metrics import mean_absolute_percentage_error as mape

После загрузки необходимых библиотек подгрузим датасеты

In [None]:
df_train = pd.read_csv('/Users/moygospodin/Documents/Practicum/Projects/Automobile_research/datasets/train.csv')
df_test = pd.read_csv('/Users/moygospodin/Documents/Practicum/Projects/Automobile_research/datasets/test.csv')

Проверим, что все отображается верно

In [None]:
display(df_train.head(5))
display(df_test.head(5))

### 2. Предобработка данных

Нужно посмотреть, все ли данные корректны в датасетах. Удалить дубликаты, если таковые имеются и убрать столбцы с данными, которые либо дублируют друг друга, либо не помогут в выполнении задачи. Проверить на выбросы и пропуски в данных.


In [None]:
for i in [df_train, df_test]:
    display(i.info())
    display(i.isna().sum())
    display(i.duplicated().sum())

везде нижний регистр

In [None]:
df_train = df_train.applymap(lambda s: s.lower() if type(s) == str else s)
df_test = df_test.applymap(lambda s: s.lower() if type(s) == str else s)

In [None]:
for i in df_train.columns:
    display(df_train[i].value_counts())

Заполняем пропуски

In [None]:
class DataFrameImputer(TransformerMixin):

    def __init__(self):
        """Impute missing values.

        Columns of dtype object are imputed with the most frequent value 
        in column.

        Columns of other types are imputed with mean of column.

        """
    def fit(self, X, y=None):

        self.fill = pd.Series([X[c].value_counts().index[0]
            if X[c].dtype == np.dtype('O') else X[c].mean() for c in X],
            index=X.columns)

        return self

    def transform(self, X, y=None):
        return X.fillna(self.fill)

In [None]:
df_train_fill = DataFrameImputer().fit_transform(df_train)

In [None]:
df_test_fill = DataFrameImputer().fit_transform(df_test)

In [None]:
df_train_fill.info()

In [None]:
cat = CatBoostRegressor()
cat_features = cat_features = [1,2,3,4,5,6,7,10,11,12,13]

In [None]:
features_train = df_train_fill.drop(['sellingprice'], axis=1)
target_train = df_train_fill['sellingprice']

features_test = df_test_fill


In [None]:
#cat.fit(features_train, target_train, 
#        cat_features = [1,2,3,4,5,6,7,10,11,12,13],
#        verbose=False, plot=True)

In [None]:
%%time
params = {"iterations": 100,
          "depth": 2,
          "loss_function": "MAPE",
          "verbose": False}
cv_dataset = Pool(data=features_train,
                  label=target_train, cat_features=cat_features)
scores = cv(cv_dataset,
            params,
            fold_count=2, 
            plot="True")

In [None]:
%%time
param_grid = {'depth':[3,1,2,6,4,5,7,8,9,10],
          'iterations':[250,100,500,1000],
          'learning_rate':[0.03,0.001,0.01,0.1,0.2,0.3], 
          'l2_leaf_reg':[3,1,5,10,100],
          'border_count':[32,5,10,20,50,100,200],
          'ctr_border_count':[50,5,10,20,100,200],
          'thread_count':4
model = CatBoostRegressor(loss_function='MAPE',
                          eval_metric = 'MAPE',
                          cat_features=[1,2,3,4,5,6,7,10,11,12,13],
                         random_state=1602
                         )

gs_cb = GridSearchCV(model, param_grid, scoring='neg_mean_absolute_percentage_error', n_jobs=-1, cv=3)
gs_cb.fit(features_train, target_train)

best_cb = gs_cb.best_estimator_