<img src="https://whatcar.vn/media/2018/09/car-lot-940x470.jpg"/>

## Прогнозирование стоимости автомобиля по характеристикам
*Этот Ноутбук является Примером/Шаблоном (Baseline) к этому соревнованию и не служит готовым решением!*   
Вы можете использовать его как основу для построения своего решения.


> **baseline** создается больше как шаблон, где можно посмотреть как происходит обращение с входящими данными и что нужно получить на выходе. При этом МЛ начинка может быть достаточно простой. Это помогает быстрее приступить к самому МЛ, а не тратить ценное время на чисто инженерные задачи. 
Также baseline является хорошей опорной точкой по метрике. Если твое решение хуже baseline - ты явно делаешь что-то не то и стоит попробовать другой путь) 

Помним, что по условию соревнования, нам нужно самостоятельно собрать обучающий датасет. В этом ноутбуке мы не будем рассматривать сбор данных. Предположим, что мы уже все собрали и просто подключили свой датасет через "Add Data", чтобы приступить к самому ML.

In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import sys
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from tqdm.notebook import tqdm
import re
from catboost import CatBoostRegressor
from catboost import Pool, cv
from datetime import datetime, timedelta
from sklearn.preprocessing import LabelEncoder
pd.set_option('display.max_columns', None)
from datetime import datetime, timedelta

In [None]:
print('Python       :', sys.version.split('\n')[0])
print('Numpy        :', np.__version__)

In [None]:
# зафиксируем версию пакетов, чтобы эксперименты были воспроизводимы:
!pip freeze > requirements.txt

In [None]:
# всегда фиксируйте RANDOM_SEED, чтобы ваши эксперименты были воспроизводимы!
RANDOM_SEED = 42

In [None]:
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred-y_true)/y_true))

# Setup

In [None]:
VERSION    = 16
DIR_TRAIN  = '../input/parsing-all-moscow-auto-ru-09-09-2020/' # подключил к ноутбуку внешний датасет
DIR_TEST   = '../input/sf-dst-car-price-prediction/'
VAL_SIZE   = 0.20   # 20%

# Data

In [None]:
!ls '../input'

In [None]:
train = pd.read_csv(DIR_TRAIN+'all_auto_ru_09_09_2020.csv') # датасет для обучения модели
test = pd.read_csv(DIR_TEST+'test.csv')
sample_submission = pd.read_csv(DIR_TEST+'sample_submission.csv')

In [None]:
print('Размер train', train.shape)
print('Размер test', test.shape)

У нас разное количество признаков на train и  test. Приведем все к единому виду.  

In [None]:
train.sample(5)

In [None]:
test.sample(5)

model_name в test и model в train значат одно и тоже. Переименуем model в train в model_name 

In [None]:
train.rename(columns={'model': 'model_name'}, inplace=True)

In [None]:
test.info()

In [None]:
train.info()

У нас разное количество признаков в тесте и трейне. Приведем после все к единому виду. Для начала посмотрим на пропуски и посмотрим какие данные у нас предоставлены. 

# Начнем с Train

In [None]:
train.isnull().sum()

In [None]:
train[train['bodyType'].isnull()]

У нас есть пересечение пропусков, где пропущено всего 1 значение. это civic 1989 года. Удалим эти данные. Они не сильно повлияют на обучение модели. 

In [None]:
train.drop(index=[24624], inplace = True)

description — это текстовое описание рекламы. Оставим столбец так как есть.    
Состояние - в трейне одни пропуски в признаке. в тесте все машины на ходу. Примем,  что все машины в трейне на ходу и удалил признак, т.к. он не информативен.   
Владельцы - если посмотреть на пропуски. То start_date совпадает с productionDate либо есть небольшая разница. Примем, что все пропуски - это новые машины. И поставим значение 0.     
ПТС - опять же, все пропуски только в новых машинах. Заменим значение на 'ORIGINAL'. Так же, данный столбце придеться удалить. Так как у нас все значения равны 'ORIGINAL'. К сожелению в тесте есть значения и дублекат. Однако в связи с тем, что на обучающей выборке у нас таких данных нету, мы не сможем исследовать влияние данного признака на стоимость.    
Владение - столбец содержит информацию, как долго владел авто последний владелец. К сожелению заполнить данный столбец невозможно. Его придеться удалить. Так же на тесте более 60% пропусков у данного признака.    
price - целевая переменная, на которой мы будем обучаться. Удаляем эти столбцы
hidden- одни Nan. Удаляем признак

In [None]:
train.drop('Состояние', axis = 1, inplace = True)
test.drop('Состояние', axis = 1, inplace = True)
train.drop('ПТС', axis = 1, inplace = True)
test.drop('ПТС', axis = 1, inplace = True)
train.drop('Владение', axis = 1, inplace = True)
test.drop('Владение', axis = 1, inplace = True)
train.drop('hidden', axis = 1, inplace = True)

In [None]:
train.drop(train[train['price'].isnull()].index, axis = 0, inplace = True)

In [None]:
train['price'].isnull()

In [None]:
train['Владельцы'].fillna(0, inplace = True)

Теперь отберем признаки для построения модели, а так же приведем их к единому типу.

In [None]:
# для создания инвертированных словарей
def invert_dict(my_dict):
    inverted_dict = {}
    for (new_key, new_value) in my_dict.items():
        inverted_dict[new_value] = new_key
    return inverted_dict

# для вычисления объема двигателя из тестового DF
def get_engineDisplacement_test(s):
    if (re.search('\d+', s) is not None) == False:
        return 0
    else:
        return s.replace(' LTR','')

# для вычисления мощности двигателя из тестового DF
def get_enginePower_test(s):
    return s.replace(' N12','')


# для вычисления объема двигателя из train0
def get_obiyom_dvigatelya_train0(s):
    s1 = s['engineDisplacement']
    b = False
    if (s1[-1]=='d'):
        s1 = s1[:-1]
        try:
            f = float(s1)
            if f>100:
                b = True
            elif f>10:
                f/=10
            # return f
        except Exception as ex:
            b = True
        if b==False:
            return f
    try:
        f = float(s1)
        if f>10:
            b = True
    except Exception as ex:
        b = True
    if b==False:
        return s1
    else:
        s2 = s['name']
        i = s2.find(s['engineDisplacement']) 
        if i==-1:
            return -1
        else:
            j = s2.find("."[i:])
            s3 = s2[j-1:j+2]
    try:
        f2 = float(s3)
    except Exception as es:
        return -1
    if f2>10:
        return -1
    return f2



# для получения первого слова
def get_first_word(s):
    if not isinstance(s, str):
        return ""
    s = s.strip()
    i = s.find(' ')
    if i<1:
        return s
    else:
        return s[0:i]

In [None]:
# создадим колонку с объемом двигателя (из колонки 'engineDisplacement')
train['engineDisplacement'] = train.apply(get_obiyom_dvigatelya_train0, axis=1).astype(float)
test['engineDisplacement'] = test['engineDisplacement'].apply(get_engineDisplacement_test).astype(float)
# приведем к общему виду кузова автомобилей
test.bodyType = test.bodyType.apply(get_first_word).apply(lambda x: x.upper())
train.bodyType = train.bodyType.apply(get_first_word).apply(lambda x: x.upper())

In [None]:
# словарь для кодирования цветов автомобилей
dict_color_direct       = {'ЗЕЛЁНЫЙ' : 0, 'БЕЛЫЙ' : 1, 'ЧЁРНЫЙ' : 2, 'КОРИЧНЕВЫЙ' : 3, 
                           'СЕРЕБРИСТЫЙ' : 4, 'СЕРЫЙ' : 5, 'КРАСНЫЙ' : 6, 'СИНИЙ' : 7, 'БЕЖЕВЫЙ' : 8, 
                           'ГОЛУБОЙ' : 9, 'ФИОЛЕТОВЫЙ' : 11, 'ЗОЛОТИСТЫЙ' : 12, # 'БОРДОВЫЙ' : 6, # 'Бордовый' : 10, 
                           'ОРАНЖЕВЫЙ' : 13, 'ЖЁЛТЫЙ' : 14, 'ПУРПУРНЫЙ' : 15, 'РОЗОВЫЙ' : 16}
dict_color2_direct      = {'007F00' : 0, 'FAFBFB' : 1, '040001' : 2, '200204' : 3, 'CACECB' : 4, 
                           '97948F' : 5, 'EE1D19' : 6, '0000CC' : 7, 'C49648' : 8, '22A0F8' : 9, 
                           '4A2197' : 11, 'DEA522' : 12, 'FF8649' : 13, 'FFD600' : 14, 
                           '660099' : 15, 'FFC0CB' : 16}
dict_color_invert       = invert_dict(dict_color_direct)

In [None]:
# Преобразование color к единому виду
train['color'] = train['color'].map(dict_color2_direct).map(dict_color_invert)
test.color = test.color.apply(lambda x: x.upper())

In [None]:
# Преобразование fuelType к единому виду
train.color = train.color.apply(lambda x: x.upper())
test.color = test.color.apply(lambda x: x.upper())

In [None]:
# Преобразование modelDate к единому виду
test['modelDate'] = test['modelDate'].astype(int)
train['modelDate'] = train['modelDate'].astype(int)

In [None]:
# Преобразование enginePower к единому виду
test['enginePower'] = test['enginePower'].apply(get_enginePower_test).astype(int)
train['enginePower'] = train['enginePower'].astype(int)

In [None]:
# Преобразование fuelType к единому виду
test.fuelType = test.fuelType.apply(lambda x: x.upper())
train.fuelType = train.fuelType.apply(lambda x: x.upper())

In [None]:
# Преобразование numberOfDoors к единому виду
test.numberOfDoors = test.numberOfDoors.astype(int)
train.numberOfDoors = train.numberOfDoors.astype(int)

In [None]:
# Преобразование даты к единому виду
test['parsing_unixtime'] = test['parsing_unixtime'].apply(
        lambda x: datetime.utcfromtimestamp(x).strftime('%Y-%m-%d'))
train['start_date'] = train['start_date'].apply(
        lambda x: datetime.strptime(x.split('T')[0], '%Y-%m-%d'))

In [None]:
# Преобразование признак Владельцы к единому виду
test['Владельцы'] = test['Владельцы'].apply(lambda x: x[0])
train['Владельцы'] = train['Владельцы'].astype(int)

In [None]:
# Преобразование признак руль к единому виду
dict_rul_direct = {'ЛЕВЫЙ' : 'LEFT', 'ПРАВЫЙ' : 'RIGHT'}
test['Руль'] = test['Руль'].apply(lambda x: x.upper()).map(dict_rul_direct)

In [None]:
train.info()

In [None]:
test.info()

In [None]:
train['start_date']

In [None]:
train.rename(columns={'start_date': 'parsing_unixtime'}, inplace=True)

Отметим, что признак ‘Таможня’ тоже не информативен, так как все машины как в трейне так и в тесте расторможены. 
Подберем признаки для построения модели. 


In [None]:
columns_model = ['bodyType', 'brand','color','description','engineDisplacement','enginePower',
             'fuelType','mileage','modelDate','model_name','numberOfDoors','parsing_unixtime',
             'productionDate','Владельцы','Привод','Руль']

In [None]:
train[columns_model]

In [None]:
test[columns_model]

## Data Preprocessing

In [None]:
train

# Подготовка данных к наивной модели.

In [None]:
# для baseline просто возьму пару схожих признаков
columns_naiv = ['bodyType', 'brand', 'productionDate', 'engineDisplacement', 'mileage']
df_train = train[columns_naiv]
df_test = test[columns_naiv]

In [None]:
y = train['price']

## Label Encoding

In [None]:
# ВАЖНО! дря корректной обработки признаков объединяем трейн и тест в один датасет
df_train['sample'] = 1 # помечаем где у нас трейн
df_test['sample'] = 0 # помечаем где у нас тест

data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем

In [None]:
for colum in ['bodyType', 'brand', 'engineDisplacement']:
    data[colum] = data[colum].astype('category').cat.codes


In [None]:
X = data.query('sample == 1').drop(['sample'], axis=1)
X_sub = data.query('sample == 0').drop(['sample'], axis=1)

## Train Split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=VAL_SIZE, shuffle=True, random_state=RANDOM_SEED)

# Создадим "наивную" модель 
Эта модель будет предсказывать среднюю цену по модели двигателя (engineDisplacement). 
C ней будем сравнивать другие модели.




In [None]:
tmp_train = X_train.copy()
tmp_train['price'] = y_train

In [None]:
# Находим median по экземплярам engineDisplacement в трейне и размечаем тест
predict = X_test['engineDisplacement'].map(tmp_train.groupby('engineDisplacement')['price'].median())

#оцениваем точность
print(f"Точность наивной модели по метрике MAPE: {(mape(y_test, predict.values))*100:0.2f}%")

# CatBoost
![](https://pbs.twimg.com/media/DP-jUCyXcAArRTo.png:large)   


У нас в данных практически все признаки категориальные. Специально для работы с такими данными была создана очень удобная библиотека CatBoost от Яндекса. [https://catboost.ai](http://)     
На данный момент **CatBoost является одной из лучших библиотек для табличных данных!**

#### Полезные видео о CatBoost (на русском):
* [Доклад про CatBoost](https://youtu.be/9ZrfErvm97M)
* [Свежий Туториал от команды CatBoost (практическая часть)](https://youtu.be/wQt4kgAOgV0) 

## Fit

In [None]:
model = CatBoostRegressor(iterations = 5000,
                          random_seed = RANDOM_SEED,
                          eval_metric='MAPE',
                          custom_metric=['R2', 'MAE'],
                          silent=True,
                         )
model.fit(X_train, y_train,
         #cat_features=cat_features_ids,
         eval_set=(X_test, y_test),
         verbose_eval=0,
         use_best_model=True,
         #plot=True
         )

model.save_model('catboost_single_model_baseline.model')

In [None]:
# оцениваем точность
predict = model.predict(X_test)
print(f"Точность модели по метрике MAPE: {(mape(y_test, predict))*100:0.2f}%")

Вот так просто со старта, даже не трогая сами данные и не подбирая настройки catboosta, получаем модель с уровнем ошибки в 18%!

### Log Traget
Попробуем взять таргет в логорифм - это позволит уменьшить влияние выбросов на обучение модели (используем для этого np.log и np.exp).    
В принциепе мы можем использовать любое приобразование на целевую переменную. Например деление на курс доллара, евро или гречки :) в дату сбора данных, смотрим дату парсинга в тесте в **parsing_unixtime**

In [None]:
np.log(y_train)

In [None]:
model = CatBoostRegressor(iterations = 5000,
                          random_seed = RANDOM_SEED,
                          eval_metric='MAPE',
                          custom_metric=['R2', 'MAE'],
                          silent=True,
                         )
model.fit(X_train, np.log(y_train),
         #cat_features=cat_features_ids,
         eval_set=(X_test, np.log(y_test)),
         verbose_eval=0,
         use_best_model=True,
         #plot=True
         )

model.save_model('catboost_single_model_2_baseline.model')

In [None]:
predict_test = np.exp(model.predict(X_test))
predict_submission = np.exp(model.predict(X_sub))

In [None]:
print(f"Точность модели по метрике MAPE: {(mape(y_test, predict_test))*100:0.2f}%")

Как видим точность возросла до 15.51%. Продолжим дальше

# Futcher engineering 

In [None]:
test_2 = test[columns_model]
train_2 = train[columns_model]

In [None]:
price = train['price']

In [None]:
test_2['sample'] = 1 # помечаем где у нас трейн
train_2['sample'] = 0 # помечаем где у нас тест

data_2 = test_2.append(train_2, sort=False).reset_index(drop=True) # объединяем

Добавим пару новых признаков:
Комбинация год_месяц. Что бы подобрать курс доллара для каждой машины на дату продажи.
Количество лет машине и количество лет модели.


In [None]:
def to_date(x):
    if type(x) is str:
        return datetime.strptime(x, '%Y-%m-%d')
    else: return x

In [None]:
data_2['parsing_unixtime'] = data_2['parsing_unixtime'].apply(
        lambda x: to_date(x))

In [None]:
data_2['parsing_unixtime'] = data_2['parsing_unixtime'].apply(
        lambda x: to_date(x))
data_2['year_pars'] = data_2['parsing_unixtime'].apply(
        lambda x: str(x.year))
data_2['year_month'] = data_2['parsing_unixtime'].apply(
        lambda x: str(x.year)+"_"+str(+x.month))
data_2['machine_age'] = data_2.apply(
        lambda x: int(x['year_pars'])- x['productionDate'], axis = 1)
data_2['model_age'] = data_2.apply(
        lambda x: int(x['year_pars'])- x['modelDate'], axis = 1)

In [None]:
data_2['month_pars'] = data_2['parsing_unixtime'].apply(
        lambda x: str(x.month))

In [None]:
def description_len (x):
    '''Функция принимает на вход строку
    и возвращает длину строки'''
    
    if type(x) is str:
        return len(x)
    else:
        return 0

In [None]:
data_2['description_len'] = data_2['description'].apply(lambda x: description_len(x))

In [None]:
def seasons (x):
    '''Функция для преобразования в сезоны года'''
    if int(x) in [12,1,2]:
        return 'ЗИМА'
    elif int(x) in [3,4,5]:
        return "ВЕСНА"
    elif int(x) in [6,7,8]:
        return 'ЛЕТО'
    elif int(x) in [9,10,11]:
        return 'ОСЕНЬ'

In [None]:
data_2['season'] = data_2['month_pars'].apply(lambda x: seasons(x))

In [None]:
data_2.head()

In [None]:
col_check = ['bodyType','brand', 'engineDisplacement','enginePower','fuelType', 'model_name','Привод', 'Руль']

In [None]:
# проверим данные на выборс
for i in col_check:
    print(i, data_2[i].unique())

engineDisplacement содержит значения -1 и 0. Проверим данные выбросы.

In [None]:
data_2[data_2['engineDisplacement']<=0]['fuelType'].unique()

Все данные автомобили - это электрокары. Заменим все значения -1 на 0 

In [None]:
data_2.loc[(data_2.engineDisplacement < 0), 'engineDisplacement'] = 0

# Добавим среднемесячные курсы валют.

In [None]:
exchange_rate = pd.read_excel('../input/exchange-rate/exchange_rate.xlsx')

In [None]:
exchange_rate = exchange_rate[['year_month','kyrs']]

In [None]:
def add_exchange_rate(x):
    #print(x)
    return exchange_rate[exchange_rate['year_month'] == x]['kyrs'].iloc[0]

In [None]:
data_2['kyrs'] = data_2['year_month'].apply(lambda x:add_exchange_rate(x))

In [None]:
data_2.head()

# Модель №1  CatBoost

In [None]:
col_for_model_tree = ['bodyType','brand','color','engineDisplacement','enginePower','fuelType','mileage',
                'modelDate','model_name','numberOfDoors','productionDate','Владельцы','Привод','Руль',
                'year_pars','machine_age','model_age','description_len','season','kyrs','sample']
col_cat_tree = ['bodyType','brand','color','fuelType','model_name','Привод','Руль',
                'description_len','season']
col_drop_tree = ['description','parsing_unixtime', 'year_month','month_pars']

In [None]:
data_tree = data_2[col_for_model_tree].copy()

In [None]:
for colum in col_cat_tree:
    data_tree[colum] = data_tree[colum].astype('category').cat.codes

X_valid = data_tree.query('sample == 1').drop(['sample'], axis=1)
X = data_tree.query('sample == 0').drop(['sample'], axis=1)

In [None]:
y = train['price']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=VAL_SIZE, shuffle=True, random_state=RANDOM_SEED)

In [None]:
model = CatBoostRegressor(iterations = 5000,
                          random_seed = RANDOM_SEED,
                          eval_metric='MAPE',
                          custom_metric=['R2', 'MAE'],
                          silent=True,
                         )
model.fit(X_train, np.log(y_train),
         #cat_features=cat_features_ids,
         eval_set=(X_test, np.log(y_test)),
         verbose_eval=0,
         use_best_model=True,
         #plot=True
         )

model.save_model('catboost_single_model_2_baseline.model')

In [None]:
predict_test_Cat_Boost = np.exp(model.predict(X_test))
#predict_submission = np.exp(model.predict(X_sub))
print(f"Точность модели по метрике MAPE: {(mape(y_test, predict_test))*100:0.2f}%")

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

clf = GradientBoostingClassifier()
clf = clf.fit(X_train, y_train)

In [None]:
predict_test_GBC = np.exp(clf.predict(X_test))
#predict_submission = np.exp(model.predict(X_sub))
print(f"Точность модели по метрике MAPE: {(mape(y_test, predict_test))*100:0.2f}%")

In [None]:
y_train.shape

In [None]:
cv_dataset_chosen = Pool(data=X_train, label=y_train)
params = {"early_stopping_rounds": 10,
          "loss_function": "MAPE",
          'eval_metric' :  ['R2', 'MAE'],
          "verbose": 0
         }
sv_cb = cv(cv_dataset_chosen,
            params,
            shuffle=False,
            fold_count=10,
            return_models=True,
            plot="True"
          )

# Submission

In [None]:
#sample_submission['price'] = predict_submission
#sample_submission.to_csv(f'submission_2_v{VERSION}.csv', index=False)
#sample_submission.head(10)

В итоге получили **MAPE 27%** на ЛБ!

Большая разница в ошибке может указывать на то что тест и трейн имеют различия по выборке или то что данные в трейне могли уже устареть и их нужно обновлять.

# What's next?
Или что еще можно сделать, чтоб улучшить результат:

* Спарсить свежие данные 
* Посмотреть, что можно извлечь из признаков или как еще можно обработать признаки
* Сгенерировать новые признаки
* Попробовать подобрать параметры модели
* Попробовать другие алгоритмы и библиотеки ML
* Сделать Ансамбль моделей, Blending, Stacking

Подробный чек лист: https://docs.google.com/spreadsheets/d/1I_ErM3U0Cs7Rs1obyZbIEGtVn-H47pHNCi4xdDgUmXY/edit?usp=sharing

In [None]:
import numpy as np
import pandas as pd
import xgboost as xg
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as MSE
 
# Load the data
dataset = pd.read_csv("boston_house.csv")
X, y = dataset.iloc[:, :-1], dataset.iloc[:, -1]
 
# Splitting
train_X, test_X, train_y, test_y = train_test_split(X, y,
                      test_size = 0.3, random_state = 123)
 
# Instantiation
xgb_r = xg.XGBRegressor(objective ='reg:linear',
                  n_estimators = 10, seed = 123)
 
# Fitting the model
xgb_r.fit(train_X, train_y)
 
# Predict the model
pred = xgb_r.predict(test_X)
 
# RMSE Computation
rmse = np.sqrt(MSE(test_y, pred))
print("RMSE : % f" %(rmse))