# big_trees
Исследование авторынка вывело инсайт, что автомобиль с одними и теми же параметрами может критично отличаться в цене в зависимости от марки. Поэтому  данные деревья обучаются по брендам, чтобы нивелировать даныные расхождения. Примечательно, что похожая логика действует и на модели бренда, только в таком случае цена отличается, часто кратно в уже в зависимости от комлпектации. При том при одной и той же комплектации машины разных моделей тоже имеют разную цену. Но автомобилей одинаковых марок в тренировочном и тестовом датасете много меньше, чем авто с одним брендом, поэтому big_trees модель работает в связке с моделью [lil_trees](./lil_trees.ipynb), компенсируя недостаток данных в местах, где выборка слишком мала.

## Инциализация

In [1]:
import pandas as pd
import numpy as np

from sklearn import tree                             

In [2]:
%store -r df

preX = pd.concat(
[df[['brand','sell_id','price','engineDisplacement', 'enginePower','mileage','car_age', 'model_product_time']] ,
pd.get_dummies(df.bodyType,prefix='bodyType'),
pd.get_dummies(df.fuelType,prefix='fuelType'),
pd.get_dummies(df.vehicleTransmission,prefix='vehicleTransmission'),
pd.get_dummies(df.Привод,prefix='Привод'),
pd.get_dummies(df.Владельцы,prefix='Владельцы'),
pd.get_dummies(df.Владение,prefix='Владение'),
pd.get_dummies(df.color,prefix='color'),
pd.get_dummies(df.ПТС,prefix='ПТС'),
pd.get_dummies(df.Руль,prefix='Руль'),
pd.get_dummies(df.numberOfDoors,prefix='numberOfDoors'),],axis=1)

preX.sample(5)

test = preX[preX.price==-1]
train = preX[preX.price!=-1]

X=train.drop(['brand','sell_id','price'],axis='columns')
y=train.price

### Метрика
$$\Large MAPE= 100 \% * \frac{1}{n}\sum_{t=1}^{n}\frac{\left | Y_t-\hat{Y_t} \right |}{Y_t}$$

In [3]:
'''Функция вывода MAPE'''
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred-y_true)/y_true))*100

## Модель

In [4]:
'''                 Подготовка датасетов по маркам                          '''
###############################################################################
train_SKODA = train[train.brand == 'SKODA'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_AUDI = train[train.brand == 'AUDI'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_HONDA = train[train.brand == 'HONDA'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_VOLVO = train[train.brand == 'VOLVO'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_BMW = train[train.brand == 'BMW'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_NISSAN = train[train.brand == 'NISSAN'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_INFINITI = train[train.brand == 'INFINITI'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_MERCEDES = train[train.brand == 'MERCEDES'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_TOYOTA = train[train.brand == 'TOYOTA'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_LEXUS = train[train.brand == 'LEXUS'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_VOLKSWAGEN = train[train.brand == 'VOLKSWAGEN'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)
train_MITSUBISHI = train[train.brand == 'MITSUBISHI'].drop(['brand','sell_id'],axis='columns').reset_index(drop=True)


'''                 Обучение деревьев по бренду                             '''
###############################################################################
SKODA = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
SKODA.fit(train_SKODA.drop(['price'],axis='columns'),np.log(train_SKODA.price))

AUDI = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
AUDI.fit(train_AUDI.drop(['price'],axis='columns'),np.log(train_AUDI.price))

HONDA = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
HONDA.fit(train_HONDA.drop(['price'],axis='columns'),np.log(train_HONDA.price))

VOLVO = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
VOLVO.fit(train_VOLVO.drop(['price'],axis='columns'),np.log(train_VOLVO.price))

BMW = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
BMW.fit(train_BMW.drop(['price'],axis='columns'),np.log(train_BMW.price))

NISSAN = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
NISSAN.fit(train_NISSAN.drop(['price'],axis='columns'),np.log(train_NISSAN.price))

INFINITI = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
INFINITI.fit(train_INFINITI.drop(['price'],axis='columns'),np.log(train_INFINITI.price))

MERCEDES = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
MERCEDES.fit(train_MERCEDES.drop(['price'],axis='columns'),np.log(train_MERCEDES.price))

TOYOTA = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
TOYOTA.fit(train_TOYOTA.drop(['price'],axis='columns'),np.log(train_TOYOTA.price))

LEXUS = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
LEXUS.fit(train_LEXUS.drop(['price'],axis='columns'),np.log(train_LEXUS.price))

VOLKSWAGEN = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
VOLKSWAGEN.fit(train_VOLKSWAGEN.drop(['price'],axis='columns'),np.log(train_VOLKSWAGEN.price))

MITSUBISHI = tree.DecisionTreeRegressor(max_depth=None, max_features=None)
MITSUBISHI.fit(train_MITSUBISHI.drop(['price'],axis='columns'),np.log(train_MITSUBISHI.price))


'''             Предсказания деревьев по бренду                             '''
###############################################################################
for_pred = test.drop(['brand','sell_id','price'],axis='columns')

preds = []
for i in test.index:
    if test.brand[i] == 'SKODA': preds.append(SKODA.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'AUDI': preds.append(AUDI.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'HONDA': preds.append(HONDA.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'VOLVO': preds.append(VOLVO.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'BMW': preds.append(BMW.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'NISSAN': preds.append(NISSAN.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'INFINITI': preds.append(INFINITI.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'MERCEDES': preds.append(MERCEDES.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'TOYOTA': preds.append(TOYOTA.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'LEXUS': preds.append(LEXUS.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'VOLKSWAGEN': preds.append(VOLKSWAGEN.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
    if test.brand[i] == 'MITSUBISHI': preds.append(MITSUBISHI.predict(pd.DataFrame(for_pred.iloc[i]).T)[0])
        
big_pred = np.exp(preds) # Массив с предскзаниями

print('KAGGLE score: 12.86383')

KAGGLE score: 12.86383


In [6]:
# сохранение результатов предскзания
pd.Series(big_pred).to_pickle('big_pred.pickle') 

Сравнение моделей и использование big_trees в стэкинге в следующем ноутбуке:
- [Models_and_stacking](./secondary_notebooks/Models_and_stacking.ipynb)