# Data

In [1]:
import pandas as pd
import numpy as np

from sklearn import neighbors
from catboost import CatBoostRegressor
from sklearn import tree                             

from sklearn.model_selection import train_test_split

In [2]:
%store -r df

preX = pd.concat(
[df[['brand','sell_id','price','engineDisplacement', 'enginePower','mileage','car_age', 'model_product_time']] ,
pd.get_dummies(df.bodyType,prefix='bodyType'),
pd.get_dummies(df.fuelType,prefix='fuelType'),
pd.get_dummies(df.vehicleTransmission,prefix='vehicleTransmission'),
pd.get_dummies(df.Привод,prefix='Привод'),
pd.get_dummies(df.Владельцы,prefix='Владельцы'),
pd.get_dummies(df.Владение,prefix='Владение'),
pd.get_dummies(df.color,prefix='color'),
pd.get_dummies(df.ПТС,prefix='ПТС'),
pd.get_dummies(df.Руль,prefix='Руль'),
pd.get_dummies(df.numberOfDoors,prefix='numberOfDoors'),],axis=1)

preX.sample(5)

test = preX[preX.price==-1]
train = preX[preX.price!=-1]

X=train.drop(['brand','sell_id','price'],axis='columns')
y=train.price

### Метрика
$$\Large MAPE= 100 \% * \frac{1}{n}\sum_{t=1}^{n}\frac{\left | Y_t-\hat{Y_t} \right |}{Y_t}$$

In [3]:
'''Функция вывода MAPE'''
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred-y_true)/y_true))*100

### Cравнение Decision Tree & CatBoost

In [4]:
X_train, X_test, y_train, y_test = train_test_split(
    X ,
    y, test_size=0.2, shuffle=True, random_state=42)

In [5]:
### k-nears neighbors regression
knn = neighbors.KNeighborsRegressor(n_neighbors=3)
knn.fit(X_train, y_train)
print('MAPE:', mape(y_test, knn.predict(X_test)))

MAPE: 39.96060973627035


In [6]:
### CatBoost regression
model = CatBoostRegressor(iterations = 10000,
                          random_seed = 42, silent=True)
model.fit(X_train.values, np.log(y_train.values))

print('MAPE:',mape(y_test, np.exp(model.predict(X_test.values)) ))

MAPE: 15.51307854541574


In [7]:
### Decision Tree regression
model = tree.DecisionTreeRegressor(max_depth=16, max_features=None)
model.fit(X_train,y_train)

print('MAPE:',(mape(y_test, (model.predict(X_test)))))

MAPE: 18.97112652582724


CatBoost показал себя лучше простого решающего дерева, можно сделать первый коммит

In [8]:
'''SUBMISSION_1'''
model = CatBoostRegressor(iterations = 10000,
                          random_seed = 42, silent=True)
model.fit(X.values, np.log(y.values))

price = pd.Series(np.exp(model.predict(test.drop(['brand','sell_id','price'],axis='columns').values)))
price.name = 'price'
price = price.astype('int')
pd.concat([test.sell_id, price],axis=1).to_csv(f'submission_1.csv', index=False)
print('KAGGLE score: 15.81082')

KAGGLE score: 15.81082


# Начиная с этого момента метрика только в kaggle public score(Тоже MAPE)

## [big_trees](./big_trees.ipynb)
Его деревья обучались на отдельных брендах

In [9]:
big_pred = pd.read_pickle('big_pred.pickle') # предсказания big_trees

Как совмещать предсказания? 
- Арифметическим средним. Складываются два или более предсказания, после чего их сумма делится на их же количество

In [10]:
( ((12+7)/2 )+3)/2, (12+7+3)/3 # пример регуляции влияния предсказаний

(6.25, 7.333333333333333)

In [11]:
'''SUBMISSION 2 - совмещение CatBoost и Decision Trees'''
pd.concat([test.sell_id, (price + big_pred)/2],axis=1).to_csv(
    f'submission_2.csv', index=False)
print('KAGGLE score: 12.82608')

KAGGLE score: 12.82608


### Время появиться [lil_trees](./lil_trees.ipynb).
Он обучался отдельно на моделях авто

In [12]:
lil_pred = pd.read_pickle('lil_pred.pickle') # это его предсказания

In [13]:
# Cтаршие алгоритмы подсказывают младшему авто, моделей которых нет в датасете
for i in lil_pred[lil_pred==0.36787944117144233].index:
    lil_pred.at[i] = (big_pred[i] + price[i])/2

In [14]:
'''SUBMISSION 3'''
prediction = ((lil_pred + big_pred + price)/3).astype('int')
prediction.name = 'price'


pd.concat([test.sell_id, prediction],axis=1).to_csv(
    'submission_3.csv', index=False)
print('KAGGLE score: 11.58098')

KAGGLE score: 11.58098


In [15]:
'''SUBMISSION 4'''
prediction = ((lil_pred + big_pred)/2).astype('int')
prediction.name = 'price'


pd.concat([test.sell_id, prediction],axis=1).to_csv(
    'submission_4.csv', index=False)

print('KAGGLE score: 11.29318')

KAGGLE score: 11.29318


In [16]:
'''SUBMISSION 5'''
prediction = (  ( ((price + big_pred)/2) + lil_pred )/2  ).astype('int')
prediction.name = 'price'


pd.concat([test.sell_id, prediction],axis=1).to_csv(
    'submission_5.csv', index=False)

print('KAGGLE score: 11.36916')

KAGGLE score: 11.36916


In [17]:
'''SUBMISSION 6'''
prediction = ( (price + lil_pred )/2 ).astype('int')
prediction.name = 'price'


pd.concat([test.sell_id, prediction],axis=1).to_csv(
    'submission_6.csv', index=False)

print('KAGGLE score: 12.44002')

KAGGLE score: 12.44002


In [18]:
'''SUBMISSION 7'''
prediction = ( ((big_pred + lil_pred )/2 + lil_pred)/2 ).astype('int')
prediction.name = 'price'


pd.concat([test.sell_id, prediction],axis=1).to_csv(
    'submission_7.csv', index=False)

print('KAGGLE score: 11.45419')

KAGGLE score: 11.45419


In [19]:
'''SUBMISSION 8'''
prediction = (lil_pred).astype('int')
prediction.name = 'price'


pd.concat([test.sell_id, prediction],axis=1).to_csv(
    'submission_8.csv', index=False)

print('KAGGLE score: 12.29984')

KAGGLE score: 12.29984


In [20]:
'''SUBMISSION 9'''
prediction = pd.Series(big_pred).astype('int')
prediction.name = 'price'


pd.concat([test.sell_id, prediction],axis=1).to_csv(
    'submission_9.csv', index=False)

print('KAGGLE score: 12.86383')

KAGGLE score: 12.86383


In [21]:
'''SUBMISSION 10'''
prediction = (  (  ( (big_pred + lil_pred)/2) + big_pred)/2  ).astype('int')
prediction.name = 'price'


pd.concat([test.sell_id, prediction],axis=1).to_csv(
    'submission_10.csv', index=False)

print('KAGGLE score: 11.78683')

KAGGLE score: 11.78683


Возможно, что лучше всего заполнять пропуски именно big

In [22]:
lil_pred = pd.read_pickle('lil_pred.pickle')

for i in lil_pred[lil_pred==0.36787944117144233].index:
    lil_pred.at[i] = big_pred[i]
    
    
'''SUBMISSION 11'''
prediction = ((lil_pred + big_pred)/2).astype('int')
prediction.name = 'price'


pd.concat([test.sell_id, prediction],axis=1).to_csv(
    'submission_11.csv', index=False)

print('KAGGLE score: 11.29386')

KAGGLE score: 11.29386


Нет, это маловажно

Если спросите, почему я не обучал перспективный CatBoost на разделенных по брендам или моделям данных, то я отвечу, что не успел посмотреть на данную комбинацию.