## Тестирование модели и получение файла с прогнозом цены
####  Итоговый результат MAPE = 11.24149
Файл model_test.ipynb. Предназначен для предобработки данных тестового набора test.csv,
проверки на тестовом наборе 10 ранее обученных моделей и усреднения результатов.
В конце формируется файл submission_blend_best.csv, содержащий предсказанные цены на автомобили.

In [1]:
import numpy as np
import pandas as pd
from catboost import CatBoostRegressor
import re
import json

## Подготовка тестового набора

In [4]:
DIR_TEST = 'data/'
test = pd.read_csv(DIR_TEST + 'test.csv')
sample_submission = pd.read_csv(DIR_TEST + 'sample_submission.csv')

In [6]:
test.head()

Unnamed: 0,bodyType,brand,color,fuelType,modelDate,name,numberOfDoors,productionDate,vehicleConfiguration,vehicleTransmission,...,mileage,Комплектация,Привод,Руль,Состояние,Владельцы,ПТС,Таможня,Владение,id
0,внедорожник 5 дв.,MERCEDES,синий,бензин,2015.0,250 2.0 AT (211 л.с.) 4WD,5.0,2017.0,ALLROAD_5_DOORS AUTOMATIC 2.0,автоматическая,...,50000.0,"['[{""name"":""Безопасность"",""values"":[""Антипробу...",полный,Левый,Не требует ремонта,1 владелец,Оригинал,Растаможен,,0
1,седан,INFINITI,чёрный,бензин,2014.0,3.7 AT (333 л.с.) 4WD,4.0,2014.0,SEDAN AUTOMATIC 3.7,автоматическая,...,78000.0,[],полный,Левый,Не требует ремонта,2 владельца,Оригинал,Растаможен,,1
2,хэтчбек 5 дв.,NISSAN,белый,бензин,2009.0,1.6 AT (110 л.с.),5.0,2013.0,HATCHBACK_5_DOORS AUTOMATIC 1.6,автоматическая,...,98000.0,"['[{""name"":""Элементы экстерьера"",""values"":[""Ст...",передний,Левый,Не требует ремонта,1 владелец,Оригинал,Растаможен,,2
3,внедорожник 5 дв.,BMW,серый,дизель,2013.0,M50d 3.0d AT (381 л.с.) 4WD,5.0,2016.0,ALLROAD_5_DOORS AUTOMATIC 3.0,автоматическая,...,69000.0,"['[{""name"":""Комфорт"",""values"":[""Круиз-контроль...",полный,Левый,Не требует ремонта,3 или более,Оригинал,Растаможен,,3
4,внедорожник 5 дв.,MERCEDES,чёрный,бензин,2013.0,200 1.6 AMT (156 л.с.),5.0,2015.0,ALLROAD_5_DOORS ROBOT 1.6,роботизированная,...,116473.0,"['[{""name"":""Элементы экстерьера"",""values"":[""Ле...",передний,Левый,Не требует ремонта,2 владельца,Оригинал,Растаможен,,4


In [7]:
# Подгружаем заранее подготовленный список категорий для работы с признаком "комплектация"

with open('data/categories.list', 'r') as filehandle:
    categories = json.load(filehandle)
    
print(categories)

['Ксеноновые/Биксеноновые фары', 'Лазерные фары', 'Светодиодные фары', 'Электрообогрев зоны стеклоочистителей', 'Электрообогрев лобового стекла', 'Электрообогрев форсунок стеклоомывателей', 'Электрообогрев боковых зеркал', 'Противотуманные фары', 'Автоматический корректор фар', 'Омыватель фар', 'Система адаптивного освещения', 'Система управления дальним светом', 'Датчик дождя', 'Датчик света', 'Стальные диски', 'Легкосплавные диски', 'Диски 12', 'Диски 13', 'Диски 14', 'Диски 15', 'Диски 16', 'Диски 17', 'Диски 18', 'Диски 19', 'Диски 20', 'Диски 21', 'Диски 22', 'Диски 23', 'Диски 24', 'Диски 25', 'Диски 26', 'Диски 27', 'Диски 28', 'Аэрография', 'Обвес кузова', 'Рейлинги на крыше', 'Сигнализация', 'Сигнализация с обратной связью', 'Центральный замок', 'Иммобилайзер', 'Датчик проникновения в салон (датчик объема)', 'Аудиоподготовка', 'Аудиосистема', 'Аудиосистема Hi-Fi', 'Аудиосистема с TV', 'AUX', 'Bluetooth', 'USB', 'Мультимедиа система для задних пассажиров', 'Навигационная систем

In [10]:
def preproc_data_test(df_input):
    '''Предобработка тестового датасета'''
    
    df_output = df_input.copy()
    
    # ################### Предобработка ############################################################## 
    df_output.drop(['Таможня', 'Состояние', 'id','name','vehicleConfiguration','color','Руль', 'ПТС'], axis=1, inplace=True)
    df_output['Владельцы'] = df_output['Владельцы'].apply(new_owner)
    
    # Переводим признаки из float в int (иначе catboost выдает ошибку)
    for feature in ['modelDate', 'numberOfDoors', 'productionDate']:
        df_output[feature]=df_output[feature].astype('int32')
        
    # ################### Feature Engineering ####################################################
    df_output['mileage'] = df_output['mileage'].apply(define_mileage_category)
    df_output['enginePower'] = df_output['enginePower'].apply(lambda x: int(x.split(' ')[0]) )
    df_output['enginePower'] = df_output['enginePower'].apply(define_power_category)
    for item in categories:
        pattern = item.replace("(", "\(")
        pattern = pattern.replace(")", "\)")
        df_output[item] = df_output['Комплектация'].apply(lambda x: 1 if len(re.findall(pattern, x)) > 0 else 0)
    
    # ################### Clean #################################################### 
    df_output.drop(['Комплектация', 'description', 'Владение'], axis=1, inplace=True,)
    
    return df_output


def new_owner(owner):
    return owner.replace("\xa0", " ")

def define_mileage_category(mileage):
    mileage = mileage / 5000
    if mileage > 100:
        category = 101
    else:
        category = np.ceil(mileage).astype('int32')
    return category

def define_power_category(power):
    power = power / 25
    power = np.ceil(power).astype('int32')
    return power

In [11]:
X_sub = preproc_data_test(test)

In [12]:
# Подгружаем заранее подготовленный список лучших признаков
# из model.feature_importances_

with open('data/best_features.list', 'r') as filehandle:
    best_features = json.load(filehandle)

# Удаляем часть маловажных признаков
X_sub.drop(best_features[60:], axis=1, inplace=True)

## Объединение предсказаний моделей и усреднение результата

In [14]:
submissions = pd.DataFrame(0,columns=["sub_0"], index=sample_submission.index)

for i in range(5):
    from_file = CatBoostRegressor()
    model = from_file.load_model(f"models/catboost_8.5_{i}.model")
    submissions[f'sub_{i}'] = model.predict(X_sub)

for i in range(5):
    from_file = CatBoostRegressor()
    model = from_file.load_model(f"models/catboost_8.3_{i}.model")
    submissions[f'sub_8.3_{i}'] = model.predict(X_sub)
    
submissions.head(10)

Unnamed: 0,sub_0,sub_1,sub_2,sub_3,sub_4,sub_8.3_0,sub_8.3_1,sub_8.3_2,sub_8.3_3,sub_8.3_4
0,2216409.0,2264539.0,2159175.0,2333180.0,2230331.0,2222726.0,2206875.0,2232819.0,2320340.0,2272892.0
1,1591311.0,1635465.0,1509524.0,1642508.0,1573701.0,1552598.0,1605340.0,1535138.0,1620572.0,1600218.0
2,454100.8,452301.2,446223.8,466925.9,471285.0,460467.6,464849.5,473955.6,451373.7,473288.3
3,3428869.0,3302874.0,3247518.0,3292152.0,3373475.0,3400247.0,3456046.0,3448713.0,3356943.0,3291047.0
4,1162176.0,1183500.0,1263492.0,1224902.0,1225088.0,1227423.0,1230519.0,1223758.0,1217109.0,1174262.0
5,706741.5,686013.6,721756.4,724381.5,701775.8,680283.2,714930.2,709590.3,723135.7,694748.2
6,382338.2,378661.7,405712.5,391894.8,387622.4,400038.9,400512.3,398315.7,396657.2,395362.3
7,570962.6,551694.7,571853.4,577413.9,594565.4,592310.5,547312.9,546958.9,563852.4,568989.2
8,1857120.0,1951354.0,1818032.0,1905901.0,1847699.0,1850514.0,1855425.0,1903565.0,1941764.0,1865781.0
9,626198.9,636730.0,621948.8,635022.8,612282.4,634031.2,630982.3,622959.3,640121.7,622158.9


In [16]:
submissions['blend'] = (submissions.sum(axis=1))/len(submissions.columns)
sample_submission['price'] = submissions['blend'].values
sample_submission.to_csv('submission_blend_best.csv', index=False)
sample_submission.head(10)

Unnamed: 0,id,price
0,0,2245929.0
1,1,1586638.0
2,2,461477.1
3,3,3359788.0
4,4,1213223.0
5,5,706335.6
6,6,393711.6
7,7,568591.4
8,8,1879716.0
9,9,628243.6


####  Итоговый результат MAPE = 11.24149