In [6]:
import json
import pandas as pd
import numpy as np
import datetime

%matplotlib inline
import seaborn as sns

import catboost
from catboost import CatBoostRegressor

from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.metrics import mean_absolute_error

pd.set_option('max_columns', 150)

# Данные

In [2]:
X = pd.read_csv('./data/X.csv', sep = ';', encoding='cp1251')
Y = pd.read_csv('./data/Y.csv', sep = ';', encoding='cp1251')

# Важные признаки модели

In [4]:
clf = CatBoostRegressor(verbose=False)
clf.fit(X, Y)

features = X.columns.values
importances = clf.feature_importances_
indices = np.argsort(importances)[::-1]

num_to_plot = 10
feature_indices = [ind+1 for ind in indices[:num_to_plot]]

for i in range(num_to_plot):
    print(i, features[feature_indices[i]], round(importances[indices[i]],2))

0 Жилая площадь 30.1
1 Площадь кухни 28.19
2 Этаж 4.54
3 Лет дому 3.13
4 Первый этаж 2.49
5 Лет с момента ремонта 2.05
6 Район=Заводской район 1.93
7 Материал стен=силикатно-блочный 1.9
8 Микрорайон=Независимости, Кедышко, Волгоградская 1.47
9 Был капремонт 1.37


# Точность модели на тестовом периоде

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state = 42)

In [12]:
clf = CatBoostRegressor(verbose=False)
clf.fit(X_train, y_train)

print('MAE:', mean_absolute_error(y_test, clf.predict(X_test)))
print('%MAPE:', np.round(1 - np.sqrt(mean_squared_error(y_test, clf.predict(X_test))) / np.mean(y_test['Цена']), 3) * 100, '%')

MAE: 7571.96778327
%MAPE: 81.7 %


# Сохраним модель для использования в боте

In [8]:
clf = CatBoostRegressor(verbose=False)
clf.fit(X, Y)
clf.save_model('model/ctb_model')