In [1]:
import pandas as pd
import numpy as np

import sklearn
from sklearn import tree

import matplotlib.pyplot as plt

%matplotlib inline

pd.options.display.float_format = '{:,.2f}'.format


from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import FunctionTransformer
from sklearn.pipeline import Pipeline

from sklearn.model_selection import train_test_split

import pickle

In [2]:
df = pd.read_csv('../data/processed/all_rooms_combined.csv', index_col=0)

print(f'Наблюдений в датасете: {df.shape[0]}')

Наблюдений в датасете: 19144


In [3]:
df.head()

Unnamed: 0,rooms,subway,admin_okrug,district,street,home_number,price,year_of_construction,total_meters,kitchen_meters,flat_type,house_type,"dist_to_subway, min",way_to_subway,is_euro,is_skyscraper,floor_type,wc_count,wc_type,class_real
0,1,Спартак,СЗАО,р-н Покровское-Стрешнево,Алиа ЖК,к7,16781328.0,2023.0,37.0,11.0,Новостройка,Монолитный,5.0,пешком,False,False,usual,1,совмещенный,премиум
1,1,Шелепиха,СЗАО,р-н Хорошево-Мневники,Шелепихинская набережная,34к7,16500000.0,2024.0,42.0,12.0,Новостройка,Монолитный,14.0,пешком,False,False,usual,1,совмещенный,бизнес
2,1,Стрешнево,СЗАО,р-н Щукино,Щукинская улица,7/9С7,20540352.0,2023.0,47.0,16.0,Новостройка,Монолитный,10.0,пешком,False,False,usual,2,совмещенный,премиум
3,1,Шелепиха,СЗАО,р-н Хорошево-Мневники,Шелепихинская набережная,34к3,20800000.0,2020.0,32.0,11.0,Вторичка,Монолитный,14.0,пешком,False,False,view,1,совмещенный,премиум
4,1,Спартак,СЗАО,р-н Покровское-Стрешнево,Северо-Западный ао,Клубный Город на Реке Примавера ЖК,30460120.0,2024.0,52.0,11.0,Новостройка,Монолитный,14.0,пешком,False,False,usual,1,раздельный,премиум


In [4]:
df.dtypes

rooms                     int64
subway                   object
admin_okrug              object
district                 object
street                   object
home_number              object
price                   float64
year_of_construction    float64
total_meters            float64
kitchen_meters          float64
flat_type                object
house_type               object
dist_to_subway, min     float64
way_to_subway            object
is_euro                    bool
is_skyscraper              bool
floor_type               object
wc_count                  int64
wc_type                  object
class_real               object
dtype: object

### Разбиваем на X и y, делаем сплит ###

In [5]:
log = ['total_meters', 'kitchen_meters', 'dist_to_subway, min']
categorical = ['admin_okrug', 'district', 'subway', 'is_skyscraper', 'class_real', 'way_to_subway', 'wc_type', 'house_type', 'flat_type', 'floor_type','rooms']
ordinal = ['year_of_construction', 'wc_count']

In [6]:
X = df[log + categorical + ordinal]
y = df['price']/df['total_meters']

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1, shuffle=True)

In [8]:
X_train.head(2)

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count
7694,52.0,11.0,7.0,САО,р-н Аэропорт,Динамо,False,премиум,пешком,совмещенный,Монолитный,Вторичка Апартаменты,usual,2,2020.0,1
9773,101.0,17.0,12.0,ЮЗАО,р-н Обручевский,Калужская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,usual,3,2023.0,1


In [9]:
X_train.isna().sum()

total_meters               0
kitchen_meters             0
dist_to_subway, min        2
admin_okrug                0
district                   0
subway                     0
is_skyscraper              0
class_real                 0
way_to_subway              2
wc_type                    0
house_type              1706
flat_type                  0
floor_type                 0
rooms                      0
year_of_construction       0
wc_count                   0
dtype: int64

In [322]:
X_train.house_type = X_train.house_type.fillna('No')
X_train.year_of_construction = X_train.year_of_construction.fillna(-1)
X_train['dist_to_subway, min'] = X_train['dist_to_subway, min'].fillna(20)
X_train.way_to_subway = X_train.way_to_subway.fillna('пешком')

In [323]:
X_test.house_type = X_test.house_type.fillna('No')
X_test.year_of_construction = X_test.year_of_construction.fillna(-1)
X_test['dist_to_subway, min'] = X_test['dist_to_subway, min'].fillna(20)
X_test.way_to_subway = X_test.way_to_subway.fillna('пешком')

In [324]:
X_test.isna().sum()

total_meters            0
kitchen_meters          0
dist_to_subway, min     0
admin_okrug             0
district                0
subway                  0
is_skyscraper           0
class_real              0
way_to_subway           0
wc_type                 0
house_type              0
flat_type               0
floor_type              0
rooms                   0
year_of_construction    0
wc_count                0
dtype: int64

In [325]:
def log_transform(x):
    return np.log(x + 1)

In [326]:
log_transformer = FunctionTransformer(log_transform)

In [327]:
col_transformer = ColumnTransformer([("Log transform", log_transformer, log),
                                ("Scale", StandardScaler(), ordinal),
                                ("One hot", OneHotEncoder(sparse=False, handle_unknown='ignore'),categorical)],
                                remainder="passthrough")
X_train_transformed = col_transformer.fit_transform(X_train)

In [328]:
X_test_transformed = col_transformer.transform(X_test)

In [329]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import catboost as ctb

from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

In [330]:
df_test = pd.merge(X_test, pd.DataFrame(y_test, columns=['real']), how = 'left', left_index=True, right_index=True)

### Простая линейная регрессия ###

In [331]:
linreg = LinearRegression().fit(X_train_transformed, y_train)
MAE_lr = round(mean_absolute_error(y_test, linreg.predict(X_test_transformed)), 3)
MAE_lr

3522816778525.98

In [332]:
df_test['preds'] = linreg.predict(X_test_transformed)
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds
16769,7.0,2.0,13.0,ЗАО,р-н Солнцево,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,ground,9,1978.0,1,321428.57,251776.0
2532,37.0,10.0,7.0,ЗАО,р-н Раменки,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,usual,1,1980.0,1,327027.03,374016.0
11934,169.0,25.0,9.0,ЦАО,р-н Пресненский,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,sky,5,2023.0,1,1202130.18,1020416.0
7643,42.0,10.0,1.0,ЦАО,р-н Басманный,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,view,2,2024.0,1,442837.14,467712.0
17832,21.0,5.0,15.0,ЮАО,р-н Даниловский,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,usual,9,2023.0,1,677945.52,493824.0


In [333]:
df_test['diff'] = df_test['real']-df_test['preds']

In [334]:
df_test.sort_values(by='diff')

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds,diff
3048,39.00,9.00,6.00,ЮЗАО,р-н Северное Бутово,Битца,False,комфорт,на транспорте,раздельный,Монолитный,Вторичка,usual,1,1991.00,1,266666.67,9211118237937472.00,-9211118237670806.00
12215,210.00,20.00,7.00,ЦАО,р-н Якиманка,Третьяковская,False,элитный,пешком,совмещенный,Монолитный,Вторичка,usual,5,2000.00,3,952380.95,1842112.00,-889731.05
11676,186.00,17.00,5.00,ЦАО,р-н Якиманка,Третьяковская,False,премиум,пешком,совмещенный,Кирпичный,Вторичка,ground,5,1912.00,2,586005.38,1392192.00,-806186.62
14907,103.00,13.00,10.00,ЦАО,р-н Хамовники,Киевская,False,элитный,пешком,раздельный,Кирпичный,Вторичка,usual,5,1963.00,1,718446.60,1461632.00,-743185.40
13581,190.00,20.00,6.00,ЦАО,р-н Басманный,Чистые пруды,False,премиум,пешком,совмещенный,No,Вторичка,ground,5,1917.00,2,421052.63,1090048.00,-668995.37
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1910,43.00,10.00,16.00,ЮАО,р-н Бирюлево Восточное,Бирюлёво-Пассажирская,False,комфорт,пешком,раздельный,Монолитный,Вторичка,view,1,2013.00,1,259302.33,-222738685036352.00,222738685295654.31
9662,50.00,7.00,5.00,СВАО,р-н Лосиноостровский,Лось,False,эконом,на транспорте,раздельный,Панельный,Вторичка,usual,3,1969.00,1,230000.00,-222738685132480.00,222738685362480.00
16477,17.00,2.00,6.00,ЗАО,р-н Можайский,Немчиновка,False,эконом,на транспорте,совмещенный,Панельный,Вторичка Апартаменты,ground,9,2007.00,1,235294.12,-222738685127296.00,222738685362590.12
17197,18.00,3.00,16.00,СВАО,р-н Ярославский,Лось,False,комфорт,на транспорте,совмещенный,Монолитный,Вторичка Апартаменты,usual,9,2019.00,1,272222.22,-222738685101824.00,222738685374046.22


### Ridge-регрессия ###

In [335]:
ridge = Ridge(alpha=1000).fit(X_train_transformed, y_train)
MAE_r = round(mean_absolute_error(y_test, ridge.predict(X_test_transformed)), 3)
MAE_r

72832.266

In [336]:
df_test['preds'] = ridge.predict(X_test_transformed)
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds,diff
16769,7.0,2.0,13.0,ЗАО,р-н Солнцево,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,ground,9,1978.0,1,321428.57,266751.58,69652.57
2532,37.0,10.0,7.0,ЗАО,р-н Раменки,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,usual,1,1980.0,1,327027.03,394136.28,-46988.97
11934,169.0,25.0,9.0,ЦАО,р-н Пресненский,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,sky,5,2023.0,1,1202130.18,900738.29,181714.18
7643,42.0,10.0,1.0,ЦАО,р-н Басманный,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,view,2,2024.0,1,442837.14,598745.25,-24874.86
17832,21.0,5.0,15.0,ЮАО,р-н Даниловский,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,usual,9,2023.0,1,677945.52,433710.34,184121.52


In [337]:
df_test['diff'] = df_test['real']-df_test['preds']
df_test.sort_values(by='diff')

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds,diff
14116,388.00,30.00,9.00,ЦАО,р-н Якиманка,Шаболовская,False,комфорт,пешком,совмещенный,Монолитный,Вторичка Пентхаус,view,5,2006.00,3,283247.42,642784.21,-359536.79
12084,225.00,33.00,7.00,ЦАО,р-н Якиманка,Октябрьская,False,бизнес,пешком,совмещенный,Кирпичный,Вторичка,usual,5,1900.00,2,311111.11,605938.45,-294827.34
11945,352.00,32.00,16.00,ЦАО,р-н Пресненский,Улица 1905 года,False,элитный,пешком,совмещенный,No,Вторичка Пентхаус,usual,5,2016.00,5,707386.36,978014.94,-270628.58
14910,183.00,18.00,1.00,ЦАО,р-н Басманный,Бауманская,False,комфорт,пешком,совмещенный,No,Вторичка,usual,5,1902.00,2,284153.01,551459.30,-267306.29
13842,337.00,18.00,7.00,ЦАО,р-н Хамовники,Парк Культуры,False,элитный,пешком,совмещенный,Кирпичный,Вторичка,ground,5,2010.00,3,714674.05,979881.53,-265207.48
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4571,234.00,60.00,7.00,ЦАО,р-н Хамовники,Киевская,False,элитный,на транспорте,раздельный,Монолитный,Новостройка,ground,2,2026.00,4,2390384.62,1008214.02,1382170.60
10461,82.00,6.00,13.00,ЦАО,р-н Хамовники,Киевская,False,элитный,пешком,совмещенный,Монолитный,Новостройка,usual,3,2024.00,2,2344408.59,959647.33,1384761.25
10444,120.00,12.00,1.00,ЦАО,р-н Тверской,Лубянка,False,элитный,пешком,совмещенный,No,Вторичка Апартаменты,ground,3,-1.00,3,2337411.54,912599.90,1424811.64
13558,302.00,10.00,6.00,ЦАО,р-н Пресненский,Пушкинская,False,элитный,пешком,совмещенный,No,Вторичка,usual,5,2006.00,2,2423663.58,918247.38,1505416.19


### Lasso регрессия ###

In [338]:
lasso_reg = Lasso(alpha = 2.65e-05).fit(X_train_transformed, y_train)
MAE_lasso = round(mean_absolute_error(y_test, lasso_reg.predict(X_test_transformed)), 3)
MAE_lasso

  model = cd_fast.enet_coordinate_descent(


51557.355

In [339]:
df_test['preds'] = lasso_reg.predict(X_test_transformed)
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds,diff
16769,7.0,2.0,13.0,ЗАО,р-н Солнцево,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,ground,9,1978.0,1,321428.57,252000.82,54676.99
2532,37.0,10.0,7.0,ЗАО,р-н Раменки,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,usual,1,1980.0,1,327027.03,374224.16,-67109.26
11934,169.0,25.0,9.0,ЦАО,р-н Пресненский,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,sky,5,2023.0,1,1202130.18,1020441.05,301391.89
7643,42.0,10.0,1.0,ЦАО,р-н Басманный,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,view,2,2024.0,1,442837.14,467605.26,-155908.11
17832,21.0,5.0,15.0,ЮАО,р-н Даниловский,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,usual,9,2023.0,1,677945.52,494032.64,244235.18


In [340]:
df_test['diff'] = df_test['real']-df_test['preds']
df_test.sort_values(by='diff')

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds,diff
12215,210.00,20.00,7.00,ЦАО,р-н Якиманка,Третьяковская,False,элитный,пешком,совмещенный,Монолитный,Вторичка,usual,5,2000.00,3,952380.95,1842204.76,-889823.80
11676,186.00,17.00,5.00,ЦАО,р-н Якиманка,Третьяковская,False,премиум,пешком,совмещенный,Кирпичный,Вторичка,ground,5,1912.00,2,586005.38,1392215.23,-806209.86
14907,103.00,13.00,10.00,ЦАО,р-н Хамовники,Киевская,False,элитный,пешком,раздельный,Кирпичный,Вторичка,usual,5,1963.00,1,718446.60,1461601.30,-743154.69
13581,190.00,20.00,6.00,ЦАО,р-н Басманный,Чистые пруды,False,премиум,пешком,совмещенный,No,Вторичка,ground,5,1917.00,2,421052.63,1090061.73,-669009.10
9060,150.00,15.00,10.00,ЦАО,р-н Якиманка,Третьяковская,False,элитный,пешком,совмещенный,Монолитный,Вторичка Апартаменты,ground,3,2019.00,2,1193333.33,1827172.04,-633838.70
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12405,207.00,18.00,5.00,ЗАО,р-н Раменки,Ломоносовский проспект,False,элитный,на транспорте,совмещенный,Монолитный,Новостройка,usual,5,2021.00,1,2006280.19,1136378.39,869901.80
9604,202.00,12.00,6.00,ЦАО,р-н Хамовники,Парк Культуры,False,элитный,пешком,совмещенный,Кирпичный,Вторичка,ground,3,2009.00,1,2289287.87,1188211.99,1101075.88
10444,120.00,12.00,1.00,ЦАО,р-н Тверской,Лубянка,False,элитный,пешком,совмещенный,No,Вторичка Апартаменты,ground,3,-1.00,3,2337411.54,1064237.55,1273173.99
13558,302.00,10.00,6.00,ЦАО,р-н Пресненский,Пушкинская,False,элитный,пешком,совмещенный,No,Вторичка,usual,5,2006.00,2,2423663.58,1050510.35,1373153.23


### Decision Tree ###

In [341]:
dt_reg = DecisionTreeRegressor(random_state = 0, max_depth=15).fit(X_train_transformed, y_train)
MAE_dt = round(mean_absolute_error(y_test, dt_reg.predict(X_test_transformed)), 3)
MAE_dt

36255.778

In [342]:
df_test['preds'] = dt_reg.predict(X_test_transformed)
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds,diff
16769,7.0,2.0,13.0,ЗАО,р-н Солнцево,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,ground,9,1978.0,1,321428.57,292307.69,69427.75
2532,37.0,10.0,7.0,ЗАО,р-н Раменки,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,usual,1,1980.0,1,327027.03,322765.3,-47197.14
11934,169.0,25.0,9.0,ЦАО,р-н Пресненский,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,sky,5,2023.0,1,1202130.18,1167453.48,181689.13
7643,42.0,10.0,1.0,ЦАО,р-н Басманный,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,view,2,2024.0,1,442837.14,466528.78,-24768.12
17832,21.0,5.0,15.0,ЮАО,р-н Даниловский,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,usual,9,2023.0,1,677945.52,571209.45,183912.89


In [343]:
df_test['diff'] = df_test['real']-df_test['preds']
df_test.sort_values(by='diff')

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds,diff
15170,125.00,7.00,8.00,ЦАО,р-н Пресненский,Тверская,False,элитный,пешком,совмещенный,No,Вторичка,usual,5,1913.00,2,768000.00,2240000.00,-1472000.00
6257,204.00,10.00,6.00,ЦАО,р-н Арбат,Смоленская,False,элитный,пешком,совмещенный,Кирпичный,Новостройка,usual,2,2019.00,1,852500.00,1951950.00,-1099450.00
8767,142.00,44.00,5.00,ЦАО,р-н Якиманка,Третьяковская,False,элитный,пешком,совмещенный,Монолитный,Новостройка,ground,3,2024.00,3,1601126.76,2607172.41,-1006045.65
11673,239.00,82.00,12.00,ЦАО,р-н Хамовники,Спортивная,False,элитный,пешком,совмещенный,Монолитный,Новостройка Апартаменты,usual,5,2024.00,4,1614965.25,2462185.13,-847219.88
14299,164.00,18.00,6.00,ЗАО,р-н Раменки,Киевская,False,элитный,на транспорте,совмещенный,Монолитный,Вторичка,sky,5,2011.00,1,701219.51,1500000.00,-798780.49
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13558,302.00,10.00,6.00,ЦАО,р-н Пресненский,Пушкинская,False,элитный,пешком,совмещенный,No,Вторичка,usual,5,2006.00,2,2423663.58,1540573.91,883089.66
10459,110.00,4.00,13.00,ЦАО,р-н Хамовники,Киевская,False,элитный,пешком,совмещенный,Монолитный,Новостройка,usual,3,2024.00,2,2329340.05,1391251.86,938088.18
10461,82.00,6.00,13.00,ЦАО,р-н Хамовники,Киевская,False,элитный,пешком,совмещенный,Монолитный,Новостройка,usual,3,2024.00,2,2344408.59,1391251.86,953156.72
9604,202.00,12.00,6.00,ЦАО,р-н Хамовники,Парк Культуры,False,элитный,пешком,совмещенный,Кирпичный,Вторичка,ground,3,2009.00,1,2289287.87,1013344.86,1275943.01


**Среди базовых моделей лучший результат без настройки гиперпараметров по метрике MAE показывают решающие деревья. Проведем настройку гиперпараметров по кросс-валидации**

In [308]:
from sklearn.model_selection import GridSearchCV

In [309]:
criterion = ['squared_error', 'absolute_error']
splitter = ['best', 'random']
max_depth = [5, 10, 20, 30, 40, 50]

In [310]:
grid = [{'criterion':criterion,
        'splitter':splitter,
        'max_depth':max_depth}]

gs = GridSearchCV(estimator=DecisionTreeRegressor(),
                  param_grid = grid,
                  scoring='neg_mean_absolute_error',
                  cv = 10,
                  n_jobs = -1)

In [311]:
gs = gs.fit(X_train_transformed, y_train)

KeyboardInterrupt: 

In [None]:
-1*gs.best_score_

In [None]:
gs.best_params_

In [None]:
gs.score(X_test_transformed, y_test)

In [None]:
gs.best_estimator_

In [None]:
df_test['preds'] = gs.best_estimator_.predict(X_test_transformed)
df_test.head()

In [None]:
df_test['diff'] = df_test['real']-df_test['preds']
df_test.sort_values(by='diff')

In [None]:
df_test['price_real'] = df_test['total_meters'] * df_test['real']
df_test['price_predicted'] = df_test['total_meters'] * df_test['preds']
df_test['diff'] = df_test['price_real'] - df_test['price_predicted']

In [None]:
df_test

### CatBoost ###

In [344]:
X_train_ctb = X_train.copy()
X_test_ctb = X_test.copy()

In [345]:
X_train_ctb.dtypes

total_meters            float64
kitchen_meters          float64
dist_to_subway, min     float64
admin_okrug              object
district                 object
subway                   object
is_skyscraper              bool
class_real               object
way_to_subway            object
wc_type                  object
house_type               object
flat_type                object
floor_type               object
rooms                     int64
year_of_construction    float64
wc_count                  int64
dtype: object

In [346]:
X_test_ctb.dtypes

total_meters            float64
kitchen_meters          float64
dist_to_subway, min     float64
admin_okrug              object
district                 object
subway                   object
is_skyscraper              bool
class_real               object
way_to_subway            object
wc_type                  object
house_type               object
flat_type                object
floor_type               object
rooms                     int64
year_of_construction    float64
wc_count                  int64
dtype: object

In [347]:
X_train_ctb.is_skyscraper = X_train_ctb.is_skyscraper.astype(str)
X_test_ctb.is_skyscraper = X_test_ctb.is_skyscraper.astype(str)

In [348]:
X_train_ctb.dtypes == 'O'

total_meters            False
kitchen_meters          False
dist_to_subway, min     False
admin_okrug              True
district                 True
subway                   True
is_skyscraper            True
class_real               True
way_to_subway            True
wc_type                  True
house_type               True
flat_type                True
floor_type               True
rooms                   False
year_of_construction    False
wc_count                False
dtype: bool

In [349]:
ctbst = ctb.CatBoostRegressor(cat_features = list(X_train_ctb.columns[X_train_ctb.dtypes == 'O']),
                                 random_state = 42)
ctbst.fit(X_train_ctb, y_train, verbose = False)

<catboost.core.CatBoostRegressor at 0x1681e4550>

In [350]:
ctbst_preds = ctbst.predict(X_test_ctb)

In [351]:
df_test['preds'] = ctbst_preds
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds,diff
16769,7.0,2.0,13.0,ЗАО,р-н Солнцево,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,ground,9,1978.0,1,321428.57,330245.34,29120.88
2532,37.0,10.0,7.0,ЗАО,р-н Раменки,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,usual,1,1980.0,1,327027.03,340301.43,4261.73
11934,169.0,25.0,9.0,ЦАО,р-н Пресненский,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,sky,5,2023.0,1,1202130.18,1102017.99,34676.7
7643,42.0,10.0,1.0,ЦАО,р-н Басманный,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,view,2,2024.0,1,442837.14,446144.33,-23691.64
17832,21.0,5.0,15.0,ЮАО,р-н Даниловский,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,usual,9,2023.0,1,677945.52,521543.14,106736.07


In [352]:
MAE_ctbst = round(mean_absolute_error(y_test, ctbst_preds), 3)
MAE_ctbst

37014.392

In [353]:
ctbst2 = ctb.CatBoostRegressor(iterations = 1000, 
                             depth = 15, 
                             learning_rate = 0.04746000096201897,
                             random_strength = 1,
                             border_count = 254,
                             l2_leaf_reg = 3, 
                             grow_policy = 'SymmetricTree',
                             cat_features = list(X_train_ctb.columns[X_train_ctb.dtypes == 'O']),
                             random_state = 42)
ctbst2.fit(X_train_ctb, y_train, verbose = False)

<catboost.core.CatBoostRegressor at 0x16833a950>

In [354]:
ctbst2_preds = ctbst2.predict(X_test_ctb)
MAE_ctbst2 = round(mean_absolute_error(y_test, ctbst2_preds), 3)
MAE_ctbst2

30640.308

In [355]:
df_test['preds'] = ctbst2_preds
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,district,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,floor_type,rooms,year_of_construction,wc_count,real,preds,diff
16769,7.0,2.0,13.0,ЗАО,р-н Солнцево,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,ground,9,1978.0,1,321428.57,333359.82,29120.88
2532,37.0,10.0,7.0,ЗАО,р-н Раменки,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,usual,1,1980.0,1,327027.03,355830.93,4261.73
11934,169.0,25.0,9.0,ЦАО,р-н Пресненский,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,sky,5,2023.0,1,1202130.18,1142332.71,34676.7
7643,42.0,10.0,1.0,ЦАО,р-н Басманный,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,view,2,2024.0,1,442837.14,448525.82,-23691.64
17832,21.0,5.0,15.0,ЮАО,р-н Даниловский,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,usual,9,2023.0,1,677945.52,581938.66,106736.07


In [393]:
import pickle
with open("ctbst_reg.pkl", "wb") as f:
    pickle.dump(ctbst2, f)

### RandomForest Regressor ###

In [356]:
rf = RandomForestRegressor(criterion='squared_error', n_estimators = 300)

In [357]:
rf.fit(X_train_transformed, y_train)

In [358]:
rf_preds = rf.predict(X_test_transformed)
MAE_rf = round(mean_absolute_error(y_test, rf_preds), 3)
MAE_rf

28520.647

In [362]:
X_full = X.copy()

In [363]:
X_full.house_type = X_full.house_type.fillna('No')
X_full.year_of_construction = X_full.year_of_construction.fillna(-1)
X_full['dist_to_subway, min'] = X_full['dist_to_subway, min'].fillna(20)
X_full.way_to_subway = X_full.way_to_subway.fillna('пешком')

In [364]:
X_transformed = col_transformer.fit_transform(X_full)

In [365]:
rf.fit(X_transformed, y)

In [367]:
rf_full_preds = rf.predict(X_transformed)
MAE_rf_full = round(mean_absolute_error(y, rf_full_preds), 3)
MAE_rf_full

11173.097

In [397]:

with open("rf_reg.pkl", "wb") as f:
    pickle.dump(rf, f)

In [369]:
with open("col_transf.pkl", "wb") as f:
    pickle.dump(col_transformer, f)

In [370]:
with open("rf_reg.pkl", "rb") as f:
    model = pickle.load(f)

In [371]:
with open("col_transf.pkl", "rb") as f:
    column_transformer = pickle.load(f)

In [384]:
sample_test = {
    'total_meters':[58.2, 60.0],
    'kitchen_meters':[21.0, 12.0],
    'dist_to_subway, min':[15.0, 25.0],
    'admin_okrug':['СВАО', 'СВАО'],
    'subway':['Ботанический сад', 'ВДНХ'],
    'is_skyscraper': ['False', 'False'],
    'class_real':['комфорт', ''],
    'way_to_subway':['пешком', 'пешком'],
    'wc_type':['совмещенный', 'раздельный'],
    'house_type':['Монолитный', 'кирпичный'],
    'flat_type':['Новостройка', 'Вторичка'],
    'rooms': [2, 2],
    'year_of_construction':[2021, 1995],
    'wc_count':[2, 1],
    'district':['р-н Останкинский', 'р-н Алексеевский'],
    'floor_type':['usual', 'usual']
}

In [385]:
sample_df = pd.DataFrame.from_dict(sample_test)
sample_df

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,wc_count,district,floor_type
0,58.2,21.0,15.0,СВАО,Ботанический сад,False,комфорт,пешком,совмещенный,Монолитный,Новостройка,2,2021,2,р-н Останкинский,usual
1,60.0,12.0,25.0,СВАО,ВДНХ,False,,пешком,раздельный,кирпичный,Вторичка,2,1995,1,р-н Алексеевский,usual


In [386]:
sample_df_transformed = column_transformer.transform(sample_df)

In [387]:
model.predict(sample_df_transformed)[0] * 60

15167801.457003517

### Ansamble ###

In [394]:
ansamble_preds = (0.8 * rf_preds + 0.2*ctbst2_preds)

In [395]:
MAE_ans = round(mean_absolute_error(y_test, ansamble_preds), 3)
MAE_ans

28331.901