In [5]:
import pandas as pd
import numpy as np

import sklearn
from sklearn import tree

import torch
from torch import nn
from torch.utils.data import DataLoader


import matplotlib.pyplot as plt

%matplotlib inline

pd.options.display.float_format = '{:,.2f}'.format

In [6]:
df = pd.read_csv('../data/processed/all_rooms_combined.csv', index_col=0)

print(f'Наблюдений в датасете: {df.shape[0]}')

Наблюдений в датасете: 16208


In [7]:
df.head()

Unnamed: 0,rooms,subway,admin_okrug,district,street,home_number,price,year_of_construction,total_meters,kitchen_meters,flat_type,house_type,"dist_to_subway, min",way_to_subway,is_euro,is_skyscraper,floor_type,wc_count,wc_type,class_real
0,1,Спартак,СЗАО,р-н Покровское-Стрешнево,Алиа ЖК,к7,16781328.0,2023.0,37.0,10.0,Новостройка,Монолитный,5.0,пешком,False,False,usual,1,совмещенный,премиум
1,1,Шелепиха,СЗАО,р-н Хорошево-Мневники,Шелепихинская набережная,34к7,16500000.0,2024.0,42.0,12.0,Новостройка,Монолитный,14.0,пешком,False,False,usual,1,совмещенный,бизнес
2,1,Стрешнево,СЗАО,р-н Щукино,Щукинская улица,7/9С7,20540352.0,2023.0,47.0,16.0,Новостройка,Монолитный,10.0,пешком,False,False,usual,2,совмещенный,премиум
3,1,Шелепиха,СЗАО,р-н Хорошево-Мневники,Шелепихинская набережная,34к3,20800000.0,2020.0,32.0,10.0,Вторичка,Монолитный,14.0,пешком,False,False,view,1,совмещенный,премиум
4,1,Спартак,СЗАО,р-н Покровское-Стрешнево,Северо-Западный ао,Клубный Город на Реке Примавера ЖК,30460120.0,2024.0,52.0,11.0,Новостройка,Монолитный,14.0,пешком,False,False,usual,1,раздельный,премиум


In [8]:
df.dtypes

rooms                     int64
subway                   object
admin_okrug              object
district                 object
street                   object
home_number              object
price                   float64
year_of_construction    float64
total_meters            float64
kitchen_meters          float64
flat_type                object
house_type               object
dist_to_subway, min     float64
way_to_subway            object
is_euro                    bool
is_skyscraper              bool
floor_type               object
wc_count                  int64
wc_type                  object
class_real               object
dtype: object

### Разбиваем на X и y

In [None]:
log = ['total_meters', 'kitchen_meters', 'dist_to_subway, min']
categorical = ['admin_okrug', 'district', 'subway', 'is_skyscraper', 'class_real', 'way_to_subway', 'wc_type', 'house_type', 'flat_type']
ordinal = ['rooms', 'year_of_construction']

In [107]:
X = df[log + categorical + ordinal]
y = df['price']/df['total_meters']

In [108]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import FunctionTransformer
from sklearn.pipeline import Pipeline

from sklearn.model_selection import train_test_split

In [109]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1, shuffle=True)

In [110]:
X_train.head(2)

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction
15780,21.0,5.0,7.0,СВАО,Отрадное,False,бизнес,на транспорте,совмещенный,Панельный,Новостройка,9,2025.0
1177,33.0,15.0,7.0,НАО (Новомосковский),Филатов Луг,False,комфорт,пешком,совмещенный,Монолитный,Новостройка,1,2025.0


In [111]:
X_train.isna().sum()

total_meters               0
kitchen_meters             0
dist_to_subway, min        0
admin_okrug                0
subway                     0
is_skyscraper              0
class_real                 0
way_to_subway              0
wc_type                    0
house_type              1494
flat_type                  0
rooms                      0
year_of_construction     510
dtype: int64

In [112]:
X_train.house_type = X_train.house_type.fillna('No')
X_train.year_of_construction = X_train.year_of_construction.fillna(-1)
X_train['dist_to_subway, min'] = X_train['dist_to_subway, min'].fillna(20)
X_train.way_to_subway = X_train.way_to_subway.fillna('пешком')

In [113]:
X_test.house_type = X_test.house_type.fillna('No')
X_test.year_of_construction = X_test.year_of_construction.fillna(-1)
X_test['dist_to_subway, min'] = X_test['dist_to_subway, min'].fillna(20)
X_test.way_to_subway = X_test.way_to_subway.fillna('пешком')

In [114]:
X_test.isna().sum()

total_meters            0
kitchen_meters          0
dist_to_subway, min     0
admin_okrug             0
subway                  0
is_skyscraper           0
class_real              0
way_to_subway           0
wc_type                 0
house_type              0
flat_type               0
rooms                   0
year_of_construction    0
dtype: int64

In [115]:
def log_transform(x):
    return np.log(x + 1)

In [116]:
log_transformer = FunctionTransformer(log_transform)

In [117]:
col_transformer = ColumnTransformer([("Log transform", log_transformer, log),
                                ("Scale", StandardScaler(), ordinal),
                                ("One hot", OneHotEncoder(sparse=False, handle_unknown='ignore'),categorical)],
                                remainder="passthrough")
X_train_transformed = col_transformer.fit_transform(X_train)

In [118]:
X_test_transformed = col_transformer.transform(X_test)

In [119]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import catboost as ctb

from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

In [120]:
df_test = pd.merge(X_test, pd.DataFrame(y_test, columns=['real']), how = 'left', left_index=True, right_index=True)

### Простая линейная регрессия ###

In [121]:
linreg = LinearRegression().fit(X_train_transformed, y_train)
MAE_lr = round(mean_absolute_error(y_test, linreg.predict(X_test_transformed)), 3)
MAE_lr

250768661533.34

In [122]:
df_test['preds'] = linreg.predict(X_test_transformed)
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds
16769,7.0,2.0,13.0,ЗАО,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,9,1978.0,321428.57,291328.0
2532,37.0,10.0,7.0,ЗАО,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,1,1980.0,327027.03,369344.0
11934,169.0,25.0,9.0,ЦАО,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,5,2023.0,1202130.18,1035888.0
7643,42.0,10.0,1.0,ЦАО,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,2,2024.0,442837.14,469344.0
17832,21.0,5.0,15.0,ЮАО,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,9,2023.0,677945.52,487328.0


In [123]:
df_test['diff'] = df_test['real']-df_test['preds']

In [124]:
df_test.sort_values(by='diff')

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff
9886,89.00,12.00,6.00,ЦАО,Добрынинская,False,премиум,пешком,раздельный,Кирпичный,Вторичка,3,1940.00,421348.31,135498639299296.00,-135498638877947.69
17197,18.00,3.00,16.00,СВАО,Лось,False,комфорт,на транспорте,совмещенный,Монолитный,Вторичка Апартаменты,9,2019.00,272222.22,135498639079248.00,-135498638807025.78
9662,50.00,7.00,5.00,СВАО,Лось,False,эконом,на транспорте,раздельный,Панельный,Вторичка,3,1969.00,230000.00,135498639020992.00,-135498638790992.00
1910,43.00,10.00,16.00,ЮАО,Бирюлёво-Пассажирская,False,комфорт,пешком,раздельный,Монолитный,Вторичка,1,2013.00,259302.33,135498639015168.00,-135498638755865.67
3048,39.00,9.00,6.00,ЮЗАО,Битца,False,комфорт,на транспорте,раздельный,Монолитный,Вторичка,1,1991.00,266666.67,135498639021120.00,-135498638754453.33
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4571,234.00,60.00,7.00,ЦАО,Киевская,False,элитный,на транспорте,раздельный,Монолитный,Новостройка,2,2026.00,2390384.62,1485376.00,905008.62
9604,202.00,12.00,6.00,ЦАО,Парк Культуры,False,элитный,пешком,совмещенный,Кирпичный,Вторичка,3,2009.00,2289287.87,1197104.00,1092183.87
10444,120.00,12.00,1.00,ЦАО,Лубянка,False,элитный,пешком,совмещенный,No,Вторичка Апартаменты,3,-1.00,2337411.54,1063616.00,1273795.54
13558,302.00,10.00,6.00,ЦАО,Пушкинская,False,элитный,пешком,совмещенный,No,Вторичка,5,2006.00,2423663.58,1129664.00,1293999.58


### Ridge-регрессия ###

In [125]:
ridge = Ridge(alpha=1000).fit(X_train_transformed, y_train)
MAE_r = round(mean_absolute_error(y_test, ridge.predict(X_test_transformed)), 3)
MAE_r

74551.982

In [126]:
df_test['preds'] = ridge.predict(X_test_transformed)
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff
16769,7.0,2.0,13.0,ЗАО,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,9,1978.0,321428.57,286734.19,30100.57
2532,37.0,10.0,7.0,ЗАО,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,1,1980.0,327027.03,357154.77,-42316.97
11934,169.0,25.0,9.0,ЦАО,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,5,2023.0,1202130.18,934617.36,166242.18
7643,42.0,10.0,1.0,ЦАО,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,2,2024.0,442837.14,617498.37,-26506.86
17832,21.0,5.0,15.0,ЮАО,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,9,2023.0,677945.52,421235.6,190617.52


In [127]:
df_test['diff'] = df_test['real']-df_test['preds']
df_test.sort_values(by='diff')

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff
14116,388.00,30.00,9.00,ЦАО,Шаболовская,False,комфорт,пешком,совмещенный,Монолитный,Вторичка Пентхаус,5,2006.00,283247.42,622619.34,-339371.92
12084,225.00,33.00,7.00,ЦАО,Октябрьская,False,бизнес,пешком,совмещенный,Кирпичный,Вторичка,5,1900.00,311111.11,590363.45,-279252.34
14910,183.00,18.00,1.00,ЦАО,Бауманская,False,комфорт,пешком,совмещенный,No,Вторичка,5,1902.00,284153.01,561300.57,-277147.57
14385,260.00,20.00,10.00,ЦАО,Шелепиха,False,комфорт,пешком,раздельный,Монолитный,Вторичка,5,2003.00,288461.54,553871.62,-265410.08
13581,190.00,20.00,6.00,ЦАО,Чистые пруды,False,премиум,пешком,совмещенный,No,Вторичка,5,1917.00,421052.63,684764.75,-263712.11
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10444,120.00,12.00,1.00,ЦАО,Лубянка,False,элитный,пешком,совмещенный,No,Вторичка Апартаменты,3,-1.00,2337411.54,906592.50,1430819.04
10461,82.00,6.00,13.00,ЦАО,Киевская,False,элитный,пешком,совмещенный,Монолитный,Новостройка,3,2024.00,2344408.59,904838.72,1439569.86
4571,234.00,60.00,7.00,ЦАО,Киевская,False,элитный,на транспорте,раздельный,Монолитный,Новостройка,2,2026.00,2390384.62,934323.34,1456061.27
13558,302.00,10.00,6.00,ЦАО,Пушкинская,False,элитный,пешком,совмещенный,No,Вторичка,5,2006.00,2423663.58,931702.38,1491961.20


### Lasso регрессия ###

In [128]:
lasso_reg = Lasso(alpha = 2.65e-05).fit(X_train_transformed, y_train)
MAE_lasso = round(mean_absolute_error(y_test, lasso_reg.predict(X_test_transformed)), 3)
MAE_lasso

  model = cd_fast.enet_coordinate_descent(


51915.973

In [129]:
df_test['preds'] = lasso_reg.predict(X_test_transformed)
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff
16769,7.0,2.0,13.0,ЗАО,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,9,1978.0,321428.57,291278.97,34694.38
2532,37.0,10.0,7.0,ЗАО,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,1,1980.0,327027.03,369383.17,-30127.74
11934,169.0,25.0,9.0,ЦАО,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,5,2023.0,1202130.18,1035907.35,267512.82
7643,42.0,10.0,1.0,ЦАО,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,2,2024.0,442837.14,469250.62,-174661.23
17832,21.0,5.0,15.0,ЮАО,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,9,2023.0,677945.52,487316.89,256709.92


In [130]:
df_test['diff'] = df_test['real']-df_test['preds']
df_test.sort_values(by='diff')

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff
12215,210.00,20.00,7.00,ЦАО,Третьяковская,False,элитный,пешком,совмещенный,Монолитный,Вторичка,5,2000.00,952380.95,1723466.90,-771085.95
14907,103.00,13.00,10.00,ЦАО,Киевская,False,элитный,пешком,раздельный,Кирпичный,Вторичка,5,1963.00,718446.60,1417386.87,-698940.27
11676,186.00,17.00,5.00,ЦАО,Третьяковская,False,премиум,пешком,совмещенный,Кирпичный,Вторичка,5,1912.00,586005.38,1280389.54,-694384.16
13581,190.00,20.00,6.00,ЦАО,Чистые пруды,False,премиум,пешком,совмещенный,No,Вторичка,5,1917.00,421052.63,1095080.69,-674028.06
14299,164.00,18.00,6.00,ЗАО,Киевская,False,элитный,на транспорте,совмещенный,Монолитный,Вторичка,5,2011.00,701219.51,1310915.60,-609696.09
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4571,234.00,60.00,7.00,ЦАО,Киевская,False,элитный,на транспорте,раздельный,Монолитный,Новостройка,2,2026.00,2390384.62,1485262.05,905122.56
9604,202.00,12.00,6.00,ЦАО,Парк Культуры,False,элитный,пешком,совмещенный,Кирпичный,Вторичка,3,2009.00,2289287.87,1197168.65,1092119.23
10444,120.00,12.00,1.00,ЦАО,Лубянка,False,элитный,пешком,совмещенный,No,Вторичка Апартаменты,3,-1.00,2337411.54,1063650.84,1273760.70
13558,302.00,10.00,6.00,ЦАО,Пушкинская,False,элитный,пешком,совмещенный,No,Вторичка,5,2006.00,2423663.58,1129783.45,1293880.12


### Decision Tree ###

In [131]:
dt_reg = DecisionTreeRegressor(random_state = 0, max_depth=15).fit(X_train_transformed, y_train)
MAE_dt = round(mean_absolute_error(y_test, dt_reg.predict(X_test_transformed)), 3)
MAE_dt

36094.482

In [132]:
df_test['preds'] = dt_reg.predict(X_test_transformed)
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff
16769,7.0,2.0,13.0,ЗАО,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,9,1978.0,321428.57,292307.69,30149.6
2532,37.0,10.0,7.0,ЗАО,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,1,1980.0,327027.03,323145.86,-42356.14
11934,169.0,25.0,9.0,ЦАО,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,5,2023.0,1202130.18,1015570.37,166222.83
7643,42.0,10.0,1.0,ЦАО,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,2,2024.0,442837.14,415627.56,-26413.48
17832,21.0,5.0,15.0,ЮАО,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,9,2023.0,677945.52,474703.2,190628.63


In [133]:
df_test['diff'] = df_test['real']-df_test['preds']
df_test.sort_values(by='diff')

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff
14633,200.00,60.00,5.00,ЦАО,Пушкинская,False,элитный,пешком,совмещенный,Кирпичный,Вторичка,5,1908.00,1095000.00,2358713.19,-1263713.19
9060,150.00,15.00,10.00,ЦАО,Третьяковская,False,элитный,пешком,совмещенный,Монолитный,Вторичка Апартаменты,3,2019.00,1193333.33,2256064.86,-1062731.53
9899,188.00,12.00,12.00,ЦАО,Александровский сад,False,элитный,пешком,совмещенный,Монолитный,Новостройка,3,2023.00,1526937.70,2462114.79,-935177.09
11673,239.00,82.00,12.00,ЦАО,Спортивная,False,элитный,пешком,совмещенный,Монолитный,Новостройка Апартаменты,5,2024.00,1614965.25,2438888.89,-823923.64
11945,352.00,32.00,16.00,ЦАО,Улица 1905 года,False,элитный,пешком,совмещенный,No,Вторичка Пентхаус,5,2016.00,707386.36,1526191.91,-818805.55
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13844,202.00,18.00,8.00,ЦАО,Спортивная,False,элитный,пешком,совмещенный,Монолитный,Вторичка,5,2016.00,1980198.02,1091957.66,888240.36
10459,110.00,4.00,13.00,ЦАО,Киевская,False,элитный,пешком,совмещенный,Монолитный,Новостройка,3,2024.00,2329340.05,1391251.86,938088.18
10461,82.00,6.00,13.00,ЦАО,Киевская,False,элитный,пешком,совмещенный,Монолитный,Новостройка,3,2024.00,2344408.59,1391251.86,953156.72
9604,202.00,12.00,6.00,ЦАО,Парк Культуры,False,элитный,пешком,совмещенный,Кирпичный,Вторичка,3,2009.00,2289287.87,1145113.04,1144174.83


**Среди базовых моделей лучший результат без настройки гиперпараметров по метрике MAE показывают решающие деревья. Проведем настройку гиперпараметров по кросс-валидации**

In [134]:
from sklearn.model_selection import GridSearchCV

In [135]:
criterion = ['squared_error', 'absolute_error']
splitter = ['best', 'random']
max_depth = [5, 10, 20, 30, 40, 50]

In [136]:
grid = [{'criterion':criterion,
        'splitter':splitter,
        'max_depth':max_depth}]

gs = GridSearchCV(estimator=DecisionTreeRegressor(),
                  param_grid = grid,
                  scoring='neg_mean_absolute_error',
                  cv = 10,
                  n_jobs = -1)

In [137]:
gs = gs.fit(X_train_transformed, y_train)

In [138]:
-1*gs.best_score_

39487.278697835776

In [139]:
gs.best_params_

{'criterion': 'squared_error', 'max_depth': 40, 'splitter': 'random'}

In [140]:
gs.score(X_test_transformed, y_test)

-35255.01214479556

In [141]:
gs.best_estimator_

In [142]:
df_test['preds'] = gs.best_estimator_.predict(X_test_transformed)
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff
16769,7.0,2.0,13.0,ЗАО,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,9,1978.0,321428.57,292307.69,29120.88
2532,37.0,10.0,7.0,ЗАО,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,1,1980.0,327027.03,303333.33,3881.17
11934,169.0,25.0,9.0,ЦАО,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,5,2023.0,1202130.18,1103905.33,186559.81
7643,42.0,10.0,1.0,ЦАО,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,2,2024.0,442837.14,415627.56,27209.58
17832,21.0,5.0,15.0,ЮАО,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,9,2023.0,677945.52,503532.0,203242.32


In [143]:
df_test['diff'] = df_test['real']-df_test['preds']
df_test.sort_values(by='diff')

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff
13013,300.00,18.00,4.00,ЦАО,Театральная,False,элитный,пешком,совмещенный,Монолитный,Вторичка Пентхаус,5,2016.00,1275000.00,2841545.51,-1566545.51
11669,208.00,9.00,12.00,ЦАО,Спортивная,False,элитный,пешком,совмещенный,Монолитный,Новостройка Апартаменты,5,2024.00,1719338.83,3137488.49,-1418149.66
919,115.00,8.00,3.00,ЦАО,Третьяковская,False,элитный,пешком,совмещенный,Монолитный,Новостройка,1,2024.00,2204017.39,3000944.88,-796927.49
12750,204.00,18.00,5.00,ЦАО,Полянка,False,элитный,пешком,совмещенный,Кирпичный,Вторичка,5,2005.00,735294.12,1421058.59,-685764.47
13849,177.00,18.00,5.00,ЦАО,Арбатская,False,элитный,пешком,совмещенный,No,Вторичка,5,1914.00,1124293.79,1800000.00,-675706.21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13032,197.00,18.00,6.00,ЦАО,Парк Культуры,False,элитный,пешком,совмещенный,Монолитный,Вторичка,5,2010.00,1664514.06,716167.40,948346.66
4567,85.00,28.00,5.00,ЦАО,Полянка,False,элитный,пешком,совмещенный,Монолитный,Новостройка,2,2024.00,1900705.88,898305.08,1002400.80
13558,302.00,10.00,6.00,ЦАО,Пушкинская,False,элитный,пешком,совмещенный,No,Вторичка,5,2006.00,2423663.58,968750.00,1454913.58
10444,120.00,12.00,1.00,ЦАО,Лубянка,False,элитный,пешком,совмещенный,No,Вторичка Апартаменты,3,-1.00,2337411.54,825000.00,1512411.54


In [144]:
df_test['price_real'] = df_test['total_meters'] * df_test['real']
df_test['price_predicted'] = df_test['total_meters'] * df_test['preds']
df_test['diff'] = df_test['price_real'] - df_test['price_predicted']

In [145]:
df_test

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff,price_real,price_predicted
16769,7.00,2.00,13.00,ЗАО,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,9,1978.00,321428.57,292307.69,203846.15,2250000.00,2046153.85
2532,37.00,10.00,7.00,ЗАО,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,1,1980.00,327027.03,303333.33,876666.67,12100000.00,11223333.33
11934,169.00,25.00,9.00,ЦАО,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,5,2023.00,1202130.18,1103905.33,16600000.00,203160000.00,186560000.00
7643,42.00,10.00,1.00,ЦАО,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,2,2024.00,442837.14,415627.56,1142802.44,18599160.00,17456357.56
17832,21.00,5.00,15.00,ЮАО,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,9,2023.00,677945.52,503532.00,3662684.00,14236856.00,10574172.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17326,24.00,2.00,19.00,ЗАО,Строгино,False,бизнес,пешком,совмещенный,Монолитный,Новостройка Апартаменты,9,2023.00,337585.00,348208.57,-254965.71,8102040.00,8357005.71
2939,24.00,10.00,11.00,СВАО,Алексеевская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,1,2024.00,528937.50,421052.63,2589236.84,12694500.00,10105263.16
12999,94.00,22.00,20.00,НАО (Новомосковский),Коммунарка,False,эконом,пешком,совмещенный,Панельный,Вторичка,5,2021.00,196808.51,196808.51,-0.00,18500000.00,18500000.00
6745,58.00,21.00,4.00,СЗАО,Пятницкое шоссе,False,эконом,на транспорте,совмещенный,Монолитный,Новостройка,2,2025.00,213516.19,214177.47,-38354.00,12383939.00,12422293.00


### CatBoost ###

In [146]:
X_train_ctb = X_train.copy()
X_test_ctb = X_test.copy()

In [147]:
X_train_ctb.dtypes

total_meters            float64
kitchen_meters          float64
dist_to_subway, min     float64
admin_okrug              object
subway                   object
is_skyscraper              bool
class_real               object
way_to_subway            object
wc_type                  object
house_type               object
flat_type                object
rooms                     int64
year_of_construction    float64
dtype: object

In [148]:
X_test_ctb.dtypes

total_meters            float64
kitchen_meters          float64
dist_to_subway, min     float64
admin_okrug              object
subway                   object
is_skyscraper              bool
class_real               object
way_to_subway            object
wc_type                  object
house_type               object
flat_type                object
rooms                     int64
year_of_construction    float64
dtype: object

In [154]:
X_train_ctb.is_skyscraper = X_train_ctb.is_skyscraper.astype(str)
X_test_ctb.is_skyscraper = X_test_ctb.is_skyscraper.astype(str)

In [155]:
X_train_ctb.dtypes == 'O'

total_meters            False
kitchen_meters          False
dist_to_subway, min     False
admin_okrug              True
subway                   True
is_skyscraper            True
class_real               True
way_to_subway            True
wc_type                  True
house_type               True
flat_type                True
rooms                   False
year_of_construction    False
dtype: bool

In [156]:
ctbst = ctb.CatBoostRegressor(cat_features = list(X_train_ctb.columns[X_train_ctb.dtypes == 'O']),
                                 random_state = 42)
ctbst.fit(X_train_ctb, y_train, verbose = False)

<catboost.core.CatBoostRegressor at 0x1503554b0>

In [159]:
ctbst_preds = ctbst.predict(X_test_ctb)

In [161]:
df_test['preds'] = ctbst_preds
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff,price_real,price_predicted
16769,7.0,2.0,13.0,ЗАО,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,9,1978.0,321428.57,335639.6,203846.15,2250000.0,2046153.85
2532,37.0,10.0,7.0,ЗАО,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,1,1980.0,327027.03,347377.1,876666.67,12100000.0,11223333.33
11934,169.0,25.0,9.0,ЦАО,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,5,2023.0,1202130.18,1105073.79,16600000.0,203160000.0,186560000.0
7643,42.0,10.0,1.0,ЦАО,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,2,2024.0,442837.14,454542.1,1142802.44,18599160.0,17456357.56
17832,21.0,5.0,15.0,ЮАО,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,9,2023.0,677945.52,485591.19,3662684.0,14236856.0,10574172.0


In [162]:
MAE_ctbst = round(mean_absolute_error(y_test, ctbst_preds), 3)
MAE_ctbst

38221.444

In [163]:
ctbst2 = ctb.CatBoostRegressor(iterations = 1000, 
                             depth = 15, 
                             learning_rate = 0.04746000096201897,
                             random_strength = 1,
                             border_count = 254,
                             l2_leaf_reg = 3, 
                             grow_policy = 'SymmetricTree',
                             cat_features = list(X_train_ctb.columns[X_train_ctb.dtypes == 'O']),
                             random_state = 42)
ctbst2.fit(X_train_ctb, y_train, verbose = False)

<catboost.core.CatBoostRegressor at 0x150362800>

In [164]:
ctbst2_preds = ctbst2.predict(X_test_ctb)
MAE_ctbst2 = round(mean_absolute_error(y_test, ctbst2_preds), 3)
MAE_ctbst2

31705.333

In [166]:
df_test['preds'] = ctbst2_preds
df_test.head()

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction,real,preds,diff,price_real,price_predicted
16769,7.0,2.0,13.0,ЗАО,Солнцево,False,бизнес,пешком,совмещенный,Блочный,Вторичка Апартаменты,9,1978.0,321428.57,339364.83,203846.15,2250000.0,2046153.85
2532,37.0,10.0,7.0,ЗАО,Раменки,False,бизнес,пешком,совмещенный,Блочный,Вторичка,1,1980.0,327027.03,355752.71,876666.67,12100000.0,11223333.33
11934,169.0,25.0,9.0,ЦАО,Выставочная,True,элитный,пешком,совмещенный,Монолитный,Новостройка,5,2023.0,1202130.18,1102728.17,16600000.0,203160000.0,186560000.0
7643,42.0,10.0,1.0,ЦАО,Электрозаводская,False,премиум,пешком,совмещенный,Монолитный,Новостройка,2,2024.0,442837.14,432314.43,1142802.44,18599160.0,17456357.56
17832,21.0,5.0,15.0,ЮАО,ЗИЛ,False,премиум,пешком,совмещенный,Монолитный,Новостройка,9,2023.0,677945.52,549156.31,3662684.0,14236856.0,10574172.0


### RandomForest Regressor ###

In [167]:
rf = RandomForestRegressor(criterion='squared_error', n_estimators = 300)

In [168]:
rf.fit(X_train_transformed, y_train)

In [169]:
rf_preds = rf.predict(X_test_transformed)
MAE_rf = round(mean_absolute_error(y_test, rf_preds), 3)
MAE_rf

29476.033

In [171]:
import pickle
with open("rf_reg.pkl", "wb") as f:
    pickle.dump(rf, f)

In [172]:
with open("rf_reg.pkl", "rb") as f:
    model = pickle.load(f)

In [181]:
sample_test = {
    'total_meters':[58.2],
    'kitchen_meters':[21.0],
    'dist_to_subway, min':[15.0],
    'admin_okrug':['СВАО'],
    'subway':['Ботанический сад'],
    'is_skyscraper': ['False'],
    'class_real':['комфорт'],
    'way_to_subway':['пешком'],
    'wc_type':['совмещенный'],
    'house_type':['Монолитный'],
    'flat_type':['Вторичка'],
    'rooms': [2],
    'year_of_construction':[2021]
    
}

In [182]:
sample_df = pd.DataFrame.from_dict(sample_test)
sample_df

Unnamed: 0,total_meters,kitchen_meters,"dist_to_subway, min",admin_okrug,subway,is_skyscraper,class_real,way_to_subway,wc_type,house_type,flat_type,rooms,year_of_construction
0,58.2,21.0,15.0,СВАО,Ботанический сад,False,комфорт,пешком,совмещенный,Монолитный,Вторичка,2,2021


In [183]:
sample_df_transformed = col_transformer.transform(sample_df)

In [187]:
model.predict(sample_df_transformed)[0] * 58.2

15176652.90611582

In [203]:
# ### Гиперпараметры леса
# choices = pd.DataFrame(index = range(0, 1000, 1), columns = ['n_estimators',
#                                                             'max_depth',
#                                                             'min_samples_split',
#                                                             'min_samples_leaf',
#                                                             'max_features',
#                                                             'max_leaf_nodes',
#                                                             'bootstrap',
#                                                             'max_samples',
#                                                             'threshold'])
# # 'special' for None
# choices['n_estimators'] = np.random.RandomState(42).choice([100, 300, 500, 700, 1000]*200, 1000, replace = False)
# choices['max_depth'] = np.random.RandomState(43).choice([2, 4, 6, 8, 10]*200, 1000, replace = False)
# choices['min_samples_split'] = np.random.RandomState(44).choice([2, 5, 10, 20, 40]*200, 1000, replace = False)
# choices['min_samples_leaf'] = np.random.RandomState(45).choice([1, 2, 5, 10, 20]*200, 1000, replace = False)
# choices['max_features'] = np.random.RandomState(46).choice([0.7, 'log2', 'sqrt', 'auto']*250, 1000, replace = False)
# choices['max_leaf_nodes'] = np.random.RandomState(47).choice([5, 10, 20, 'special']*250, 1000, replace = False)
# choices['bootstrap'] = np.random.RandomState(48).choice([True]*800 + [False]*200, 1000, replace = False)
# choices['max_samples'] = np.random.RandomState(49).choice([0.5, 0.7, 0.9, 'special']*250, 1000, replace = False)
# choices['threshold'] = np.random.RandomState(50).choice([0.05, 0.01, 0.005, 0.001]*250, 1000, replace = False)

# choices.loc[~choices.max_features.str.contains('log2|sqrt|auto'), 'max_features'] = \
# choices.loc[~choices.max_features.str.contains('log2|sqrt|auto'), 'max_features'].astype(np.float64)
# choices.loc[choices.max_leaf_nodes != 'special', 'max_leaf_nodes'] = \
# choices.loc[choices.max_leaf_nodes != 'special', 'max_leaf_nodes'].astype(np.int64)
# choices.loc[choices.max_samples != 'special', 'max_samples'] = \
# choices.loc[choices.max_samples != 'special', 'max_samples'].astype(np.float64)

# ### Гиперпараметры бустинга
# choices_bstr = pd.DataFrame(index = range(0, 500, 1), columns = ['iterations', 
#                                                                  'depth',  
#                                                                  'learning_rate', 
#                                                                  'random_strength',  
#                                                                  'bagging_temperature', 
#                                                                  'border_count',  
#                                                                  'l2_leaf_reg',  
#                                                                  'grow_policy',  
#                                                                  'threshold'])
# choices_bstr['iterations'] = np.random.RandomState(42).choice([250, 500, 1000, 1500]*125, 500, replace = False)
# choices_bstr['depth'] = np.random.RandomState(43).choice([2, 4, 6, 8]*125, 500, replace = False)
# choices_bstr['learning_rate'] = np.random.RandomState(44).choice([0.001, 0.01, 0.1, 0.2, 0.3]*100, 500, replace = False)
# choices_bstr['random_strength'] = np.random.RandomState(45).choice([0, 0.3, 0.6, 1]*125, 500, replace = False)
# choices_bstr['bagging_temperature'] = np.random.RandomState(46).choice([0, 0.7, 0.9, 1]*125, 500, replace = False)
# choices_bstr['border_count'] = np.random.RandomState(47).choice([60, 128, 200, 254]*125, 500, replace = False)
# choices_bstr['l2_leaf_reg'] = np.random.RandomState(48).choice([1, 3, 5, 10]*125, 500, replace = False)
# choices_bstr['grow_policy'] = np.random.RandomState(49).choice(['SymmetricTree', 'Depthwise']*250, 500, replace = False)
# choices_bstr['threshold'] = np.random.RandomState(50).choice([0.01, 0.005, 0.001, 0.0005]*125, 500, replace = False)

**Можно сказать, что наибольшей важностью для правильности предсказания уровня арендной платы являются:**
- площадь квартиры
- административный район Москвы (расположение в ЦАО существеннее всего влияет на арендную плату)
- этаж и количество этажей в доме
- наличие посудомоечной машины