In [22]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn import metrics

In [23]:
data = pd.read_csv('../parsing/realestate_data.csv', sep=';',
                   encoding='utf-8',
                   index_col=False,
                   header=None,
                   names=["Цена,руб", "Руб\м2","Полный адрес","Кол-во комнат","Округ",
                          "Район","Улица дом","Станция метро","Время до метро","Первичка/вторичка","Жилое/нежилое",
                          "Площадь","Жилая площадь","Площадь кухни","Планировка","Этаж","Площадь комнат","Высота потолков",
                          "Санузел","Кол-во балконов","Вид из окон","Ремонт","Обременения","Налог","Собственников","Год постройки",
                          "Материал стен","Материал пола","Газопровод","Кол-во лифтов","Мусоропровод","Аварийность",
                          "Отопление","Кол-во подъездов","Серия строительства"])

data = data.drop_duplicates(keep='first')
data = data.replace(['None'], [np.nan]).fillna(0)

del data['Кол-во лифтов']
del data['Аварийность']
del data['Площадь комнат']
del data['Газопровод']
del data['Улица дом']
del data['Кол-во подъездов']
del data['Налог']

### Подготовка данных

In [24]:
def count_metro_time(s):
    if s != 0:
        s_ = s.split(' мин.')
        time = int(s_[0])
        try:
            if 'пешком' in s_[1]:
                return time
            elif 'транспорт' in s_[1]:
                return 4*time
        except:
            return time
    else:
        return 0
    
def sale_type(s):
    if 'Вторичка' in s:
        return 'Вторичка'
    else:
        return s
    
def room_val(s):
    if 'Многокомнат' in s:
        return 'Многокомнатная'
    elif 'тудия' in s:
        return 'Студия'
    elif '1-' in s:
        return '1-комнатная'
    elif '2-' in s:
        return '2-комнатная'
    elif '3-' in s:
        return '3-комнатная'
    elif '4-' in s:
        return '4-комнатная'
    elif '5-' in s:
        return '5-комнатная'
    
def count_balcs(s):
    if s != 0:
        s_ = [int(i) for i in s if i.isdigit()]
        return sum(s_)
    else:
        return 0

def fix_problems(s):
    if s!= 0:
        if 'Ипотека' in s:
            return 'Ипотека'
        elif 'Запрет на регистрацию' in s:
            return 'Запрет на регистрацию'
        elif 'Доверительное управление' in s:
            return 'Доверительное управление'
        elif 'Арест' in s:
            return 'Арест'
        else:
            return s
    else:
        return 'Нет'
    
def fix_tax(s):
    if s != 0:
        try:
            s = s.replace(',','.')
            if 'Запретна' in s:
                return '0'
            elif '-' in s:
                return float(s.split('-')[0])
            else:
                return float(s)
        except:
            return 0
    else:
        return float(s)

data['Цена,руб'] = data['Цена,руб'].astype(int)
data['Руб\м2'] = data['Руб\м2'].astype(int)
data['Полный адрес'] = data['Полный адрес'].astype(str)
data['Округ'] = data['Округ'].astype(str)
data['Район'] = data['Район'].astype(str)
data['Станция метро'] = data['Станция метро'].apply(lambda x: x if x != 0 else 'Нет').astype(str)
data['Время до метро'] = data['Время до метро'].apply(count_metro_time).astype(int)
data['Первичка/вторичка'] = data['Первичка/вторичка'].apply(sale_type).astype(str)
data['Жилое/нежилое'] = pd.Series(['Нежилое' if ('парт' in data['Кол-во комнат'][i]) else 'Жилое' for i in data['Жилое/нежилое'].index], index=data['Жилое/нежилое'].index)
data['Площадь'] = data['Площадь'].replace(',','.', regex=True).astype(float)
data['Жилая площадь'] = data['Жилая площадь'].replace(',','.', regex=True).astype(float)
data['Площадь кухни'] = data['Площадь кухни'].replace(',','.', regex=True).astype(float)
data['Планировка'] = data['Планировка'].apply(lambda x: x if x != 0 else 'Неизвестно').astype(str)
data['Высота потолков'] = data['Высота потолков'].replace(',','.', regex=True).apply(lambda x: x.split()[0] if x != 0 else x).astype(float)
data['Санузел'] = data['Санузел'].replace(0,1, regex=True).astype(int)
data['Кол-во балконов'] = data['Кол-во балконов'].apply(count_balcs).astype(int)
data['Вид из окон'] = data['Вид из окон'].apply(lambda x: x if x != 0 else 'Неизвестно').astype(str)
data['Ремонт'] = data['Ремонт'].apply(lambda x: x if x != 0 else 'Неизвестно').astype(str)
data['Обременения'] = data['Обременения'].apply(fix_problems).astype(str)
data['Налог'] = data['Налог'].apply(fix_tax).astype(float)
data['Собственников'] = data['Собственников'].replace('Несколько','2', regex=True).astype(int)
data['Год постройки'] = data['Год постройки'].astype(int)
data['Материал стен'] = data['Материал стен'].apply(lambda x: x if x != 0 else 'Неизвестно').astype(str)
data['Материал пола'] = data['Материал пола'].apply(lambda x: x if x != 0 else 'Неизвестно').astype(str)
data['Мусоропровод'] = data['Мусоропровод'].apply(lambda x: x if x != 0 else 'Неизвестно').astype(str)
data['Отопление'] = data['Отопление'].apply(lambda x: x if x != 0 else 'Неизвестно').astype(str)
data['Кол-во подъездов'] = data['Кол-во подъездов'].astype(int)
data['Серия строительства'] = data['Серия строительства'].apply(lambda x: x if x != 0 else 'Неизвестно').astype(str)
data['Этажность дома'] = data['Этаж'].apply(lambda x: x.split()[2] if x != 0 else x).astype(int)
data['Этаж'] = data['Этаж'].apply(lambda x: x.split()[0]).astype(int)
data['Кол-во комнат'] = data['Кол-во комнат'].apply(room_val).astype(str)

In [25]:
pd.options.display.max_rows = 5
pd.options.display.max_columns = None
data

Unnamed: 0,"Цена,руб",Руб\м2,Полный адрес,Кол-во комнат,Округ,Район,Станция метро,Время до метро,Первичка/вторичка,Жилое/нежилое,Площадь,Жилая площадь,Площадь кухни,Планировка,Этаж,Высота потолков,Санузел,Кол-во балконов,Вид из окон,Ремонт,Обременения,Налог,Собственников,Год постройки,Материал стен,Материал пола,Мусоропровод,Отопление,Кол-во подъездов,Серия строительства,Этажность дома
0,32000000,84881,"Москва, ВАО, р-н Соколиная гора, 1-й Кирпичный...",Многокомнатная,ВАО,р-н Соколиная гора,Соколиная гора,10,Вторичка,Нежилое,377.0,228.0,32.0,Неизвестно,1,4.06,1,0,На улицу и двор,Косметический,Нет,0.00,0,1957,Кирпичный,Железобетонные,Неизвестно,Центральное,3,Неизвестно,5
1,23500000,241770,"Москва, ВАО, р-н Соколиная гора, 1-й Кирпичный...",4-комнатная,ВАО,р-н Соколиная гора,Соколиная гора,14,Вторичка,Жилое,97.0,70.7,8.0,Изолированная,4,3.00,1,2,На улицу и двор,Косметический,Нет,0.00,0,1957,Кирпичный,Железобетонные,Неизвестно,Центральное,3,Неизвестно,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9596,18470000,195864,"Москва, ЮЗАО, р-н Южное Бутово, Южнобутовская ...",4-комнатная,ЮЗАО,р-н Южное Бутово,Бульвар Адмирала Ушакова,4,Вторичка,Жилое,94.0,62.4,10.1,Изолированная,5,1.70,1,3,На улицу и двор,Косметический,Нет,11766.81,1,1995,Панельный,Железобетонные,Нет,Центральное,5,Неизвестно,10
9597,19500000,207226,"Москва, ЮЗАО, р-н Южное Бутово, Южнобутовская ...",4-комнатная,ЮЗАО,р-н Южное Бутово,Улица Горчакова,7,Вторичка,Жилое,94.0,61.8,10.1,Изолированная,3,0.00,1,2,Неизвестно,Косметический,Нет,11550.71,4,1999,Монолитный,Железобетонные,Есть,Центральное,5,П-3,9


In [50]:
pd.options.display.max_rows = None
sorted(dict(data['Серия строительства'].value_counts()).keys())

['1-447',
 '1-464',
 '1-510',
 '1-511',
 '1-515',
 '1-515/9М',
 '1-515/9ЮЛ',
 '124-124-1',
 '1605-А',
 '1605-АМ',
 '1МГ-601',
 'II-05',
 'II-07',
 'II-08',
 'II-14',
 'II-17',
 'II-18',
 'II-18-01/12',
 'II-18-02/12',
 'II-18-31/12',
 'II-18-31/12А',
 'II-29',
 'II-29-41/37',
 'II-32',
 'II-49',
 'II-49Д',
 'II-57',
 'II-68-01',
 'ii-68',
 'Башня Вулыха',
 'ГМС-1',
 'И-155',
 'И-155МК',
 'И-1782/1',
 'И-209',
 'И-209А',
 'И-522А',
 'И-580',
 'И-700',
 'И-700А',
 'ИП-46С',
 'Индивидуальный проект',
 'К-7',
 'КОПЭ',
 'КОПЭ Парус',
 'МЭС-84',
 'Неизвестно',
 'П-111М',
 'П-22',
 'П-3',
 'П-30',
 'П-31',
 'П-3М',
 'П-42',
 'П-43',
 'П-44',
 'П-44К',
 'П-44М',
 'П-44Т',
 'П-44ТМ',
 'П-46',
 'П-46М',
 'П-47',
 'П-55',
 'П-55М',
 'ПД-4']

In [5]:
def feature_encoding(data, features):
    le = LabelEncoder()
    for feature in features:
        le.fit(data[feature])
        data[feature] = le.transform(data[feature])
    return data

### LinearRegression

In [6]:
from sklearn.linear_model import LinearRegression

data_temp = data.copy(deep=True)

del data_temp['Руб\м2']
del data_temp['Полный адрес']

data_temp = data_temp.select_dtypes(include=['int','float'])
data_temp = data_temp[['Цена,руб','Время до метро','Площадь']]
data_temp

Unnamed: 0,"Цена,руб",Время до метро,Площадь
0,32000000,10,377.0
1,23500000,14,97.0
...,...,...,...
9596,18470000,4,94.0
9597,19500000,7,94.0


In [7]:
X = data_temp.loc[:, 'Время до метро':'Площадь']
y = data_temp['Цена,руб']

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=1) 

model = LinearRegression()
model = model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print('R^2 score on training set: {:.3f}'.format(model.score(X_train,y_train)))
print('R^2 score on test set: {:.3f}'.format(model.score(X_test,y_test)))

R^2 score on training set: 0.272
R^2 score on test set: 0.576


### DecisionTreeRegressor

In [8]:
from sklearn.tree import DecisionTreeRegressor

data_temp = data.copy(deep=True)

del data_temp['Руб\м2']
del data_temp['Полный адрес']

features = data_temp.select_dtypes(include=['object']).columns.tolist()

data_encoded = feature_encoding(data_temp, features)
data_encoded

Unnamed: 0,"Цена,руб",Кол-во комнат,Округ,Район,Станция метро,Время до метро,Первичка/вторичка,Жилое/нежилое,Площадь,Жилая площадь,Площадь кухни,Планировка,Этаж,Высота потолков,Санузел,Кол-во балконов,Вид из окон,Ремонт,Обременения,Налог,Собственников,Год постройки,Материал стен,Материал пола,Мусоропровод,Отопление,Кол-во подъездов,Серия строительства,Этажность дома
0,32000000,5,0,116,219,10,0,1,377.0,228.0,32.0,1,1,4.06,1,0,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
1,23500000,3,0,116,219,14,0,0,97.0,70.7,8.0,0,4,3.00,1,2,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9596,18470000,3,11,139,31,4,0,0,94.0,62.4,10.1,0,5,1.70,1,3,2,3,4,11766.81,1,1995,5,1,2,5,5,46,10
9597,19500000,3,11,139,252,7,0,0,94.0,61.8,10.1,0,3,0.00,1,2,3,3,4,11550.71,4,1999,3,1,0,5,5,49,9


In [9]:
X = data_encoded.loc[:, 'Кол-во комнат':'Этажность дома']
y = data_encoded['Цена,руб']

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=1) 

model = DecisionTreeRegressor(max_depth=6) 
model = model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print('R^2 score on training set: {:.3f}'.format(model.score(X_train,y_train)))
print('R^2 score on test set: {:.3f}'.format(model.score(X_test,y_test)))

R^2 score on training set: 0.861
R^2 score on test set: 0.724


### RandomForestRegressor

In [10]:
from sklearn.ensemble import RandomForestRegressor

data_temp = data.copy(deep=True)

del data_temp['Руб\м2']
del data_temp['Полный адрес']

features = data_temp.select_dtypes(include=['object']).columns.tolist()

data_encoded = feature_encoding(data_temp, features)
data_encoded

Unnamed: 0,"Цена,руб",Кол-во комнат,Округ,Район,Станция метро,Время до метро,Первичка/вторичка,Жилое/нежилое,Площадь,Жилая площадь,Площадь кухни,Планировка,Этаж,Высота потолков,Санузел,Кол-во балконов,Вид из окон,Ремонт,Обременения,Налог,Собственников,Год постройки,Материал стен,Материал пола,Мусоропровод,Отопление,Кол-во подъездов,Серия строительства,Этажность дома
0,32000000,5,0,116,219,10,0,1,377.0,228.0,32.0,1,1,4.06,1,0,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
1,23500000,3,0,116,219,14,0,0,97.0,70.7,8.0,0,4,3.00,1,2,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9596,18470000,3,11,139,31,4,0,0,94.0,62.4,10.1,0,5,1.70,1,3,2,3,4,11766.81,1,1995,5,1,2,5,5,46,10
9597,19500000,3,11,139,252,7,0,0,94.0,61.8,10.1,0,3,0.00,1,2,3,3,4,11550.71,4,1999,3,1,0,5,5,49,9


In [11]:
X = data_encoded.loc[:, 'Кол-во комнат':'Этажность дома']
y = data_encoded['Цена,руб']

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=1) 

model = RandomForestRegressor(max_depth=12) 
model = model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print('R^2 score on training set: {:.3f}'.format(model.score(X_train,y_train)))
print('R^2 score on test set: {:.3f}'.format(model.score(X_test,y_test)))

R^2 score on training set: 0.942
R^2 score on test set: 0.848


### GradientBoostingRegressor

In [12]:
from sklearn.ensemble import GradientBoostingRegressor

data_temp = data.copy(deep=True)

del data_temp['Руб\м2']
del data_temp['Полный адрес']

features = data_temp.select_dtypes(include=['object']).columns.tolist()

data_encoded = feature_encoding(data_temp, features)
data_encoded

Unnamed: 0,"Цена,руб",Кол-во комнат,Округ,Район,Станция метро,Время до метро,Первичка/вторичка,Жилое/нежилое,Площадь,Жилая площадь,Площадь кухни,Планировка,Этаж,Высота потолков,Санузел,Кол-во балконов,Вид из окон,Ремонт,Обременения,Налог,Собственников,Год постройки,Материал стен,Материал пола,Мусоропровод,Отопление,Кол-во подъездов,Серия строительства,Этажность дома
0,32000000,5,0,116,219,10,0,1,377.0,228.0,32.0,1,1,4.06,1,0,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
1,23500000,3,0,116,219,14,0,0,97.0,70.7,8.0,0,4,3.00,1,2,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9596,18470000,3,11,139,31,4,0,0,94.0,62.4,10.1,0,5,1.70,1,3,2,3,4,11766.81,1,1995,5,1,2,5,5,46,10
9597,19500000,3,11,139,252,7,0,0,94.0,61.8,10.1,0,3,0.00,1,2,3,3,4,11550.71,4,1999,3,1,0,5,5,49,9


In [13]:
X = data_encoded.loc[:, 'Кол-во комнат':'Этажность дома']
y = data_encoded['Цена,руб']

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=1) 

model = GradientBoostingRegressor() 
model = model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print('R^2 score on training set: {:.3f}'.format(model.score(X_train,y_train)))
print('R^2 score on test set: {:.3f}'.format(model.score(X_test,y_test)))

R^2 score on training set: 0.931
R^2 score on test set: 0.819


### Neural Network Regressor

In [14]:
from sklearn.neural_network import MLPRegressor

data_temp = data.copy(deep=True)

del data_temp['Руб\м2']
del data_temp['Полный адрес']

features = data_temp.select_dtypes(include=['object']).columns.tolist()

data_encoded = feature_encoding(data_temp, features)
data_encoded

Unnamed: 0,"Цена,руб",Кол-во комнат,Округ,Район,Станция метро,Время до метро,Первичка/вторичка,Жилое/нежилое,Площадь,Жилая площадь,Площадь кухни,Планировка,Этаж,Высота потолков,Санузел,Кол-во балконов,Вид из окон,Ремонт,Обременения,Налог,Собственников,Год постройки,Материал стен,Материал пола,Мусоропровод,Отопление,Кол-во подъездов,Серия строительства,Этажность дома
0,32000000,5,0,116,219,10,0,1,377.0,228.0,32.0,1,1,4.06,1,0,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
1,23500000,3,0,116,219,14,0,0,97.0,70.7,8.0,0,4,3.00,1,2,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9596,18470000,3,11,139,31,4,0,0,94.0,62.4,10.1,0,5,1.70,1,3,2,3,4,11766.81,1,1995,5,1,2,5,5,46,10
9597,19500000,3,11,139,252,7,0,0,94.0,61.8,10.1,0,3,0.00,1,2,3,3,4,11550.71,4,1999,3,1,0,5,5,49,9


In [21]:
X = data_temp.loc[:, 'Кол-во комнат':'Этажность дома']
y = data_temp['Цена,руб']

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=1) 

model = MLPRegressor(random_state=123, max_iter=5000,hidden_layer_sizes=200)
model = model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print('R^2 score on training set: {:.3f}'.format(model.score(X_train,y_train)))
print('R^2 score on test set: {:.3f}'.format(model.score(X_test,y_test)))

R^2 score on training set: 0.315
R^2 score on test set: 0.575




### XGBoost

In [16]:
import xgboost
from xgboost import XGBRegressor

data_temp = data.copy(deep=True)

del data_temp['Руб\м2']
del data_temp['Полный адрес']

features = data_temp.select_dtypes(include=['object']).columns.tolist()

data_encoded = feature_encoding(data_temp, features)
data_encoded

Unnamed: 0,"Цена,руб",Кол-во комнат,Округ,Район,Станция метро,Время до метро,Первичка/вторичка,Жилое/нежилое,Площадь,Жилая площадь,Площадь кухни,Планировка,Этаж,Высота потолков,Санузел,Кол-во балконов,Вид из окон,Ремонт,Обременения,Налог,Собственников,Год постройки,Материал стен,Материал пола,Мусоропровод,Отопление,Кол-во подъездов,Серия строительства,Этажность дома
0,32000000,5,0,116,219,10,0,1,377.0,228.0,32.0,1,1,4.06,1,0,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
1,23500000,3,0,116,219,14,0,0,97.0,70.7,8.0,0,4,3.00,1,2,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9596,18470000,3,11,139,31,4,0,0,94.0,62.4,10.1,0,5,1.70,1,3,2,3,4,11766.81,1,1995,5,1,2,5,5,46,10
9597,19500000,3,11,139,252,7,0,0,94.0,61.8,10.1,0,3,0.00,1,2,3,3,4,11550.71,4,1999,3,1,0,5,5,49,9


In [17]:
X = data_temp.loc[:, 'Кол-во комнат':'Этажность дома']
y = data_temp['Цена,руб']

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=1) 

model = XGBRegressor()
model = model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print('R^2 score on training set: {:.3f}'.format(model.score(X_train,y_train)))
print('R^2 score on test set: {:.3f}'.format(model.score(X_test,y_test)))

R^2 score on training set: 0.999
R^2 score on test set: 0.868


### CatBoost

In [18]:
import catboost as cb
from catboost import CatBoostRegressor

data_temp = data.copy(deep=True)

del data_temp['Руб\м2']
del data_temp['Полный адрес']

features = data_temp.select_dtypes(include=['object']).columns.tolist()

data_encoded = feature_encoding(data_temp, features)
data_encoded

Unnamed: 0,"Цена,руб",Кол-во комнат,Округ,Район,Станция метро,Время до метро,Первичка/вторичка,Жилое/нежилое,Площадь,Жилая площадь,Площадь кухни,Планировка,Этаж,Высота потолков,Санузел,Кол-во балконов,Вид из окон,Ремонт,Обременения,Налог,Собственников,Год постройки,Материал стен,Материал пола,Мусоропровод,Отопление,Кол-во подъездов,Серия строительства,Этажность дома
0,32000000,5,0,116,219,10,0,1,377.0,228.0,32.0,1,1,4.06,1,0,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
1,23500000,3,0,116,219,14,0,0,97.0,70.7,8.0,0,4,3.00,1,2,2,3,4,0.00,0,1957,1,1,1,5,3,46,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9596,18470000,3,11,139,31,4,0,0,94.0,62.4,10.1,0,5,1.70,1,3,2,3,4,11766.81,1,1995,5,1,2,5,5,46,10
9597,19500000,3,11,139,252,7,0,0,94.0,61.8,10.1,0,3,0.00,1,2,3,3,4,11550.71,4,1999,3,1,0,5,5,49,9


In [19]:
X = data_temp.loc[:, 'Кол-во комнат':'Этажность дома']
y = data_temp['Цена,руб']

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=1) 

model = CatBoostRegressor()
model = model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print('R^2 score on training set: {:.3f}'.format(model.score(X_train,y_train)))
print('R^2 score on test set: {:.3f}'.format(model.score(X_test,y_test)))

Learning rate set to 0.054583
0:	learn: 72726062.5739727	total: 58.7ms	remaining: 58.7s
1:	learn: 70563088.2914942	total: 65.4ms	remaining: 32.7s
2:	learn: 68426300.3004986	total: 72.2ms	remaining: 24s
3:	learn: 66348571.7350085	total: 79ms	remaining: 19.7s
4:	learn: 64449754.8722035	total: 86.3ms	remaining: 17.2s
5:	learn: 62826671.5007619	total: 90ms	remaining: 14.9s
6:	learn: 61090785.7517408	total: 95.9ms	remaining: 13.6s
7:	learn: 59430456.1773868	total: 100ms	remaining: 12.4s
8:	learn: 57957176.0320896	total: 105ms	remaining: 11.6s
9:	learn: 56524423.1179253	total: 110ms	remaining: 10.9s
10:	learn: 55366814.2024834	total: 114ms	remaining: 10.3s
11:	learn: 53926168.1025681	total: 118ms	remaining: 9.74s
12:	learn: 52589864.1340638	total: 122ms	remaining: 9.28s
13:	learn: 51351955.1555475	total: 127ms	remaining: 8.97s
14:	learn: 50443698.7929811	total: 131ms	remaining: 8.63s
15:	learn: 49290900.5025259	total: 137ms	remaining: 8.43s
16:	learn: 48374572.0002807	total: 141ms	remaining:

143:	learn: 20317740.7927375	total: 733ms	remaining: 4.36s
144:	learn: 20288332.3960154	total: 738ms	remaining: 4.35s
145:	learn: 20230446.5501817	total: 742ms	remaining: 4.34s
146:	learn: 20212518.8542208	total: 746ms	remaining: 4.33s
147:	learn: 20170071.2647761	total: 749ms	remaining: 4.31s
148:	learn: 20158331.0436078	total: 753ms	remaining: 4.3s
149:	learn: 20100271.3797855	total: 757ms	remaining: 4.29s
150:	learn: 20004274.4608551	total: 760ms	remaining: 4.27s
151:	learn: 19949080.1062522	total: 764ms	remaining: 4.26s
152:	learn: 19877948.8006941	total: 768ms	remaining: 4.25s
153:	learn: 19847215.2884204	total: 772ms	remaining: 4.24s
154:	learn: 19736639.3808742	total: 776ms	remaining: 4.23s
155:	learn: 19698707.2066887	total: 781ms	remaining: 4.22s
156:	learn: 19627873.5779642	total: 785ms	remaining: 4.21s
157:	learn: 19493316.5807886	total: 792ms	remaining: 4.22s
158:	learn: 19449748.3709133	total: 795ms	remaining: 4.21s
159:	learn: 19366455.5176526	total: 800ms	remaining: 4.2s

314:	learn: 13922896.4490118	total: 1.47s	remaining: 3.2s
315:	learn: 13918909.3079919	total: 1.48s	remaining: 3.19s
316:	learn: 13899631.8807157	total: 1.48s	remaining: 3.19s
317:	learn: 13895414.8453567	total: 1.48s	remaining: 3.18s
318:	learn: 13876407.8806801	total: 1.49s	remaining: 3.17s
319:	learn: 13849013.6839759	total: 1.49s	remaining: 3.17s
320:	learn: 13844916.2216345	total: 1.49s	remaining: 3.16s
321:	learn: 13766497.7889895	total: 1.5s	remaining: 3.15s
322:	learn: 13727445.6086955	total: 1.5s	remaining: 3.15s
323:	learn: 13674171.5140922	total: 1.51s	remaining: 3.14s
324:	learn: 13647274.4692786	total: 1.51s	remaining: 3.14s
325:	learn: 13577164.6027835	total: 1.53s	remaining: 3.16s
326:	learn: 13540848.2352137	total: 1.53s	remaining: 3.15s
327:	learn: 13519462.0986248	total: 1.54s	remaining: 3.15s
328:	learn: 13497695.2655477	total: 1.54s	remaining: 3.14s
329:	learn: 13450791.1085982	total: 1.54s	remaining: 3.14s
330:	learn: 13428313.8714593	total: 1.55s	remaining: 3.13s


485:	learn: 10278137.8552372	total: 2.27s	remaining: 2.4s
486:	learn: 10271495.3772449	total: 2.27s	remaining: 2.4s
487:	learn: 10261129.3366393	total: 2.28s	remaining: 2.39s
488:	learn: 10222959.2653120	total: 2.28s	remaining: 2.38s
489:	learn: 10211508.1634636	total: 2.29s	remaining: 2.38s
490:	learn: 10183288.4724569	total: 2.29s	remaining: 2.37s
491:	learn: 10172663.1679092	total: 2.29s	remaining: 2.37s
492:	learn: 10157065.8366144	total: 2.3s	remaining: 2.36s
493:	learn: 10144281.6282787	total: 2.3s	remaining: 2.36s
494:	learn: 10130343.7551831	total: 2.31s	remaining: 2.35s
495:	learn: 10123699.0508789	total: 2.31s	remaining: 2.35s
496:	learn: 10117595.4252752	total: 2.32s	remaining: 2.34s
497:	learn: 10112217.2984613	total: 2.32s	remaining: 2.34s
498:	learn: 10084397.9407642	total: 2.32s	remaining: 2.33s
499:	learn: 10057743.0394442	total: 2.33s	remaining: 2.33s
500:	learn: 10052814.6899850	total: 2.33s	remaining: 2.32s
501:	learn: 10014244.1688184	total: 2.34s	remaining: 2.32s
5

667:	learn: 7941133.7380480	total: 3.06s	remaining: 1.52s
668:	learn: 7933341.0017876	total: 3.07s	remaining: 1.52s
669:	learn: 7924847.5794695	total: 3.07s	remaining: 1.51s
670:	learn: 7910326.6041908	total: 3.08s	remaining: 1.51s
671:	learn: 7901245.5428240	total: 3.08s	remaining: 1.5s
672:	learn: 7891243.3125418	total: 3.08s	remaining: 1.5s
673:	learn: 7884278.9511880	total: 3.09s	remaining: 1.49s
674:	learn: 7878066.0197985	total: 3.09s	remaining: 1.49s
675:	learn: 7872958.4100483	total: 3.1s	remaining: 1.48s
676:	learn: 7859976.7596169	total: 3.1s	remaining: 1.48s
677:	learn: 7854775.0328569	total: 3.1s	remaining: 1.47s
678:	learn: 7840414.6804996	total: 3.11s	remaining: 1.47s
679:	learn: 7834271.7264030	total: 3.11s	remaining: 1.47s
680:	learn: 7824758.1207737	total: 3.12s	remaining: 1.46s
681:	learn: 7819206.4425700	total: 3.12s	remaining: 1.46s
682:	learn: 7808486.5130254	total: 3.13s	remaining: 1.45s
683:	learn: 7804430.1099506	total: 3.13s	remaining: 1.45s
684:	learn: 7793015

850:	learn: 6510080.1604909	total: 3.86s	remaining: 676ms
851:	learn: 6503014.6613423	total: 3.87s	remaining: 671ms
852:	learn: 6494826.1013551	total: 3.87s	remaining: 667ms
853:	learn: 6483876.7816686	total: 3.88s	remaining: 663ms
854:	learn: 6468319.7802354	total: 3.89s	remaining: 660ms
855:	learn: 6456244.9056890	total: 3.9s	remaining: 655ms
856:	learn: 6446673.3192423	total: 3.9s	remaining: 651ms
857:	learn: 6445351.7993110	total: 3.9s	remaining: 646ms
858:	learn: 6440775.8498623	total: 3.91s	remaining: 642ms
859:	learn: 6437117.2065642	total: 3.91s	remaining: 637ms
860:	learn: 6435566.3106112	total: 3.92s	remaining: 633ms
861:	learn: 6431978.5597192	total: 3.92s	remaining: 628ms
862:	learn: 6426226.9356485	total: 3.93s	remaining: 624ms
863:	learn: 6420656.9399349	total: 3.93s	remaining: 619ms
864:	learn: 6414966.0259364	total: 3.94s	remaining: 614ms
865:	learn: 6408065.6794162	total: 3.94s	remaining: 610ms
866:	learn: 6404011.9121538	total: 3.95s	remaining: 606ms
867:	learn: 63979

R^2 score on training set: 0.994
R^2 score on test set: 0.886


### Проверка результатов

In [20]:
check_example = {'title':["1-комн. квартира"],'okrug':["НАО(Новомосковский)"],
                 'district':["Коммунарка поселок"],'square':[43.5],
                 'live_square':[15],'kitchen_square':[18],'etage':[5],
                 'year':[2021],'height':[3.1],'sanuzel':["1 совмещенный"],
                 'balcon':["1 лоджия"],'view':["Во двор"],
                 'otdelka':["Дизайнерский"],'all_etage':[13],
                 'station':["Коммунарка"],'transport_time':[10]}
X_check = pd.DataFrame(check_example)
X_check = feature_encoding(pd.concat([data.loc[:,'title':'transport_time'],X_check]), features)[-1:]
y_pred = dtr.predict(X_check)
y_pred[0]

KeyError: 'title'