In [14]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
import warnings
warnings.filterwarnings('ignore')

In [10]:
# https://www.kaggle.com/code/danik11/russia-real-estate-2018-2021-analysis-rus
region_name = {
    '2661': 'Санкт-Петербург',
    '3446': 'Ленинградская область', 
    '3': 'Москва',
    '81': 'Московская область',
    '2843': 'Краснодарский край',
    '2871': 'Нижегородская область',
    '3230': 'Ростовская область',
    '3106': 'Самарская область',
    '2922': 'Республика Татарстан',
    '2900': 'Ставропольский край',
    '2722': 'Республика Башкортостан',
    '6171': 'Свердловская область', 
    '4417': 'Республика Коми', 
    '5282': 'Челябинская область', 
    '5368': 'Иркутская область', 
    '5520': 'Пермский край', 
    '6817': 'Алтайский край',
    '9579': 'Республика Бурятия',
    '2604': 'Ярославская область',
    '1010': 'Удмуртская Республика',
    '7793': 'Псковская область',
    '13919': 'Республика Северная Осетия — Алания',
    '2860': 'Кемеровская область',
    '3019': 'Чувашская Республика',
    '4982': 'Республика Марий Эл',
    '9648': 'Кабардино-Балкарская Республика',
    '5241': 'Республика Мордовия',
    '3870': 'Красноярский край',
    '3991': 'Тюменская область',
    '2359': 'Республика Хакасия',
    '9654': 'Новосибирская область',
    '2072': 'Воронежская область',
    '8090': 'Республика Карелия',
    '4007': 'Республика Дагестан',
    '11171': 'Республика Саха (Якутия)',
    '10160': 'Забайкальский край',
    '7873, 6937': 'Республика Крым',
    '2594': 'Кировская область',
    '8509': 'Республика Калмыкия',
    '11416': 'Республика Адыгея',
    '11991': 'Карачаево-Черкесская Республика',
    '5178': 'Республика Тыва',
    '13913': 'Республика Ингушетия',
    '6309': 'Республика Алтай',
    '5952': 'Белгородская область',
    '6543': 'Архангельская область',
    '2880': 'Тверская область',
    '5993': 'Пензенская область',
    '2484': 'Ханты-Мансийский автономный округ',
    '4240': 'Липецкая область',
    '5789': 'Владимирская область',
    '14880': 'Ямало-Ненецкий автономный округ',
    '1491': 'Рязанская область',
    '2885': 'Чеченская Республика',
    '5794': 'Смоленская область',
    '2528': 'Саратовская область',
    '4374': 'Вологодская область',
    '4695': 'Волгоградская область',
    '2328': 'Калужская область',
    '5143': 'Тульская область',
    '2806': 'Тамбовская область',
    '14368': 'Мурманская область',
    '5736': 'Новгородская область',
    '7121': 'Курская область',
    '4086': 'Хабаровский край',
    '821': 'Брянская область',
    '10582': 'Астраханская область',
    '7896': 'Калининградская область',
    '8640': 'Омская область',
    '5703': 'Курганская область',
    '10201': 'Томская область',
    '4249': 'Ульяновская область',
    '3153': 'Оренбургская область',
    '4189': 'Костромская область',
    '2814': 'Орловская область',
    '13098': 'Камчатский край',
    '8894': 'Ивановская область',
    '7929': 'Амурская область',
    '16705': 'Магаданская область',
    '69': 'Еврейская автономная область',
    '4963': 'Приморский край',
    '1901': 'Сахалинская область',
    '61888': 'Ненецкий автономный округ'
}

In [11]:
# https://www.kaggle.com/datasets/mrdaniilak/russia-real-estate-20182021/code
df = pd.read_csv("all_v2.csv").query('region in (3, 81)')
df = df.loc[(df.price > 1e5) & (df.price < 3e7)]
df.rename(columns={'price': 'target', "date": "datetime"}, inplace=True)
df["region"] = df["region"].astype(str).map(region_name)
df["id"] = df.index.values
df["datetime"] = pd.to_datetime(df.datetime)
df = df.sample(10000, random_state=31)
df.sort_values("datetime", inplace=True)
df.to_csv("data.csv", index=False)
print(df.shape)
df.head(5)

(10000, 14)


Unnamed: 0,target,datetime,time,geo_lat,geo_lon,region,building_type,level,levels,rooms,area,kitchen_area,object_type,id
165,6332000,2018-08-13,10:04:00,55.563338,37.851372,Московская область,2,7,9,3,96.7,16.6,11,165
2985,5370000,2018-09-08,12:44:09,55.83615,37.280453,Московская область,2,8,25,2,59.0,13.5,1,2985
4037,3400000,2018-09-08,17:35:51,55.83301,38.26195,Московская область,3,2,3,3,56.0,6.0,1,4037
2113,8800000,2018-09-08,09:52:12,55.894627,37.371571,Московская область,2,4,8,1,49.8,20.0,1,2113
3087,11215076,2018-09-08,13:15:32,55.702133,37.639198,Москва,2,4,11,2,58.0,11.2,11,3087


In [12]:
mask = df.datetime >= pd.Timestamp('2021-01-01')

In [15]:
model = RandomForestRegressor(oob_score=True)
cols = ["geo_lat", "geo_lon", "building_type", "level", "levels", "rooms", "area", "kitchen_area", "object_type"]

model.fit(df.loc[~mask][cols], df.loc[~mask]["target"])

df.loc[~mask, "prediction"] = model.oob_prediction_
reference = reference.sample(1000, random_state=31).sort_values("datetime")
df.loc[mask, "prediction"] = model.predict(df.loc[mask][cols])

In [17]:
df.to_csv("data_with_predictions.csv", index=False)