In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from catboost import CatBoostRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import LeaveOneOut, cross_val_score
from sklearn.metrics import mean_absolute_error, r2_score
from sklearn.cluster import KMeans
import warnings

In [3]:
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

pd.set_option('display.max_columns', None)

## Предобработка данных

In [39]:
df = pd.read_csv('data.csv')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 198 entries, 0 to 197
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Дата                  198 non-null    object 
 1   №                     198 non-null    int64  
 2   Город                 198 non-null    object 
 3   Адрес                 198 non-null    object 
 4   Площадь м2            198 non-null    object 
 5   Год                   198 non-null    object 
 6   Этажей                198 non-null    int64  
 7   Квартир на этаж       198 non-null    int64  
 8   Координаты            198 non-null    object 
 9   Количество квартир    198 non-null    int64  
 10  Количество абонентов  36 non-null     float64
 11  Средний доход         36 non-null     float64
 12  Подключен к ОТУС-Л    198 non-null    int64  
 13  МТС                   198 non-null    int64  
 14  Ростелеком            198 non-null    int64  
dtypes: float64(2), int64(7)

In [40]:
df.head()

Unnamed: 0,Дата,№,Город,Адрес,Площадь м2,Год,Этажей,Квартир на этаж,Координаты,Количество квартир,Количество абонентов,Средний доход,Подключен к ОТУС-Л,МТС,Ростелеком
0,18.07.2023,1,Ярославль,"1-й Парковый проезд, 1",1155,1957,1,4,"[57.63542,39.867259]",4,,,0,0,1
1,18.07.2023,2,Ярославль,"1-й Парковый проезд, 2",117,1957,1,4,"[57.63676,39.8699]",4,,,0,0,1
2,18.07.2023,3,Ярославль,"1-й Парковый проезд, 3",1168,1958,1,4,"[57.636596,39.868813]",4,,,0,0,1
3,18.07.2023,4,Ярославль,"1-й Парковый проезд, 5",115,1958,1,4,"[57.637439,39.872946]",4,,,0,0,0
4,18.07.2023,5,Ярославль,"1-й Парковый проезд, 6",117,1958,1,4,"[57.635252,39.86822]",4,,,0,0,0


In [41]:
tmp = df['Дата'].unique()
tmp.sort()
tmp
# Всё ок, есть только два значения

tmp = df['Город'].unique()
tmp.sort()
tmp
# Всё ок, есть только одно значение

tmp = df['Адрес'].unique()
tmp.sort()
tmp
# Всё ок

tmp = df['Площадь м2'].unique()
tmp.sort()
tmp
# Пропущенных значений нет, неправильный формат чисел в плавающей точкой

tmp = df['Год'].unique()
tmp.sort()
tmp
# Есть десять пропущенных значений с -

tmp = df['Этажей'].unique()
tmp.sort()
tmp
# Всё ок

tmp = df['Квартир на этаж'].unique()
tmp.sort()
tmp
# Всё ок, есть только одно значение

tmp = df['Координаты'].unique()
tmp.sort()
tmp
# Всё ок

tmp = df['Количество квартир'].unique()
tmp.sort()
tmp
# Всё ок

all(df['Количество квартир'] == df['Этажей']*df['Квартир на этаж'])

tmp = df['Количество абонентов'].unique()
tmp.sort()
tmp
# Есть 36 непустых значений

tmp = df['Средний доход'].unique()
tmp.sort()
tmp
# Есть 36 непустых значений

tmp = df['Подключен к ОТУС-Л'].unique()
tmp.sort()
tmp
# Всё ок

tmp = df['МТС'].unique()
tmp.sort()
tmp
# Всё ок

tmp = df['Ростелеком'].unique()
tmp.sort()
tmp
# Всё ок

array([0, 1])

In [42]:
df = df.drop('Город', axis=1)

df['Площадь м2'] = df['Площадь м2'].str.replace(',', '.').astype(float)
df = df.rename(columns={'Площадь м2': 'Площадь, м^2'})

df['Год'] = pd.to_numeric(df['Год'], errors='coerce', downcast='integer').astype('Int64')
df = df.rename(columns={'Год': 'Год постройки'})

df = df.rename(columns={'Этажей': 'Количество этажей'})

df = df.rename(columns={'Квартир на этаж': 'Количество квартир на этаж'})

df = df.rename(columns={'Средний доход': 'Средний доход, руб'})

df = df.rename(columns={'Подключен к ОТУС-Л': 'ОТУС-Л'})

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 198 entries, 0 to 197
Data columns (total 14 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Дата                        198 non-null    object 
 1   №                           198 non-null    int64  
 2   Адрес                       198 non-null    object 
 3   Площадь, м^2                198 non-null    float64
 4   Год постройки               188 non-null    Int64  
 5   Количество этажей           198 non-null    int64  
 6   Количество квартир на этаж  198 non-null    int64  
 7   Координаты                  198 non-null    object 
 8   Количество квартир          198 non-null    int64  
 9   Количество абонентов        36 non-null     float64
 10  Средний доход, руб          36 non-null     float64
 11  ОТУС-Л                      198 non-null    int64  
 12  МТС                         198 non-null    int64  
 13  Ростелеком                  198 non

In [43]:
df.head()

Unnamed: 0,Дата,№,Адрес,"Площадь, м^2",Год постройки,Количество этажей,Количество квартир на этаж,Координаты,Количество квартир,Количество абонентов,"Средний доход, руб",ОТУС-Л,МТС,Ростелеком
0,18.07.2023,1,"1-й Парковый проезд, 1",115.5,1957,1,4,"[57.63542,39.867259]",4,,,0,0,1
1,18.07.2023,2,"1-й Парковый проезд, 2",117.0,1957,1,4,"[57.63676,39.8699]",4,,,0,0,1
2,18.07.2023,3,"1-й Парковый проезд, 3",116.8,1958,1,4,"[57.636596,39.868813]",4,,,0,0,1
3,18.07.2023,4,"1-й Парковый проезд, 5",115.0,1958,1,4,"[57.637439,39.872946]",4,,,0,0,0
4,18.07.2023,5,"1-й Парковый проезд, 6",117.0,1958,1,4,"[57.635252,39.86822]",4,,,0,0,0


## Feature engineering

In [44]:
df['Есть конкуренты'] = ((df['МТС'] == 1) | (df['Ростелеком'] == 1)).astype('int64')

df['Средняя площадь квартиры, м^2'] = df['Площадь, м^2'] / df['Количество квартир']

df['Новый фонд'] = (df['Год постройки'] >= 2000).astype('Int64')

df['Многоэтажка'] = (df['Количество этажей'] > 5).astype('int64')

df['Возраст дома'] = 2024 - df['Год постройки']

df['Новый без конкурентов'] = df['Новый фонд'] * (1 - df['Есть конкуренты'])

df['Премиум'] = (
    (df['Средняя площадь квартиры, м^2'] > df['Средняя площадь квартиры, м^2'].quantile(0.75)) & 
    (df['Новый фонд'] == 1)
).astype('Int64')

df['Год постройки неизвестен'] = df['Год постройки'].isna().astype(int)

In [45]:
df['Широта'] = df['Координаты'].apply(
    lambda x: float(x.strip('[]').split(',')[0])
)
df['Долгота'] = df['Координаты'].apply(
    lambda x: float(x.strip('[]').split(',')[1])
)

coords = df[['Широта', 'Долгота']].values
n_clusters = min(5, len(df) // 7)
kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
df['Гео кластер'] = kmeans.fit_predict(coords)
    
cluster_centers = kmeans.cluster_centers_
distances = []
for idx, row in df.iterrows():
    cluster_id = row['Гео кластер']
    center = cluster_centers[cluster_id]
    dist = np.sqrt((row['Широта'] - center[0])**2 + (row['Долгота'] - center[1])**2)
    distances.append(dist)
df['Расстояние до центра кластера'] = distances

In [46]:
df.head()

Unnamed: 0,Дата,№,Адрес,"Площадь, м^2",Год постройки,Количество этажей,Количество квартир на этаж,Координаты,Количество квартир,Количество абонентов,"Средний доход, руб",ОТУС-Л,МТС,Ростелеком,Есть конкуренты,"Средняя площадь квартиры, м^2",Новый фонд,Многоэтажка,Возраст дома,Новый без конкурентов,Премиум,Год постройки неизвестен,Широта,Долгота,Гео кластер,Расстояние до центра кластера
0,18.07.2023,1,"1-й Парковый проезд, 1",115.5,1957,1,4,"[57.63542,39.867259]",4,,,0,0,1,1,28.875,0,0,67,0,0,0,57.63542,39.867259,2,0.004113
1,18.07.2023,2,"1-й Парковый проезд, 2",117.0,1957,1,4,"[57.63676,39.8699]",4,,,0,0,1,1,29.25,0,0,67,0,0,0,57.63676,39.8699,2,0.001156
2,18.07.2023,3,"1-й Парковый проезд, 3",116.8,1958,1,4,"[57.636596,39.868813]",4,,,0,0,1,1,29.2,0,0,66,0,0,0,57.636596,39.868813,2,0.002242
3,18.07.2023,4,"1-й Парковый проезд, 5",115.0,1958,1,4,"[57.637439,39.872946]",4,,,0,0,0,0,28.75,0,0,66,0,0,0,57.637439,39.872946,2,0.001984
4,18.07.2023,5,"1-й Парковый проезд, 6",117.0,1958,1,4,"[57.635252,39.86822]",4,,,0,0,0,0,29.25,0,0,66,0,0,0,57.635252,39.86822,2,0.003362


## Прогноз выручки и числа абонентов

In [47]:
edf = df.copy()
# edf = edf[edf['Дата'] == '18.07.2023']
edf = edf.drop('Дата', axis=1)
edf = edf.drop('№', axis=1)
edf = edf.drop('Адрес', axis=1)

median_year = int(edf['Год постройки'].median())
edf['Год постройки'] = edf['Год постройки'].fillna(median_year)
edf['Новый фонд'] = (edf['Год постройки'] >= 2000).astype(int)
edf['Возраст дома'] = 2024 - edf['Год постройки']
edf['Новый без конкурентов'] = edf['Новый фонд'] * (1 - edf['Есть конкуренты'])
edf['Премиум'] = (
    (edf['Средняя площадь квартиры, м^2'] > edf['Средняя площадь квартиры, м^2'].quantile(0.75)) & 
    (edf['Новый фонд'] == 1)
).astype(int)

edf = edf.drop('Координаты', axis=1)

In [48]:
train = edf[edf['ОТУС-Л'] == 1]
test = edf[edf['ОТУС-Л'] == 0]

train = train.drop('ОТУС-Л', axis=1)
test = test.drop('ОТУС-Л', axis=1)

geo_stats = train.groupby('Гео кластер').agg({
    'Количество абонентов': ['mean', 'std', 'min', 'max'],
    'Средний доход, руб': ['mean', 'std', 'min', 'max'],
    'Количество квартир': ['mean', 'sum'],
    'Площадь, м^2': 'mean',
    'Средняя площадь квартиры, м^2': 'mean',
    'Есть конкуренты': 'mean',
    'Новый фонд': 'mean',
    'Многоэтажка': 'mean',
    'Возраст дома': 'mean',
    'Премиум': 'mean'
}).round(2)    
cluster_size = train.groupby('Гео кластер').size().reset_index(name='Домов в кластере')
penetration = train.groupby('Гео кластер').apply(
    lambda x: (x['Количество абонентов'] / x['Количество квартир']).mean()
).reset_index(name='Коэффициент проникновения')
income_per_flat = train.groupby('Гео кластер').apply(
    lambda x: (x['Средний доход, руб'] * x['Количество абонентов'] / x['Количество квартир']).mean()
).reset_index(name='Доход на квартиру, руб')
geo_stats.columns = ['_'.join(col).strip() for col in geo_stats.columns.values]
geo_stats = geo_stats.reset_index()
geo_stats = geo_stats.merge(cluster_size, on='Гео кластер')
geo_stats = geo_stats.merge(penetration, on='Гео кластер')
geo_stats = geo_stats.merge(income_per_flat, on='Гео кластер')
train = train.merge(geo_stats, on='Гео кластер', how='left')

test = test.merge(geo_stats, on='Гео кластер', how='left')
for col in geo_stats.columns:
    if col != 'Гео кластер' and col in test.columns:
        test[col].fillna(test[col].mean(), inplace=True)

In [49]:
train.head()

Unnamed: 0,"Площадь, м^2",Год постройки,Количество этажей,Количество квартир на этаж,Количество квартир,Количество абонентов,"Средний доход, руб",МТС,Ростелеком,Есть конкуренты,"Средняя площадь квартиры, м^2",Новый фонд,Многоэтажка,Возраст дома,Новый без конкурентов,Премиум,Год постройки неизвестен,Широта,Долгота,Гео кластер,Расстояние до центра кластера,Количество абонентов_mean,Количество абонентов_std,Количество абонентов_min,Количество абонентов_max,"Средний доход, руб_mean","Средний доход, руб_std","Средний доход, руб_min","Средний доход, руб_max",Количество квартир_mean,Количество квартир_sum,"Площадь, м^2_mean","Средняя площадь квартиры, м^2_mean",Есть конкуренты_mean,Новый фонд_mean,Многоэтажка_mean,Возраст дома_mean,Премиум_mean,Домов в кластере,Коэффициент проникновения,"Доход на квартиру, руб"
0,1965.9,2004,5,4,20,7.0,320.0,0,0,0,98.295,1,0,20,1,0,0,57.697327,39.776556,0,0.00206,7.9,1.45,6.0,10.0,314.2,26.39,280.0,350.0,28.0,280,2621.26,89.22,0.5,0.6,0.6,20.2,0.0,10,0.29373,91.653651
1,5073.0,1981,5,4,20,7.0,300.0,0,0,0,253.65,0,0,43,0,0,0,57.621373,39.862992,4,0.00972,7.0,0.0,7.0,7.0,295.0,7.07,290.0,300.0,20.0,40,5073.0,253.65,0.0,0.0,0.0,43.0,0.0,2,0.35,103.25
2,1018.2,2018,5,4,20,7.0,340.0,0,0,0,50.91,1,0,6,1,0,0,57.697981,39.773843,0,0.003315,7.9,1.45,6.0,10.0,314.2,26.39,280.0,350.0,28.0,280,2621.26,89.22,0.5,0.6,0.6,20.2,0.0,10,0.29373,91.653651
3,5297.6,2014,6,4,24,8.0,377.0,0,1,1,220.733333,1,1,10,0,1,0,57.641481,39.957567,1,0.001182,12.58,3.79,7.0,19.0,416.08,55.99,290.0,490.0,36.67,880,6103.59,170.73,0.92,0.5,1.0,23.5,0.33,24,0.340162,143.314341
4,5297.6,2014,6,4,24,8.0,300.0,0,1,1,220.733333,1,1,10,0,1,0,57.640518,39.959408,1,0.002907,12.58,3.79,7.0,19.0,416.08,55.99,290.0,490.0,36.67,880,6103.59,170.73,0.92,0.5,1.0,23.5,0.33,24,0.340162,143.314341


In [50]:
feature_cols = [col for col in train.columns 
                if col not in ['Количество абонентов', 'Средний доход, руб']]
    
cat_features = ['МТС', 'Ростелеком', 'Есть конкуренты', 'Новый фонд', 
                'Многоэтажка', 'Гео кластер', 'Новый без конкурентов', 'Премиум',
                'Год постройки неизвестен']
    
cat_features = [f for f in cat_features if f in feature_cols]
    
X_train = train[feature_cols]
y_train_subscribers = train['Количество абонентов']
y_train_income = train['Средний доход, руб']
X_test = test[feature_cols]

In [60]:
model_subscribers = CatBoostRegressor(
    iterations=100,
    learning_rate=0.05,
    depth=3,
    l2_leaf_reg=10,
    loss_function='RMSE',
    random_seed=42,
    cat_features=cat_features,
    verbose=100,
    early_stopping_rounds=50
)

loo = LeaveOneOut() 
loo_scores_sub = []
for train_idx, val_idx in loo.split(X_train):
    X_tr, X_val = X_train.iloc[train_idx], X_train.iloc[val_idx]
    y_tr, y_val = y_train_subscribers.iloc[train_idx], y_train_subscribers.iloc[val_idx]
        
    model_subscribers.fit(X_tr, y_tr, verbose=False)
    pred = model_subscribers.predict(X_val)
    loo_scores_sub.append((y_val.values[0], pred[0]))
    
y_true_sub = [x[0] for x in loo_scores_sub]
y_pred_sub = [x[1] for x in loo_scores_sub]
r2_catboost_sub = r2_score(y_true_sub, y_pred_sub)
mae_catboost_sub = mean_absolute_error(y_true_sub, y_pred_sub)
    
print(f"CatBoost - Количество абонентов:")
print(f"R^2 : {r2_catboost_sub:.4f}")
print(f"MAE: {mae_catboost_sub:.2f}")
    
model_subscribers.fit(X_train, y_train_subscribers)

CatBoost - Количество абонентов:
R^2 : 0.7306
MAE: 1.67
0:	learn: 3.8090348	total: 737us	remaining: 73ms
99:	learn: 1.3327064	total: 15.1ms	remaining: 0us


<catboost.core.CatBoostRegressor at 0x124d8c0b0>

In [59]:
model_income = CatBoostRegressor(
    iterations=100,
    learning_rate=0.05,
    depth=3,
    l2_leaf_reg=10,
    loss_function='RMSE',
    random_seed=42,
    cat_features=cat_features,
    verbose=100,
    early_stopping_rounds=50
)
    
loo = LeaveOneOut() 
loo_scores_inc = []
for train_idx, val_idx in loo.split(X_train):
    X_tr, X_val = X_train.iloc[train_idx], X_train.iloc[val_idx]
    y_tr, y_val = y_train_income.iloc[train_idx], y_train_income.iloc[val_idx]
        
    model_income.fit(X_tr, y_tr, verbose=False)
    pred = model_income.predict(X_val)
    loo_scores_inc.append((y_val.values[0], pred[0]))
    
y_true_inc = [x[0] for x in loo_scores_sub]
y_pred_inc = [x[1] for x in loo_scores_sub]
r2_catboost_inc = r2_score(y_true_inc, y_pred_inc)
mae_catboost_inc = mean_absolute_error(y_true_inc, y_pred_inc)
    
print(f"CatBoost - Количество абонентов:")
print(f"R^2: {r2_catboost_inc:.4f}")
print(f"MAE: {mae_catboost_inc:.2f}")
    
model_income.fit(X_train, y_train_income)

CatBoost - Количество абонентов:
R^2: 0.7306
MAE: 1.67
0:	learn: 67.1179350	total: 104us	remaining: 10.3ms
99:	learn: 25.7095725	total: 13.5ms	remaining: 0us


<catboost.core.CatBoostRegressor at 0x124d291f0>

In [53]:
predictions_subscribers = model_subscribers.predict(X_test)
predictions_income = model_income.predict(X_test)
    
predictions_subscribers = np.round(predictions_subscribers).astype(int)
predictions_subscribers = np.maximum(predictions_subscribers, 0)
predictions_income = np.round(predictions_income, 2)
predictions_income = np.maximum(predictions_income, 0)

In [55]:
df.loc[df['ОТУС-Л'] == 0, 'Количество абонентов'] = predictions_subscribers
df.loc[df['ОТУС-Л'] == 0, 'Средний доход, руб'] = predictions_income

In [56]:
df

Unnamed: 0,Дата,№,Адрес,"Площадь, м^2",Год постройки,Количество этажей,Количество квартир на этаж,Координаты,Количество квартир,Количество абонентов,"Средний доход, руб",ОТУС-Л,МТС,Ростелеком,Есть конкуренты,"Средняя площадь квартиры, м^2",Новый фонд,Многоэтажка,Возраст дома,Новый без конкурентов,Премиум,Год постройки неизвестен,Широта,Долгота,Гео кластер,Расстояние до центра кластера
0,18.07.2023,1,"1-й Парковый проезд, 1",115.5,1957,1,4,"[57.63542,39.867259]",4,9.0,331.56,0,0,1,1,28.875000,0,0,67,0,0,0,57.635420,39.867259,2,0.004113
1,18.07.2023,2,"1-й Парковый проезд, 2",117.0,1957,1,4,"[57.63676,39.8699]",4,9.0,334.15,0,0,1,1,29.250000,0,0,67,0,0,0,57.636760,39.869900,2,0.001156
2,18.07.2023,3,"1-й Парковый проезд, 3",116.8,1958,1,4,"[57.636596,39.868813]",4,9.0,332.68,0,0,1,1,29.200000,0,0,66,0,0,0,57.636596,39.868813,2,0.002242
3,18.07.2023,4,"1-й Парковый проезд, 5",115.0,1958,1,4,"[57.637439,39.872946]",4,9.0,332.88,0,0,0,0,28.750000,0,0,66,0,0,0,57.637439,39.872946,2,0.001984
4,18.07.2023,5,"1-й Парковый проезд, 6",117.0,1958,1,4,"[57.635252,39.86822]",4,9.0,331.76,0,0,0,0,29.250000,0,0,66,0,0,0,57.635252,39.868220,2,0.003362
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
193,18.07.2022,90,"ул. 1-я Тормозная, 54",5417.5,2008,10,4,"[57.638687,39.952051]",40,12.0,440.00,1,1,1,1,135.437500,1,1,16,0,1,0,57.638687,39.952051,1,0.005002
194,18.07.2022,92,"ул. 1-я Тормозная, 56",4784.8,2005,10,4,"[57.638056,39.955492]",40,13.0,470.00,1,1,1,1,119.620000,1,1,19,0,0,0,57.638056,39.955492,1,0.003042
195,18.07.2022,95,"ул. 1-я Тормозная, 58 корпус 2",7176.9,1995,10,4,"[57.637738,39.958663]",40,19.0,420.00,1,0,1,1,179.422500,0,1,29,0,0,0,57.637738,39.958663,1,0.003829
196,18.07.2022,94,"ул. 1-я Тормозная, 58",4586.0,2004,11,4,"[57.638258,39.958097]",44,19.0,470.00,1,0,1,1,104.227273,1,1,20,0,0,0,57.638258,39.958097,1,0.003087


In [57]:
df.to_csv('prepared_data.csv', index=False)