In [1]:
import joblib
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
data = pd.read_csv("../data/processed/clean_flat_data.csv")

In [3]:
data

Unnamed: 0.1,Unnamed: 0,floor,floors_count,rooms_count,total_meters,price,district,street,house_number,underground
0,0,25,61,1,60.0,75000000,Пресненский,Краснопресненская набережная,14Ак1,Москва-Сити
1,1,6,41,1,40.1,35500000,Хорошевский,Ленинградский проспект,37/5,Аэропорт
2,2,2,9,1,32.7,10700000,Богородское,Краснобогатырская,75К1,Преображенская площадь
3,3,14,16,1,40.0,12700000,Марьино,Новомарьинская,16К1,Братиславская
4,4,13,41,1,43.1,21500000,Хорошево-Мневники,Шелепихинская набережная,34к5,Шелепиха
...,...,...,...,...,...,...,...,...,...,...
374,388,5,10,3,131.0,131000000,Тверской,Большая Грузинская,69,Белорусская
375,389,2,41,3,65.5,63000000,Хорошевский,Ленинградский проспект,37/5,Аэропорт
376,390,6,12,3,120.9,72200000,Мещанский,Протопоповский переулок,17С2,Проспект Мира
377,391,5,10,3,131.0,131000000,Тверской,Большая Грузинская,69,Белорусская


In [4]:
# Разделение на признаки и целевую переменную
X = data[['total_meters']]  # только один признак - площадь
y = data['price']

Разделение на тренировочную и тестовую выборки

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [6]:
X_train.shape, X_test.shape

((303, 1), (76, 1))

Создание и обучение модели

In [7]:
model = LinearRegression()
model.fit(X_train, y_train)

Предсказание на тестовой выборке

In [8]:
y_pred = model.predict(X_test)

Оценка модели

In [9]:
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Вывод метрик качества
print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"Корень из среднеквадратичной ошибки (RMSE): {rmse:.2f}")
print(f"Коэффициент детерминации R²: {r2:.6f}")
print(f"Средняя ошибка предсказания: {np.mean(np.abs(y_test - y_pred)):.2f} рублей")

Среднеквадратичная ошибка (MSE): 725002740672014.50
Корень из среднеквадратичной ошибки (RMSE): 26925874.93
Коэффициент детерминации R²: 0.799759
Средняя ошибка предсказания: 17722212.14 рублей


In [10]:
# Коэффициенты модели
print(f"Коэффициент при площади: {model.coef_[0]:.2f}")
print(f"Свободный член: {model.intercept_:.2f}")

Коэффициент при площади: 1294063.08
Свободный член: -34833321.28


In [15]:
# Сохранение модели
model_path = '../models/linear_regression_model.pkl'

joblib.dump(model, model_path)
print(f"Модель сохранена в файл {model_path}")

Модель сохранена в файл ../models/linear_regression_model.pkl


## Градиентный бустинг 

In [16]:
from sklearn.ensemble import GradientBoostingRegressor

In [17]:
train_data = pd.read_csv("../artifacts/train.csv")

X_train = train_data[["total_meters", "floor", "floors_count", "rooms_count"]]  # только один признак - площадь
y_train = train_data["price"]

model = GradientBoostingRegressor()
model.fit(X_train, y_train)

In [18]:
test_data = pd.read_csv("../artifacts/test.csv")

X_test = test_data[["total_meters", "floor", "floors_count", "rooms_count"]]  # только один признак - площадь
y_test = test_data["price"]

y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Логирование метрик
print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"Корень из среднеквадратичной ошибки (RMSE): {rmse:.2f}")
print(f"Коэффициент детерминации R²: {r2:.6f}")
print(f"Средняя ошибка предсказания: {np.mean(np.abs(y_test - y_pred)):.2f} рублей")


Среднеквадратичная ошибка (MSE): 609191881981175.75
Корень из среднеквадратичной ошибки (RMSE): 24681812.78
Коэффициент детерминации R²: 0.465106
Средняя ошибка предсказания: 14710827.07 рублей
