In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler

# Загрузка данных
data = pd.read_csv("/Users/chritnie/Downloads/pabd25-main/src/data/raw/1_2025-04-30_21-24.csv")
data

Unnamed: 0,author,author_type,url,location,deal_type,accommodation_type,floor,floors_count,rooms_count,total_meters,price_per_month,commissions,price,district,street,house_number,underground,residential_complex
0,ID 108172779,real_estate_agent,https://www.cian.ru/sale/flat/315053628/,Москва,sale,flat,5,8,2,111.60,-1,0,109479600,Таганский,Славянская площадь,2/5с1,Китай-город,LUMIN
1,Диалог Риэлт,real_estate_agent,https://www.cian.ru/sale/flat/314283147/,Москва,sale,flat,5,5,2,60.00,-1,0,13000000,Лосиноостровский,Анадырский проезд,21,Бабушкинская,
2,Mr.Flip,real_estate_agent,https://www.cian.ru/sale/flat/316325732/,Москва,sale,flat,3,19,1,37.50,-1,0,7800000,Некрасовка,Рождественская,21к2,Некрасовка,
3,ID 101216343,realtor,https://www.cian.ru/sale/flat/315514720/,Москва,sale,flat,5,8,2,47.00,-1,0,38000000,Пресненский,Большой Кондратьевский переулок,4С1,Белорусская,
4,Ramenky Realty,real_estate_agent,https://www.cian.ru/sale/flat/315050156/,Москва,sale,flat,12,21,3,164.43,-1,0,178500000,Пресненский,Костикова,4к1,Улица 1905 года,Lucky
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
263,Villagio Realty,real_estate_agent,https://www.cian.ru/sale/flat/316324230/,Москва,sale,flat,2,8,1,57.70,-1,0,78000000,Таганский,Тессинский переулок,1,Чкаловская,"Тессинский, 1"
264,Whitewill,real_estate_agent,https://www.cian.ru/sale/flat/310470593/,Москва,sale,flat,19,34,2,102.60,-1,0,150000000,Дорогомилово,Поклонная,9,Поклонная,Поклонная 9
265,Алексей Рыбаков,realtor,https://www.cian.ru/sale/flat/316064725/,Москва,sale,flat,1,5,1,31.40,-1,0,9200000,Измайлово,Измайловский проезд,6К2,Измайловская,
266,Ильза Фомина,realtor,https://www.cian.ru/sale/flat/316221294/,Москва,sale,flat,4,9,2,43.50,-1,0,15790000,Восточное Дегунино,Дубнинская,10К2,Дегунино,


In [2]:

# Стандартизация признака
scaler = StandardScaler()
data['total_meters'] = scaler.fit_transform(data[['total_meters']])

# Разделение на признаки и целевую переменную
X = data[['total_meters']]  # только один признак - площадь
y = data['price']

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Оценка модели
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Вывод метрик качества
# todo: use logging
print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"Корень из среднеквадратичной ошибки (RMSE): {rmse:.2f}")
print(f"Коэффициент детерминации R²: {r2:.6f}")
print(f"Средняя ошибка предсказания: {np.mean(np.abs(y_test - y_pred)):.2f} рублей")

# Коэффициенты модели
print(f"Коэффициент при площади: {model.coef_[0]:.2f}")
print(f"Свободный член: {model.intercept_:.2f}")


Среднеквадратичная ошибка (MSE): 9965713562343792.00
Корень из среднеквадратичной ошибки (RMSE): 99828420.61
Коэффициент детерминации R²: 0.404990
Средняя ошибка предсказания: 50796826.35 рублей
Коэффициент при площади: 83536554.76
Свободный член: 102299518.60


In [3]:
import joblib
# Сохранение модели
model_path = 'models/linear_regression_model.pkl'

import os
os.makedirs('models', exist_ok=True)
joblib.dump(model, model_path)
joblib.dump(scaler, "models/scaler.pkl")
print(f"Модель сохранена в файл {model_path}")

# Загрузка модели
loaded_model = joblib.load(model_path)
print("Модель загружена из файла")

Модель сохранена в файл models/linear_regression_model.pkl
Модель загружена из файла
