In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
# Загрузка данных
data = pd.read_csv("/Users/mac/PABD25/data/raw/1_2025-06-14_13-30.csv")
data

Unnamed: 0,author,author_type,url,location,deal_type,accommodation_type,floor,floors_count,rooms_count,total_meters,price_per_month,commissions,price,district,street,house_number,underground,residential_complex
0,UINVEST,real_estate_agent,https://www.cian.ru/sale/flat/318632591/,Москва,sale,flat,17,32,1,38.1,-1,0,23000000,Хорошево-Мневники,бульвар Генерала Карбышева,13А,Народное Ополчение,Union Park
1,ID 51623189,unknown,https://www.cian.ru/sale/flat/314293804/,Москва,sale,flat,22,27,1,36.0,-1,0,21000000,Хорошево-Мневники,Шелепихинская набережная,42к2,Полежаевская,FreeDOM
2,PROНЕДВИЖИМОСТЬ,real_estate_agent,https://www.cian.ru/sale/flat/318337977/,Москва,sale,flat,4,5,1,36.0,-1,0,9300000,Марфино,Комдива Орлова,8,Окружная,
3,White and Broughton,real_estate_agent,https://www.cian.ru/sale/flat/313640113/,Москва,sale,flat,6,41,1,40.1,-1,0,34900000,Хорошевский,Ленинградский проспект,37/5,Аэропорт,Прайм Парк
4,ID 87162081,unknown,https://www.cian.ru/sale/flat/316738482/,Москва,sale,flat,2,3,1,34.7,-1,0,5730000,,Генерала Донскова,27к6,Апрелевка,Борисоглебское
5,ID 132043277,homeowner,https://www.cian.ru/sale/flat/318660382/,Москва,sale,flat,10,12,1,39.3,-1,0,10700000,,Лазурная,11,Новомосковская,
6,ID 13184731,realtor,https://www.cian.ru/sale/flat/318101207/,Москва,sale,flat,15,17,1,40.0,-1,0,14200000,Братеево,Ключевая,12К1,Алма-Атинская,
7,Павел Пряжников,realtor,https://www.cian.ru/sale/flat/318485986/,Москва,sale,flat,6,17,1,39.5,-1,0,17500000,Черемушки,Цюрупы,18К1,Новые Черёмушки,
8,Mr.Flip,real_estate_agent,https://www.cian.ru/sale/flat/318298751/,Москва,sale,flat,7,14,1,35.4,-1,0,15500000,Якиманка,Шаболовка,16К2,Шаболовская,
9,Виктория Грудько,realtor,https://www.cian.ru/sale/flat/318190411/,Москва,sale,flat,4,9,1,33.1,-1,0,14200000,Коньково,Профсоюзная,88/20,Беляево,


In [5]:

# Стандартизация признака
scaler = StandardScaler()
data['total_meters'] = scaler.fit_transform(data[['total_meters']])

# Разделение на признаки и целевую переменную
X = data[['total_meters']]  # только один признак - площадь
y = data['price']

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Оценка модели
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Вывод метрик качества
# todo: use logging
print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"Корень из среднеквадратичной ошибки (RMSE): {rmse:.2f}")
print(f"Коэффициент детерминации R²: {r2:.6f}")
print(f"Средняя ошибка предсказания: {np.mean(np.abs(y_test - y_pred)):.2f} рублей")

# Коэффициенты модели
print(f"Коэффициент при площади: {model.coef_[0]:.2f}")
print(f"Свободный член: {model.intercept_:.2f}")


Среднеквадратичная ошибка (MSE): 94636154366050.00
Корень из среднеквадратичной ошибки (RMSE): 9728111.55
Коэффициент детерминации R²: 0.725196
Средняя ошибка предсказания: 8311196.41 рублей
Коэффициент при площади: 13251432.80
Свободный член: 17772291.92


In [6]:
import joblib
# Сохранение модели
model_path = 'models/linear_regression_model.pkl'

import os
os.makedirs('models', exist_ok=True)
joblib.dump(model, model_path)
joblib.dump(scaler, "models/scaler.pkl")
print(f"Модель сохранена в файл {model_path}")

# Загрузка модели
loaded_model = joblib.load(model_path)
print("Модель загружена из файла")

Модель сохранена в файл models/linear_regression_model.pkl
Модель загружена из файла
