In [17]:

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.metrics import root_mean_squared_error
from sklearn.preprocessing import StandardScaler
import joblib
import os

# Загрузка данных
data = pd.read_csv("../data/processed/train.csv")

# Просмотр первых строк
print(data.head())

# Определяем признаки и целевую переменную
# Убедитесь, что 'price' - целевая, а остальные - признаки
X = data.drop(columns=['price'])
y = data['price']

# Масштабируем признаки
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Разделяем на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

# Создаём и обучаем модель линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказания на тесте
y_pred = model.predict(X_test)

# Оценка модели
rmse = root_mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"RMSE на тестовой выборке: {rmse:.2f}")
print(f"R^2 на тестовой выборке: {r2:.2f}")

# Сохраняем модель и scaler
os.makedirs('../models', exist_ok=True)
joblib.dump(model, '../models/linear_regression_model.pkl')
joblib.dump(scaler, '../models/scaler.pkl')

print("Модель и scaler сохранены в папку ../models")


   total_meters     price
0          32.0  13590000
1          40.1  35500000
2          40.0   8490000
3          35.1  15950000
4          40.0  12700000
RMSE на тестовой выборке: 10307437.53
R^2 на тестовой выборке: 0.37
Модель и scaler сохранены в папку ../models


In [18]:

# Стандартизация признака
scaler = StandardScaler()
data['total_meters'] = scaler.fit_transform(data[['total_meters']])

# Разделение на признаки и целевую переменную
X = data[['total_meters']]  # только один признак - площадь
y = data['price']

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Оценка модели
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Вывод метрик качества
# todo: use logging
print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"Корень из среднеквадратичной ошибки (RMSE): {rmse:.2f}")
print(f"Коэффициент детерминации R²: {r2:.6f}")
print(f"Средняя ошибка предсказания: {np.mean(np.abs(y_test - y_pred)):.2f} рублей")

# Коэффициенты модели
print(f"Коэффициент при площади: {model.coef_[0]:.2f}")
print(f"Свободный член: {model.intercept_:.2f}")


Среднеквадратичная ошибка (MSE): 106243268522256.20
Корень из среднеквадратичной ошибки (RMSE): 10307437.53
Коэффициент детерминации R²: 0.368376
Средняя ошибка предсказания: 7098082.11 рублей
Коэффициент при площади: 8033621.36
Свободный член: 17736096.29


In [None]:
import joblib
# Сохранение модели
model_path = '../models/linear_regression_model.pkl'

joblib.dump(model, model_path)
print("Модель сохранена в файл f{model_path}")

# Загрузка модели
loaded_model = joblib.load(model_path)
print("Модель загружена из файла")