In [7]:
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler

In [8]:
train_data_path = os.path.join("..", "data", "processed", "train.csv")

In [9]:
data = pd.read_csv(train_data_path)
data

Unnamed: 0,url_id,total_meters,price
0,315747133,32.0,13590000
1,315253252,79.0,75000000
2,316766731,40.8,11600000
3,313640113,40.1,35500000
4,286050252,42.5,7150000
...,...,...,...
100,316906010,67.9,36600000
101,302081797,69.4,69900000
102,315929506,53.6,13500000
103,312719449,60.0,31500000


In [10]:
scaler = StandardScaler()
data['total_meters'] = scaler.fit_transform(data[['total_meters']])

In [11]:
X = data[['total_meters']]  # только один признак - площадь
y = data['price']


In [12]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

In [13]:
model = LinearRegression()
model.fit(X_train, y_train)

In [14]:
y_pred = model.predict(X_test)

In [15]:
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

In [16]:
print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"Корень из среднеквадратичной ошибки (RMSE): {rmse:.2f}")
print(f"Коэффициент детерминации R²: {r2:.6f}")
print(f"Средняя ошибка предсказания: {np.mean(np.abs(y_test - y_pred)):.2f} рублей")

Среднеквадратичная ошибка (MSE): 267541755380899.94
Корень из среднеквадратичной ошибки (RMSE): 16356703.68
Коэффициент детерминации R²: 0.589849
Средняя ошибка предсказания: 12888726.61 рублей


In [17]:
print(f"Коэффициент при площади: {model.coef_[0]:.2f}")
print(f"Свободный член: {model.intercept_:.2f}")


Коэффициент при площади: 18114193.23
Свободный член: 27324786.00


In [19]:
models_dir = os.path.join("..", "models")
os.makedirs(models_dir, exist_ok=True)

In [21]:
import joblib

model_path = os.path.join(models_dir, "linear_reg_model.pkl")

joblib.dump(model, model_path)
print(f"Модель сохранена в файл {model_path}")

loaded_model = joblib.load(model_path)
print("Модель загружена из файла")

Модель сохранена в файл ..\models\linear_reg_model.pkl
Модель загружена из файла
