In [39]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler

# Загрузка данных
data = pd.read_csv("../data/cleaned_data.csv")
data

Unnamed: 0,total_meters,price,floor,floors_count,rooms_count
0,32.00,13590000,10,18,1
1,35.50,12000000,3,17,1
2,35.40,13880000,3,17,1
3,42.50,7150000,5,9,1
4,37.50,7800000,3,19,1
...,...,...,...,...,...
3071,76.30,35000000,12,16,3
3072,58.38,35950000,7,16,3
3073,79.80,36100000,10,22,3
3074,70.00,36500000,5,30,3


In [None]:
# Разделение на признаки и целевую переменную
X = data[['total_meters', 'floor', 'floors_count', 'rooms_count']]
y = data['price']

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Оценка модели
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Вывод метрик качества
# todo: use logging
print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"Корень из среднеквадратичной ошибки (RMSE): {rmse:.2f}")
print(f"Коэффициент детерминации R²: {r2:.6f}")
print(f"Средняя ошибка предсказания: {np.mean(np.abs(y_test - y_pred)):.2f} рублей")

# Коэффициенты модели
print(f"Коэффициент при площади: {model.coef_[0]:.2f}")
print(f"Свободный член: {model.intercept_:.2f}")


Среднеквадратичная ошибка (MSE): 132958863083193.17
Корень из среднеквадратичной ошибки (RMSE): 11530778.95
Коэффициент детерминации R²: 0.520505
Средняя ошибка предсказания: 7759501.14 рублей
Коэффициент при площади: 609026.20
Свободный член: -9420087.88


In [41]:
import joblib
# Сохранение модели
model_path = 'C:\\Users\\user\\Институт\\PABD25\\Проект_2\\models\\model_house_prise.pkl'

joblib.dump(model, model_path)
print("Модель сохранена в файл f{model_path}")

# Загрузка модели
loaded_model = joblib.load(model_path)
print("Модель загружена из файла")

Модель сохранена в файл f{model_path}
Модель загружена из файла


In [42]:
loaded_model.predict([[30, 5, 10, 2]])



array([7627231.71135816])

In [43]:
input_df = pd.DataFrame([[41, 15, 6, 2]], columns=['total_meters', 'floors_count', 'floor', 'rooms_count'])
prediction = loaded_model.predict([[41, 15, 6, 2]])[0]



In [44]:
prediction

np.float64(13091562.075116254)