In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler

# Загрузка данных
new_df = pd.read_csv("../data/processed/data_cleaned.csv")
new_df

Unnamed: 0.1,Unnamed: 0,author,author_type,url,location,deal_type,accommodation_type,floor,floors_count,rooms_count,total_meters,price_per_month,commissions,price,district,street,house_number,underground,residential_complex
0,0,ID 12891703,homeowner,https://www.cian.ru/sale/flat/315747133/,Москва,sale,flat,10,18,1,32.0,-1,0,13590000,Останкинский,Березовая аллея,19к1,Ботанический сад,Апарт-комплекс Легендарный квартал
1,1,Whitewill,real_estate_agent,https://www.cian.ru/sale/flat/315253252/,Москва,sale,flat,71,79,1,79.0,-1,0,75000000,Пресненский,1-й Красногвардейский проезд,22с2,Москва-Сити,NEVA TOWERS
2,2,Доступный дом,real_estate_agent,https://www.cian.ru/sale/flat/316724491/,Москва,sale,flat,3,17,1,35.4,-1,0,13880000,,Эдварда Грига,15,Потапово,
3,3,Семен Гордый,realtor,https://www.cian.ru/sale/flat/286050252/,Москва,sale,flat,5,9,1,42.5,-1,0,7150000,,Семена Гордого,12,Крёкшино,Ново-Никольское
4,4,Champine,real_estate_agent,https://www.cian.ru/sale/flat/316709399/,Москва,sale,flat,8,13,1,54.8,-1,0,40948000,Южнопортовый,Сосинская,8,Волгоградский проспект,Champine
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
123,123,Этажи Москва,real_estate_agent,https://www.cian.ru/sale/flat/316369951/,Москва,sale,flat,9,9,1,32.4,-1,0,9590000,Теплый Стан,Профсоюзная,152К4,Тёплый Стан,
124,124,Этажи Москва,real_estate_agent,https://www.cian.ru/sale/flat/311663562/,Москва,sale,flat,6,16,1,38.7,-1,0,10500000,Ярославский,Ярославское шоссе,116К1,Свиблово,
125,125,Этажи Москва,real_estate_agent,https://www.cian.ru/sale/flat/316266714/,Москва,sale,flat,5,17,1,38.4,-1,0,9500000,,Лаптева,8к1,Рассказовка,Город-парк Первый Московский
126,126,Самолет Плюс,real_estate_agent,https://www.cian.ru/sale/flat/313757139/,Москва,sale,flat,12,12,1,35.0,-1,0,10300000,Чертаново Южное,Газопровод,3К1,Улица Академика Янгеля,


In [6]:
df = new_df[['total_meters', 'price']]

# Стандартизация признака
scaler = StandardScaler()
df['total_meters'] = scaler.fit_transform(df[['total_meters']])

# Разделение на признаки и целевую переменную
X = df[['total_meters']]  # только один признак - площадь
y = df['price']

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Оценка модели
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Вывод метрик качества
# todo: use logging
print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"Корень из среднеквадратичной ошибки (RMSE): {rmse:.2f}")
print(f"Коэффициент детерминации R²: {r2:.6f}")
print(f"Средняя ошибка предсказания: {np.mean(np.abs(y_test - y_pred)):.2f} рублей")

# Коэффициенты модели
print(f"Коэффициент при площади: {model.coef_[0]:.2f}")
print(f"Свободный член: {model.intercept_:.2f}")

Среднеквадратичная ошибка (MSE): 229948102764106.62
Корень из среднеквадратичной ошибки (RMSE): 15164039.79
Коэффициент детерминации R²: 0.009140
Средняя ошибка предсказания: 10283461.61 рублей
Коэффициент при площади: 2971449.15
Свободный член: 17756749.15


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['total_meters'] = scaler.fit_transform(df[['total_meters']])


In [11]:
user_input = float(input('введите число метров'))
input_df = pd.DataFrame({"total_meters":[user_input]})
predicted = model.predict(input_df)[0]
print(f"{predicted:,.0f}")

введите число метров 35


121,757,470


In [14]:
import os
import joblib

os.makedirs('models', exist_ok=True)
model_path = 'models/linear_regression_model.pkl'

joblib.dump(model, model_path)

#logging.info(f"Модель сохранена: {model_path}")

# Загрузка и тест предсказания
loaded_model = joblib.load(model_path)