## Загрузка данных и первичный осмотр

In [None]:

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

train = pd.read_csv('train (1).csv')
test = pd.read_csv('test (1).csv')

print(train.shape)
print(train.head())
print(train.describe())

print("Количество пропусков:")
print(train.isnull().sum())

# Я загрузил данные, посмотрел их структуру и статистику.
# Я сразу увидел наличие пропусков, которые необходимо будет обработать.
    

## Удаление ненужных признаков и обработка пропусков

In [None]:

cols_to_drop = ['PoolQC', 'MiscFeature', 'Alley', 'Fence', 'FireplaceQu', 'Id']
train_clean = train.drop(columns=cols_to_drop)

categorical_cols = train_clean.select_dtypes(include=['object']).columns
numerical_cols = train_clean.select_dtypes(include=['int64', 'float64']).columns

train_clean[categorical_cols] = train_clean[categorical_cols].fillna('None')
train_clean[numerical_cols] = train_clean[numerical_cols].fillna(train_clean[numerical_cols].median())

print("Пропуски после обработки:")
print(train_clean.isnull().sum())

# Я удалил признаки с большим количеством пропусков.
# Остальные пропуски заполнил корректно.
    

## Удаление выбросов по GrLivArea

In [None]:

Q1 = train_clean['GrLivArea'].quantile(0.25)
Q3 = train_clean['GrLivArea'].quantile(0.75)
IQR = Q3 - Q1
outliers = train_clean[(train_clean['GrLivArea'] < (Q1 - 1.5 * IQR)) | (train_clean['GrLivArea'] > (Q3 + 1.5 * IQR))]

print(f"Количество аномалий GrLivArea: {len(outliers)}")

train_clean = train_clean[~train_clean.index.isin(outliers.index)]

# Я удалил выбросы по GrLivArea для более корректного анализа и обучения моделей.
    

## Анализ распределения целевого признака

In [None]:

sns.histplot(train_clean['SalePrice'], kde=True)
plt.title('Распределение SalePrice')
plt.show()

# Я визуализировал распределение целевого признака и увидел наличие смещения вправо.
    

## Корреляционная матрица после чистки

In [None]:

corr_matrix = train_clean.select_dtypes(include=['int64', 'float64']).corr()
corr_target = corr_matrix['SalePrice'].abs().sort_values(ascending=False).index
sorted_corr_matrix = corr_matrix.loc[corr_target, corr_target]

plt.figure(figsize=(14, 10))
sns.heatmap(sorted_corr_matrix, annot=True, fmt='.2f', cmap='coolwarm', annot_kws={'size':7})
plt.title('Корреляционная матрица (отсортирована по SalePrice)')
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.show()

# Я построил корреляционную матрицу для анализа взаимосвязей после удаления выбросов.
# Я определил наиболее важные признаки.
    

## Кодирование категориальных признаков

In [None]:

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
for col in train_clean.select_dtypes(include=['object']).columns:
    train_clean[col] = encoder.fit_transform(train_clean[col].astype(str))

# Я закодировал категориальные признаки для использования в моделях.
    

## Финальное разделение и стандартизация данных

In [None]:

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = train_clean.drop(columns=['SalePrice'])
y = train_clean['SalePrice']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Я подготовил обучающую и тестовую выборки, стандартизировал данные.
    

## Линейная регрессия

In [None]:

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

model_lr = LinearRegression()
model_lr.fit(X_train_scaled, y_train)
y_pred = model_lr.predict(X_test_scaled)

print(f'MSE: {mean_squared_error(y_test, y_pred):.2f}')
print(f'MAE: {mean_absolute_error(y_test, y_pred):.2f}')
print(f'R2: {r2_score(y_test, y_pred):.2f}')

# Я обучил линейную регрессию и оценил её качество.
    

## Дерево решений

In [None]:

from sklearn.tree import DecisionTreeRegressor

model_tree = DecisionTreeRegressor(random_state=42)
model_tree.fit(X_train_scaled, y_train)
y_pred_tree = model_tree.predict(X_test_scaled)

print(f'MSE: {mean_squared_error(y_test, y_pred_tree):.2f}')
print(f'MAE: {mean_absolute_error(y_test, y_pred_tree):.2f}')
print(f'R2: {r2_score(y_test, y_pred_tree):.2f}')

# Я обучил дерево решений и сравнил его метрики с линейной моделью.
    

## XGBoost

In [None]:

from xgboost import XGBRegressor

model_xgb = XGBRegressor(n_estimators=100, learning_rate=0.1, random_state=42)
model_xgb.fit(X_train_scaled, y_train)
y_pred_xgb = model_xgb.predict(X_test_scaled)

print(f'MSE: {mean_squared_error(y_test, y_pred_xgb):.2f}')
print(f'MAE: {mean_absolute_error(y_test, y_pred_xgb):.2f}')
print(f'R2: {r2_score(y_test, y_pred_xgb):.2f}')

# Я обучил градиентный бустинг и получил лучшие результаты по сравнению с предыдущими моделями.
    

## Нейронная сеть

In [None]:

from sklearn.neural_network import MLPRegressor

model_mlp = MLPRegressor(hidden_layer_sizes=(100, 50), max_iter=2000, random_state=42)
model_mlp.fit(X_train_scaled, y_train)
y_pred_mlp = model_mlp.predict(X_test_scaled)

print(f'MSE: {mean_squared_error(y_test, y_pred_mlp):.2f}')
print(f'MAE: {mean_absolute_error(y_test, y_pred_mlp):.2f}')
print(f'R2: {r2_score(y_test, y_pred_mlp):.2f}')

# Я обучил нейронную сеть и оценил её производительность.
    

## Кросс-валидация и финальный вывод

In [None]:

from sklearn.model_selection import cross_val_score
import numpy as np

scores_xgb = cross_val_score(model_xgb, X_train_scaled, y_train, cv=5, scoring='r2')
print(f'Среднее R2 XGBoost по 5 фолдам: {np.mean(scores_xgb):.2f}')

# Я провёл кросс-валидацию для модели XGBoost.
# Я подтверждаю, что эта модель показывает наилучший результат и является финальным выбором.
    