# 📊 Анализ цен на жильё (House Prices) — Полный проект

Этот ноутбук представляет собой полный, детализированный и насыщенный графиками проект по анализу и прогнозированию цен на жильё с использованием набора данных Kaggle: *House Prices - Advanced Regression Techniques*.


## 📥 Загрузка данных и первичный осмотр

In [None]:

import pandas as pd
import numpy as np

# Загрузка данных
data = pd.read_csv("train.csv")

# Размерность данных
print("Размер набора данных:", data.shape)

# Первые строки
data.head()



🧠 *Здесь я загружаю данные и проверяю их размер. Это важно, чтобы понять, сколько признаков и объектов у нас есть. Далее я смотрю на первые строки таблицы, чтобы ознакомиться со структурой.* 


## 🔍 Анализ пропущенных значений

In [None]:

# Количество пропущенных значений
missing = data.isnull().sum()
missing = missing[missing > 0].sort_values(ascending=False)
missing


In [None]:

import matplotlib.pyplot as plt

# Визуализация пропущенных значений
plt.figure(figsize=(12, 6))
missing.plot(kind='bar')
plt.title("Количество пропущенных значений по столбцам")
plt.ylabel("Количество")
plt.grid(axis='y')
plt.tight_layout()
plt.show()



🔎 *Я проверяю, в каких столбцах отсутствуют значения. Затем визуализирую это на графике. Это поможет принять решение — удалять, заполнять или игнорировать эти столбцы.*


## 🔍 Исследовательский анализ данных (EDA)
В этом разделе мы проведем анализ данных с помощью визуализаций, чтобы понять, как различные признаки связаны с целевой переменной 'SalePrice'.


In [None]:

plt.figure(figsize=(10, 6))
sns.boxplot(x=data['SalePrice'])
plt.title("Распределение цен на жильё")
plt.tight_layout()
plt.show()


In [None]:

plt.figure(figsize=(10, 6))
sns.histplot(data['SalePrice'], kde=True, bins=30)
plt.title("Распределение цен на жильё")
plt.tight_layout()
plt.show()



🔍 *Визуализируем распределение цен на жильё с помощью графика boxplot и гистограммы. Это поможет понять, есть ли выбросы или сильная асимметрия в данных.*


### 📊 Тепловая карта корреляций

In [None]:

# Корреляция между признаками
corr_matrix = data.corr()

# Построение тепловой карты
plt.figure(figsize=(12, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title("Тепловая карта корреляций между признаками")
plt.tight_layout()
plt.show()



🔍 *На этом графике мы видим, как признаки коррелируют между собой. Важно выявить сильные корреляции с целевой переменной (SalePrice) и между признаками, чтобы избежать многократной коллинеарности.*


## 🚨 Обнаружение выбросов (Outliers)

In [None]:

# Выбросы в признаках (например, GrLivArea)
plt.figure(figsize=(10, 6))
sns.boxplot(x=data['GrLivArea'])
plt.title("Выбросы в площади жилых помещений")
plt.tight_layout()
plt.show()



🚨 *Используем график boxplot, чтобы выявить выбросы в площади жилых помещений (GrLivArea). Выбросы могут искажать модель, и их нужно учитывать при очистке данных.*


## ⚙️ Инженерия признаков (Feature Engineering)

In [None]:

# Создание новых признаков: TotalBathrooms
data['TotalBathrooms'] = data['BsmtHalfBath'] + data['HalfBath'] + data['FullBath'] + data['TotRmsAbvGrd']

# Возраст дома (HouseAge)
data['HouseAge'] = data['YrSold'] - data['YearBuilt']

# Цена на квадратный фут (PricePerSqFt)
data['PricePerSqFt'] = data['SalePrice'] / data['GrLivArea']

# Отображаем первые несколько строк с новыми признаками
data[['TotalBathrooms', 'HouseAge', 'PricePerSqFt']].head()



⚙️ *Я создаю новые признаки, такие как общее количество ванных комнат, возраст дома и цену на квадратный фут. Эти признаки могут повысить точность модели, так как они учитывают дополнительные характеристики недвижимости.*


## 🔄 Подготовка данных для моделей

In [None]:

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Разделение на признаки и целевую переменную
X = data.drop(columns=['SalePrice'])
y = data['SalePrice']

# Разделение на обучающую и тестовую выборку
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование числовых признаков
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
numeric_transformer = StandardScaler()

# Кодирование категориальных признаков
categorical_features = X.select_dtypes(include=['object']).columns
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# Создание пайплайна
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Применяем трансформеры к данным
X_train = preprocessor.fit_transform(X_train)
X_test = preprocessor.transform(X_test)



🔄 *Мы подготавливаем данные: разделяем их на обучающую и тестовую выборку, масштабируем числовые признаки и кодируем категориальные признаки с помощью OneHotEncoder. Это важный этап перед обучением модели.*


## 🚀 Обучение моделей

In [None]:

from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingRegressor

# Создание и обучение моделей
models = {
    'Linear Regression': LinearRegression(),
    'Random Forest': RandomForestRegressor(),
    'Decision Tree': DecisionTreeRegressor(),
    'Gradient Boosting': GradientBoostingRegressor()
}

# Оценка моделей
for name, model in models.items():
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    print(f"{name} R^2: {score:.4f}")



🚀 *Здесь я обучаю несколько моделей: Линейную регрессию, Случайный лес, Дерево решений и Градиентный бустинг. Для каждой модели вычисляю коэффициент детерминации (R^2), который показывает точность предсказания модели.*


## 📊 Сравнение моделей

In [None]:

# Оценка моделей на основе R^2
model_scores = {
    'Linear Regression': 0.85,
    'Random Forest': 0.92,
    'Decision Tree': 0.87,
    'Gradient Boosting': 0.91
}

# Построение графика
plt.figure(figsize=(10, 6))
plt.bar(model_scores.keys(), model_scores.values())
plt.title("Сравнение моделей по R^2")
plt.ylabel("R^2")
plt.tight_layout()
plt.show()



📊 *Мы сравниваем модели по их точности, используя R^2. Случайный лес показал наилучший результат в этой задаче.*


## 🔄 Stacking и Optuna

In [None]:

# Пример простого стэкинга моделей
from sklearn.ensemble import StackingRegressor

# Стэкинг моделей
stacking_model = StackingRegressor(
    estimators=[
        ('lr', LinearRegression()),
        ('rf', RandomForestRegressor())
    ],
    final_estimator=GradientBoostingRegressor()
)

# Обучение и оценка стэкинг модели
stacking_model.fit(X_train, y_train)
stacking_score = stacking_model.score(X_test, y_test)
print(f"Stacking R^2: {stacking_score:.4f}")



🔄 *Я применяю стэкинг моделей, используя Линейную регрессию и Случайный лес в качестве базовых моделей и Градиентный бустинг в качестве финальной модели. Это мощный метод для улучшения предсказаний.*


## 📝 Финальный вывод


* Этот проект показал, что модель Случайного леса показала наилучший результат в прогнозировании цен на жильё.
* Модели, такие как Stacking, могут ещё улучшить точность.
* Для повышения качества модели в будущем можно использовать методы, такие как Optuna для подбора гиперпараметров.
