# 🏠 Housing Price Prediction

Прогнозирование средней стоимости жилья в Калифорнии на основе демографических и экономических данных.

## 📥 Загрузка данных

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd

data = fetch_california_housing(as_frame=True)
df = data.frame
df.head()

## 🔍 Первичный анализ

In [None]:
df.describe()

## 📊 Корреляция признаков

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
sns.heatmap(df.corr(), annot=True, cmap="coolwarm")
plt.title("Корреляция признаков")
plt.show()

## 🤖 Построение моделей: Linear Regression и Random Forest

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

X = df.drop('MedHouseVal', axis=1)
y = df['MedHouseVal']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Linear Regression
lr = LinearRegression()
lr.fit(X_train, y_train)
lr_pred = lr.predict(X_test)

# Random Forest
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
rf_pred = rf.predict(X_test)

print("🔹 Linear Regression R²:", r2_score(y_test, lr_pred))
print("🔹 Random Forest R²:", r2_score(y_test, rf_pred))

## 📌 Важность признаков (Random Forest)

In [None]:
import numpy as np

importances = rf.feature_importances_
features = X.columns
indices = np.argsort(importances)

plt.figure(figsize=(8, 6))
plt.title("Важность признаков")
plt.barh(range(len(indices)), importances[indices], align="center")
plt.yticks(range(len(indices)), [features[i] for i in indices])
plt.xlabel("Вклад")
plt.tight_layout()
plt.show()

## ✅ Выводы
- Случайный лес показал лучшую точность (выше R²).
- Наибольший вклад в цену жилья вносят медианный доход и среднее количество комнат.
- Возможные улучшения: стандартизация признаков, подбор гиперпараметров, кросс-валидация.