## 1. 프로젝트 소개 및 목표
이 프로젝트는 **보스턴 주택 가격 예측**을 목표로 합니다. CSV 파일로 제공된 보스턴 주택 데이터를 사용해 다양한 특성을 바탕으로 주택 가격을 예측하는 회귀 모델을 설계하고 평가합니다.

## 2. 데이터 로딩
CSV 파일에서 보스턴 주택 데이터를 불러옵니다.

In [None]:

import pandas as pd

# CSV 파일 로드
data = pd.read_csv('/mnt/data/BostonHousing.csv')

# 데이터 확인
print(data.head())


## 3. 데이터 탐색 및 시각화
데이터의 기본적인 분포와 상관관계를 시각화하여 파악합니다.

In [None]:

import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 분포 시각화
plt.figure(figsize=(10, 6))
sns.histplot(data['medv'], bins=30, kde=True)
plt.title('Distribution of House Prices')
plt.xlabel('Price ($1000s)')
plt.ylabel('Frequency')
plt.show()

# 상관관계 히트맵
plt.figure(figsize=(12, 10))
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()


## 4. 데이터 전처리
결측치 처리와 데이터 스케일링을 진행합니다.

In [None]:

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# 특성과 타겟 분리
X = data.drop('medv', axis=1)
y = data['medv']

# 데이터 스케일링
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 학습 및 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)


## 5. 모델 설계 및 학습
인공신경망을 설계하고 학습시킵니다.

In [None]:

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 모델 설계
model = Sequential([
    Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    Dense(64, activation='relu'),
    Dense(1)
])

# 모델 컴파일
model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# 모델 학습
history = model.fit(X_train, y_train, epochs=100, validation_split=0.2, verbose=1)


## 6. 모델 평가 및 시각화
테스트 데이터를 사용해 모델을 평가하고, 예측 결과를 시각화합니다.

In [None]:

from sklearn.metrics import mean_squared_error, r2_score

# 모델 예측
y_pred = model.predict(X_test)

# 성능 평가
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error: {mse:.2f}")
print(f"R^2 Score: {r2:.2f}")

# 실제값과 예측값 비교 시각화
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel('Actual Prices')
plt.ylabel('Predicted Prices')
plt.title('Actual vs Predicted Prices')
plt.show()
