# 🧪 01. 탐색적 데이터 분석 (EDA)
기본 통계, 결측치 확인, 주요 변수 시각화를 통해 데이터의 구조를 이해합니다.

In [None]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn-whitegrid')
pd.set_option('display.max_columns', 100)

In [None]:
# 데이터 불러오기
train = pd.read_csv('../data/raw/train.csv')
test = pd.read_csv('../data/raw/test.csv')
print(train.shape)
train.head()

In [None]:
# 기본 정보 확인
train.info()
train.describe()

In [None]:
# 결측치 비율 확인
missing = train.isnull().mean().sort_values(ascending=False)
missing[missing > 0]

In [None]:
# 결측치 시각화
plt.figure(figsize=(10, 5))
sns.heatmap(train.isnull(), cbar=False, cmap='Reds')
plt.title('Missing Value Heatmap')
plt.show()

In [None]:
# 타겟 분포 확인
plt.figure(figsize=(8, 4))
sns.histplot(train['거래금액(만원)'], bins=100, kde=True)
plt.title('Target Distribution')
plt.xlabel('거래금액(만원)')
plt.show()

In [None]:
# 로그 변환 후 분포 확인
train['log_price'] = np.log1p(train['거래금액(만원)'])
sns.histplot(train['log_price'], bins=100, kde=True)
plt.title('Log Transformed Target')
plt.xlabel('log(거래금액)')
plt.show()

In [None]:
# 주요 범주형 변수 시각화
fig, axs = plt.subplots(1, 2, figsize=(14, 5))
sns.countplot(y=train['시군구'].value_counts().index[:10], ax=axs[0])
axs[0].set_title('시군구 Top10')
sns.countplot(y=train['아파트명'].value_counts().index[:10], ax=axs[1])
axs[1].set_title('아파트명 Top10')
plt.tight_layout()
plt.show()

In [None]:
# 수치형 변수 간 상관관계
plt.figure(figsize=(10, 8))
sns.heatmap(train.corr(numeric_only=True), annot=True, fmt='.2f', cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()