# 01. 데이터 탐색 (EDA)

서울시 밀키트 매장 입지 분석을 위한 데이터 탐색 노트북입니다.

## 목차
1. 데이터 로드
2. 기초 통계량 확인
3. 결측치 분석
4. 상관관계 분석
5. 시각화

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sys
sys.path.append('..')

from src.data_loader import load_csv
from src.visualization import ResultVisualizer, set_korean_font

# 한글 폰트 설정 (OS 자동 감지)
set_korean_font()

%matplotlib inline

## 1. 데이터 로드

In [None]:
# 학습 데이터 로드
train_df = load_csv('../data/processed/train_dataset.csv')
print(f'학습 데이터 shape: {train_df.shape}')
train_df.head()

In [None]:
# 기초 통계량
train_df.describe()

## 2. 결측치 분석

In [None]:
# 결측치 확인
missing = train_df.isnull().sum()
missing_pct = (missing / len(train_df)) * 100

missing_df = pd.DataFrame({
    'missing_count': missing,
    'missing_pct': missing_pct
}).query('missing_count > 0').sort_values('missing_pct', ascending=False)

print(f'결측치가 있는 컬럼: {len(missing_df)}개')
missing_df

## 3. 상관관계 분석

In [None]:
# 상관관계 히트맵
viz = ResultVisualizer(figsize=(12, 10))
numeric_cols = train_df.select_dtypes(include=[np.number]).columns.tolist()

if len(numeric_cols) > 2:
    viz.plot_correlation_heatmap(
        train_df,
        columns=numeric_cols[:15],  # 상위 15개 컬럼만
        title='주요 피처 상관관계'
    )
    plt.show()

## 4. 타겟 변수 분포

In [None]:
# 타겟 변수 분포
if 'value' in train_df.columns:
    fig, axes = plt.subplots(1, 2, figsize=(12, 4))
    
    # 히스토그램
    axes[0].hist(train_df['value'], bins=20, edgecolor='black')
    axes[0].set_title('타겟 변수 분포')
    axes[0].set_xlabel('value')
    
    # 박스플롯
    axes[1].boxplot(train_df['value'])
    axes[1].set_title('타겟 변수 박스플롯')
    
    plt.tight_layout()
    plt.show()