# 📌 DBSCAN 기초
- **밀도 기반**: 이웃이 많이 모인 구역=군집, 흩어진 점=노이즈(-1)
- 장점: K 불필요, 비구형 군집/이상치 처리에 강함
- 핵심 매개변수: `eps`(반경), `min_samples`(최소 이웃 수)
- 단점: eps/min_samples 튜닝 어려움, 밀도 불균형 데이터에서 민감


In [None]:
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np

X = load_iris().data
Xs = StandardScaler().fit_transform(X)

db = DBSCAN(eps=0.6, min_samples=5).fit(Xs)
labels = db.labels_  # -1은 노이즈

Xp = PCA(n_components=2, random_state=42).fit_transform(Xs)
uniq = np.unique(labels)

plt.figure(figsize=(7,5))
for lab in uniq:
    mask = labels==lab
    plt.scatter(Xp[mask,0], Xp[mask,1], s=50, alpha=0.7, edgecolor='k',
                label=("noise" if lab==-1 else f"cluster {lab}"))
plt.title("DBSCAN on Iris (PCA 2D)")
plt.legend(); plt.show()
