In [None]:
# # 밀도 기반 군집 (DBSCAN) 개념 정리
#
# # ---
#
# ## 1. 기본 개념 (Density-Based Spatial Clustering of Applications with Noise)
#
# # - 원리: 데이터의 밀도(Density)를 기준으로 군집을 형성하는 비지도 학습(Unsupervised Learning) 알고리즘.
# # - 특징: 사전에 **군집 개수(K)를 지정할 필요가 없다.** 복잡하고 불규칙한 형태의 군집을 찾는 데 효과적이며, **이상치(Noise)를 자동으로 분리**하여 아웃라이어 분석에 유리하다.
# # - 거리 척도: 유클리드 거리 등 다양한 거리 함수를 사용한다.
#
# # ---
#
# ## 2. DBSCAN의 핵심 용어 (매개변수)
#
# # DBSCAN은 두 가지 핵심 매개변수(Hyperparameter)에 의해 작동한다.
#
# # 1. **Epsilon ($\epsilon$ 또는 eps)**
# # - 정의: 이웃을 탐색할 때 사용하는 **반경** 또는 최대 거리.
# # - 의미: 이 반경 내에 있는 모든 데이터 포인트를 이웃으로 간주한다.
#
# # 2. **MinPts (Minimum Points)**
# # - 정의: $\epsilon$ 반경 내에 포함되어야 하는 **최소 데이터 포인트 수**.
# # - 의미: 이 수 이상의 이웃을 가져야 해당 포인트가 핵심 포인트(Core Point)가 될 수 있다.
#
# # ---
#
# ## 3. 데이터 포인트의 세 가지 유형
#
# # DBSCAN은 $\epsilon$과 MinPts 기준을 충족하는지에 따라 모든 데이터를 세 가지 유형 중 하나로 분류한다.
#
# # 1. **핵심 포인트 (Core Point)**
# # - 조건: $\epsilon$ 반경 내에 **MinPts 개 이상의 이웃**을 가진 포인트.
# # - 역할: 군집의 중심을 이루며, 군집 확장의 시작점이 된다.
#
# # 2. **경계 포인트 (Border Point)**
# # - 조건: 자신이 핵심 포인트는 아니지만, **어떤 핵심 포인트의 $\epsilon$ 반경 내에** 존재하는 포인트.
# # - 역할: 군집의 외곽을 형성한다.
#
# # 3. **이상치 (Noise Point)**
# # - 조건: 핵심 포인트도 경계 포인트도 아닌 포인트.
# # - 특징: 최종적으로 **-1** 레이블이 할당되며, 어떤 군집에도 속하지 않는 이상치로 간주된다.
#
# # ---
#
# ## 4. 군집 형성 과정 (도달 가능성)
#
# # 1. **직접 밀도-도달 가능성 (Directly Density-Reachable)**
# # - 포인트 $q$가 핵심 포인트 $p$의 $\epsilon$ 반경 내에 있을 때, $q$는 $p$로부터 직접 도달 가능하다.
#
# # 2. **밀도-도달 가능성 (Density-Reachable)**
# # - 핵심 포인트 체인을 통해 연속적으로 연결되어 있는 경우, 서로 밀도-도달 가능하다. (이것이 하나의 군집을 형성)
#
# # 3. **밀도-연결 가능성 (Density-Connected)**
# # - 두 포인트가 제3의 핵심 포인트를 통해 연결되어 있는 경우, 서로 밀도-연결 가능하며 같은 군집에 속한다.
#
# # ---
#
# ## 5. 장점 및 단점
#
# # **장점**
# # - 복잡하고 비선형적인 모양의 군집을 잘 찾는다.
# # - 이상치를 효과적으로 제거/분리한다.
# # - K-Means와 달리 군집 수를 미리 지정할 필요가 없다.
#
# # **단점**
# # - 매개변수($\epsilon$, MinPts) 설정에 매우 민감하다.
# # - 데이터 밀도가 크게 차이 나는 군집을 처리하기 어렵다.
# # - 데이터 차원이 높아지거나(고차원 데이터) 데이터의 크기가 매우 클 때 거리 계산 비용이 증가하여 성능이 저하될 수 있다.
#

In [None]:
# ------------------------------
# CC GENERAL.csv 파일 기반 DBSCAN 군집 분석 코드
# ------------------------------

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA # 시각화를 위해 PCA 사용

# ----------------------------------------------------------------------
# 1. 데이터 준비 및 전처리 (K-Means 코드와 동일)
# ----------------------------------------------------------------------

# 데이터 로드
file_path = "CC GENERAL.csv"
df = pd.read_csv(file_path)

# CUST_ID 컬럼 제외
df_model = df.drop('CUST_ID', axis=1)

# 결측치 처리: 평균값으로 대체
df_model.fillna(df_model.mean(), inplace=True)

# 데이터 표준화(Standardization)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_model)

print("1. 데이터 준비 및 표준화 완료. 데이터 크기:", X_scaled.shape)
print("-" * 60)


# ----------------------------------------------------------------------
#  2. DBSCAN 모델 학습 및 군집 할당
# ----------------------------------------------------------------------

# DBSCAN 매개변수 설정 (이 값들은 데이터셋에 따라 최적화가 필요함)
# 대규모 고차원 데이터에서는 최적의 매개변수를 찾기 어려울 수 있습니다.
EPSILON = 0.5  # 이웃 탐색 반경
MIN_SAMPLES = 10 # 최소 데이터 수 (MinPts)

# DBSCAN 모델 생성 및 학습
dbscan = DBSCAN(eps=EPSILON, min_samples=MIN_SAMPLES)
cluster_labels = dbscan.fit_predict(X_scaled)

# 원본 데이터프레임에 군집 레이블 추가
df_model['Cluster'] = cluster_labels

print(f"2. DBSCAN 모델 학습 및 군집 할당 완료 (eps={EPSILON}, min_samples={MIN_SAMPLES})")
print(df_model[['BALANCE', 'PURCHASES', 'CASH_ADVANCE', 'Cluster']].head())
print("-" * 60)


# ----------------------------------------------------------------------
#  3. 군집 결과 분석 (DBSCAN 특징 반영)
# ----------------------------------------------------------------------

# 군집별 데이터 개수 확인 (레이블 -1은 이상치/노이즈를 의미)
cluster_counts = df_model['Cluster'].value_counts().sort_index()
print("3-1. 군집별 데이터 개수 (Cluster -1은 Noise/Outlier):")
print(cluster_counts)
print(f"총 군집 개수 (노이즈 제외): {len(cluster_counts) - 1}개")

# 노이즈(-1)를 제외한 군집 프로파일 분석
meaningful_clusters = df_model[df_model['Cluster'] != -1]
cluster_profiles = meaningful_clusters.groupby('Cluster').mean()

print("\n3-2. 유의미한 군집별 특성(Feature) 평균 (Cluster Profile):")
print(cluster_profiles.T)
print("-" * 60)


# ----------------------------------------------------------------------
# 4. 군집 결과 시각화 (PCA 기반)
# ----------------------------------------------------------------------
# 고차원 데이터 시각화를 위해 PCA를 사용합니다.

# 1. PCA 모델 학습: 2개의 주성분으로 축소
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# 2. PCA 결과를 데이터프레임으로 변환
df_pca = pd.DataFrame(data=X_pca, columns=['PC1', 'PC2'])
df_pca['Cluster'] = cluster_labels

# 3. 산점도 시각화
plt.figure(figsize=(10, 8))

# 노이즈(-1)와 실제 군집을 구분하여 시각화하는 것이 일반적입니다.
scatter = plt.scatter(df_pca['PC1'],
                      df_pca['PC2'],
                      # 노이즈(-1)는 가장 어두운 색으로, 나머지 군집은 다른 색으로
                      c=df_pca['Cluster'],
                      cmap='Spectral', # 다양한 색상을 보여주는 Colormap
                      s=30,
                      alpha=0.7)

plt.title(f'DBSCAN Clustering Visualization via PCA (eps={EPSILON}, min_samples={MIN_SAMPLES})')
plt.xlabel(f'Principal Component 1')
plt.ylabel(f'Principal Component 2')

# 범례 추가 (레이블 -1이 노이즈를 의미함을 명시)
legend_elements = scatter.legend_elements()
labels = [f'Cluster {int(l)}' if int(l) != -1 else 'Noise (-1)' for l in legend_elements[0]]
plt.legend(handles=legend_elements[1], labels=labels, loc="upper right", title="Clusters")

plt.grid(True, linestyle='--', alpha=0.5)
plt.show()

print("4. 군집 산점도 시각화 완료 (PCA 기반 2차원 투영)")
