In [None]:
# # 밀도 기반 군집 (DBSCAN) 개념 정리
#
# # ---
#
# ## 1. 기본 개념 (Density-Based Spatial Clustering of Applications with Noise)
#
# # - 원리: 데이터의 밀도(Density)를 기준으로 군집을 형성하는 비지도 학습(Unsupervised Learning) 알고리즘.
# # - 특징: 사전에 **군집 개수(K)를 지정할 필요가 없다.** 복잡하고 불규칙한 형태의 군집을 찾는 데 효과적이며, **이상치(Noise)를 자동으로 분리**하여 아웃라이어 분석에 유리하다.
# # - 거리 척도: 유클리드 거리 등 다양한 거리 함수를 사용한다.
#
# # ---
#
# ## 2. DBSCAN의 핵심 용어 (매개변수)
#
# # DBSCAN은 두 가지 핵심 매개변수(Hyperparameter)에 의해 작동한다.
#
# # 1. **Epsilon ($\epsilon$ 또는 eps)**
# # - 정의: 이웃을 탐색할 때 사용하는 **반경** 또는 최대 거리.
# # - 의미: 이 반경 내에 있는 모든 데이터 포인트를 이웃으로 간주한다.
#
# # 2. **MinPts (Minimum Points)**
# # - 정의: $\epsilon$ 반경 내에 포함되어야 하는 **최소 데이터 포인트 수**.
# # - 의미: 이 수 이상의 이웃을 가져야 해당 포인트가 핵심 포인트(Core Point)가 될 수 있다.
#
# # ---
#
# ## 3. 데이터 포인트의 세 가지 유형
#
# # DBSCAN은 $\epsilon$과 MinPts 기준을 충족하는지에 따라 모든 데이터를 세 가지 유형 중 하나로 분류한다.
#
# # 1. **핵심 포인트 (Core Point)**
# # - 조건: $\epsilon$ 반경 내에 **MinPts 개 이상의 이웃**을 가진 포인트.
# # - 역할: 군집의 중심을 이루며, 군집 확장의 시작점이 된다.
#
# # 2. **경계 포인트 (Border Point)**
# # - 조건: 자신이 핵심 포인트는 아니지만, **어떤 핵심 포인트의 $\epsilon$ 반경 내에** 존재하는 포인트.
# # - 역할: 군집의 외곽을 형성한다.
#
# # 3. **이상치 (Noise Point)**
# # - 조건: 핵심 포인트도 경계 포인트도 아닌 포인트.
# # - 특징: 최종적으로 **-1** 레이블이 할당되며, 어떤 군집에도 속하지 않는 이상치로 간주된다.
#
# # ---
#
# ## 4. 군집 형성 과정 (도달 가능성)
#
# # 1. **직접 밀도-도달 가능성 (Directly Density-Reachable)**
# # - 포인트 $q$가 핵심 포인트 $p$의 $\epsilon$ 반경 내에 있을 때, $q$는 $p$로부터 직접 도달 가능하다.
#
# # 2. **밀도-도달 가능성 (Density-Reachable)**
# # - 핵심 포인트 체인을 통해 연속적으로 연결되어 있는 경우, 서로 밀도-도달 가능하다. (이것이 하나의 군집을 형성)
#
# # 3. **밀도-연결 가능성 (Density-Connected)**
# # - 두 포인트가 제3의 핵심 포인트를 통해 연결되어 있는 경우, 서로 밀도-연결 가능하며 같은 군집에 속한다.
#
# # ---
#
# ## 5. 장점 및 단점
#
# # **장점**
# # - 복잡하고 비선형적인 모양의 군집을 잘 찾는다.
# # - 이상치를 효과적으로 제거/분리한다.
# # - K-Means와 달리 군집 수를 미리 지정할 필요가 없다.
#
# # **단점**
# # - 매개변수($\epsilon$, MinPts) 설정에 매우 민감하다.
# # - 데이터 밀도가 크게 차이 나는 군집을 처리하기 어렵다.
# # - 데이터 차원이 높아지거나(고차원 데이터) 데이터의 크기가 매우 클 때 거리 계산 비용이 증가하여 성능이 저하될 수 있다.
#

In [2]:
# ------------------------------
# CC GENERAL.csv 파일 기반 계층적 군집 분석 코드
# ------------------------------
# ----------------------------------------------------
## 1. 라이브러리 및 데이터 준비/전처리 (K-Means 코드와 동일)
# ----------------------------------------------------

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import AgglomerativeClustering # 계층적 군집 모델
from scipy.cluster.hierarchy import linkage, dendrogram # 덴드로그램 생성용
import matplotlib.pyplot as plt
import numpy as np

# 데이터 로드
file_path = "CC GENERAL.csv"
df = pd.read_csv(file_path)

# CUST_ID 컬럼 제외
df_model = df.drop('CUST_ID', axis=1)

# 결측치 처리: 평균값으로 대체
df_model.fillna(df_model.mean(), inplace=True)

# 데이터 표준화(Standardization)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_model)

print("1. 데이터 준비 및 표준화 완료. (결측치 평균 대체)")
print("-" * 50)

# ----------------------------------------------------
## 2. 최적의 군집 수 (K) 결정 - 덴드로그램 시각화
# ----------------------------------------------------

# linkage 함수를 사용하여 데이터 객체 간의 거리를 계산하고 병합 순서를 정의 (와드 연결법 사용)
# method='ward': 와드 연결법 (군집 내 분산 증가 최소화)
# metric='euclidean': 유클리드 거리 사용
linked = linkage(X_scaled, method='ward', metric='euclidean')

# # 덴드로그램 시각화 (Jupyter Notebook 또는 IDE 환경에서 실행 권장)
# # 모든 데이터 포인트를 표시하면 너무 복잡하므로, 일부만 표시하거나 자르는 것이 일반적이다.
# plt.figure(figsize=(15, 7))
# dendrogram(linked,
#            orientation='top',
#            truncate_mode='lastp', # 마지막 p개의 병합 단계만 표시 (10개)
#            p=10,
#            show_leaf_counts=True,
#            distance_sort='descending',
#            show_contracted=True)
# plt.title('Hierarchical Clustering Dendrogram (Ward Linkage)')
# plt.xlabel('Data Points or Clusters')
# plt.ylabel('Distance')
# plt.show()
# # 덴드로그램을 통해 거리가 급격히 증가하는 지점에서 수평선을 그어 최적 K를 결정

# 덴드로그램 분석 결과, 가장 적절한 K를 4로 가정하고 진행한다.
optimal_k = 4
print(f"2. 덴드로그램 분석 결과, 최적 군집 수 K = {optimal_k} 로 결정 (가정)")
print("-" * 50)

# ----------------------------------------------------
## 3. 계층적 군집 모델 학습 및 군집 할당
# ----------------------------------------------------

# AgglomerativeClustering 모델을 사용하여 K=4로 군집 분석 수행
# n_clusters=4: 군집 개수
# affinity='euclidean': 거리 척도
# linkage='ward': 연결법
agg_clustering = AgglomerativeClustering(n_clusters=optimal_k, metric='euclidean', linkage='ward')
df_model['Cluster'] = agg_clustering.fit_predict(X_scaled)

# 모델 학습 및 각 데이터 포인트에 군집 레이블 할당
# AgglomerativeClustering은 fit_predict를 사용하여 바로 레이블을 반환
cluster_labels = agg_clustering.fit_predict(X_scaled)

# 원본 데이터프레임에 군집 레이블 추가
df_model['Cluster'] = cluster_labels

print("3. 계층적 군집 모델 학습 및 군집 레이블 할당 완료")
print(df_model[['BALANCE', 'PURCHASES', 'CASH_ADVANCE', 'Cluster']].head())
print("-" * 50)

# ----------------------------------------------------
## 4. 군집 결과 분석 (Profile)
# ----------------------------------------------------

# 군집별 특성 평균을 계산하여 각 군집의 특성(Profile)을 파악한다.
cluster_profiles = df_model.groupby('Cluster').mean()

print("4-1. 군집별 데이터 개수:")
print(df_model['Cluster'].value_counts().sort_index())

print("\n4-2. 군집별 특성(Feature) 평균 (Cluster Profile):")
print(cluster_profiles.T) # Transpose하여 변수별 비교가 용이하도록 출력

# 군집 결과 해석:
# 각 군집의 특성 평균(BALANCE, PURCHASES, CASH_ADVANCE 등)을 비교하여
# '저활용 고객', '고액 일시불 고객', '현금서비스 의존 고객' 등 고객 세그먼트를 정의할 수 있다.


1. 데이터 준비 및 표준화 완료. (결측치 평균 대체)
--------------------------------------------------
2. 덴드로그램 분석 결과, 최적 군집 수 K = 4 로 결정 (가정)
--------------------------------------------------
3. 계층적 군집 모델 학습 및 군집 레이블 할당 완료
       BALANCE  PURCHASES  CASH_ADVANCE  Cluster
0    40.900749      95.40      0.000000        1
1  3202.467416       0.00   6442.945483        2
2  2495.148862     773.17      0.000000        3
3  1666.670542    1499.00    205.788017        1
4   817.714335      16.00      0.000000        1
--------------------------------------------------
4-1. 군집별 데이터 개수:
Cluster
0     487
1    4668
2     864
3    2931
Name: count, dtype: int64

4-2. 군집별 특성(Feature) 평균 (Cluster Profile):
Cluster                                     0            1            2  \
BALANCE                           3261.592964  1082.617273  4733.393046   
BALANCE_FREQUENCY                    0.987867     0.784368     0.981978   
PURCHASES                         6703.434969   317.087249   389.403808   
ONEOFF_PURCHASE