# 신용카드 고객 Segmentation 
- Machine Learning을 이용한 신용카드 고객 clustering   


- Data Source: https://www.kaggle.com/arjunbhasin2013/ccdata  


- CUSTID: 신용카드 소지자 ID  
- BALANCE: 구매를 위해 고객 계정에 남아 있는 잔액  
- BALANCE_FREQUENCY: 잔액이 업데이트되는 빈도, 0에서 1 사이의 점수(1 = 자주 업데이트, 0 = 자주 업데이트되지 않음)  
- PURCHASES: 계정에서 구매한 금액  
- ONEOFFPURCHASES: 한 번에 완료되는 최대 구매 금액  
- INSTALLMENTS_PURCHASES: 할부 금액  
- CASH_ADVANCE: 현금서비스  
- PURCHASES_FREQUENCY: 구매 빈도, 0에서 1 사이의 점수(1 = 자주 구매, 0 = 자주 구매하지 않음)  
- ONEOFF_PURCHASES_FREQUENCY:한 번에 구매하는 빈도(1 = 자주 구매, 0 = 자주 구매하지 않음)  
- PURCHASES_INSTALLMENTS_FREQUENCY: 설치 시 구매가 수행되는 빈도(1 = 자주 수행, 0 = 자주 수행하지 않음)  
- CASH_ADVANCE_FREQUENCY: 현금 선지급 빈도  
- CASH_ADVANCE_TRX: "선불" 거래 건수  
- PURCHASES_TRX: 구매한 거래 수  
- CREDIT_LIMIT: 사용자 신용카드 한도  
- PAYMENTS: 사용자가 지불한 금액  
- MINIMUM_PAYMENTS: 사용자가 지불하는 최소 금액  
- PRC_FULL_PAYMENT: 사용자가 지불한 전체 결제 비율  
- TENURE: 이용자의 신용카드 서비스 이용기간

기술 통계 파악

- ONEOFF_PURCHASES 최대 구매 (40761.25)를 한 고객

missing value check

- `MINIMUM_PAYMENT`의 평균으로 missing value를 보충합니다.

- 누락된 요소를 `CREDIT_LIMIT`의 평균으로 보충합니다.

- 데이터에 중복된 항목이 있는지 봅니다.

- Customer ID는여기서 의미가 없으므로 drop 시킵니다.

## K-MEANS clustering model 작성

### ELBOW 방법을 사용하여 최적의 클러스터 수 찾기

- 엘보우 방법은 데이터 세트에서 적절한 클러스터 수를 찾는 데 도움이 되도록 설계된 휴리스틱 방법입니다.  
- 꺾은선형 차트가 팔처럼 보이면 팔의 "elbow"에 해당하는 k 값이 가장 좋습니다.  이 지점에서 이전에 비해 클러스터 내부의 데이터들이 더 이상 크게 뭉치지 않기 때문입니다.
- inertia_ 속성 : 가장 가까운 클러스터 중심까지의 샘플 거리의 제곱 합계. 클러스터 내부의 데이터들이 얼마나 뭉쳐있는지를 나타내는 값이므로, 값이 작을수록 클러스터가 잘 형성되었다고 볼 수 있습니다.

- data scaling

In [None]:
# 검사할 클러스터 수의 범위를 지정 (1부터 20까지)
# 지정된 범위의 클러스터 수에 대해 K-means 알고리즘을 적용하고, 
# 각 클러스터 수에 따른 inertia 값을 scores리스트에 추가합니다.
# 각 클러스터 수에 따른 inertia 값을 시각화

### K-MEANS METHOD 적용

- cluster 갯수를 8로 결정

클러스터의 중심점을 데이터프레임 형태로 변환합니다.   
이 데이터프레임은 각 클러스터의 중심점을 나타내는 값들을 포함하며, 각 열의 이름은 원본 데이터프레임(df)의 열 이름을 사용합니다.

- 각 value 는 scaling이 되어 있는 상태이므로 inverse transform을 통해 원래의 값으로 복원하면 각 cluster 의 의미 파악에 도움이 됩니다.

### 각 datapoint가 어떤 cluster에 속하는지 label 부여
- `fit_predict` 메소드는 각 데이터 포인트가 속하는 클러스터의 인덱스를 배열로 반환합니다. 이 배열에서 각 값은 해당 데이터 포인트가 속한 클러스터를 나타냅니다.

In [None]:
# KMeans 클러스터링 알고리즘을 이용하여 df_scaled 데이터에 대한 클러스터링을 수행합니다.

원본 데이터프레임(df)와 클러스터 할당 정보(y_kmeans) 및 고객 ID(cust_id)를 포함하는 새로운 데이터프레임을 결합하여 df_cluster라는 새로운 데이터프레임을 생성합니다.  
이를 통해 각 고객이 어떤 클러스터에 속하는지를 확인할 수 있습니다.

In [None]:
# 원본 데이터프레임(df)와 클러스터링 결과를 포함하는 새로운 데이터프레임을 결합합니다.

## Clustering한 결과를 2차원으로 시각화 하기 위해 PCA 방법 적용

In [None]:
# PCA(주성분 분석)를 이용해 다차원 데이터를 2차원으로 축소합니다.
# fit_transform 메소드를 사용해 스케일링된 데이터(df_scaled)에 PCA를 적용합니다.
# PCA 변환을 통해 얻어진 2차원 데이터의 주성분 점수를 저장합니다.

- 클러스터 레이블을 데이터 프레임에 연결

In [None]:
# PCA 데이터프레임에 labels에 저장된 클러스터 라벨을 'cluster'라는 새로운 컬럼으로 pca_df에 추가

### PCA 축소 결과와 클러스터 라벨을 이용해 산점도를 그립니다.

In [None]:
# 'hue' 매개변수에 'cluster'를 지정하여 각 클러스터를 다른 색으로 구분
# 'palette'를 통해 클러스터별로 사용할 색상을 지정

- cluster 4 에 속하는 고객 정보

### 각 column의 분포를 시각화

In [None]:
# df_cluster 데이터프레임에서 마지막 두 컬럼을 제외한 모든 컬럼을 선택합니다.
# 이 때, columns 변수는 선택된 컬럼의 이름들을 담고 있습니다.

In [None]:
# 'columns'에 저장된 각 컬럼에 대해 반복문을 실행
    # len(columns)만큼의 서브플롯을 생성하며, 각각의 서브플롯에 하나의 컬럼에 대한 히스토그램을 그립니다.
    # df_cluster 데이터프레임의 현재 컬럼에 대한 히스토그램을 그립니다.
    # 각 서브플롯의 제목을 현재 컬럼의 이름으로 설정