# Ch11-2 계층적 군집화

개별 샘플을 군집으로 간주하여 거리가 가장 가까운 두 군집을 순차적으로 묶는 방식으로 큰 군집을 생성. 군집이 만들어지는 과정에서, 가장 적합한 결과를 고르면 된다. 순차적으로 묶는 방식으로 군집을 만들어가는 것을 계층적 군집화라고 한다.  

## 군집 간 거리 : 
### 최단 연결법

이전 시간에 배웠던 것은 엄밀히 말하면 ‘샘플 간’ 거리를 재는 것이었고 이것은 군집간.  
결국 샘플 간 거리를 확장한 것과 같다.  

- 유독 가깝게 있는 값이 있다면 그것으로 선정될 수 있기 때문에 이상치에 민감하다.  
- 또한 계산량이 많은 이유는, 샘플이 n개와 m개가 있다면 실제로는 $n\times m$번의 거리를 계산하고 가장 짧은 것을 고르는 방식이기 때문이다.  

### 최장 연결법
- 군집 내 가장 멀리 있는 것끼리 연결하는 방법이다.  

### 평균 연결법
- 각 데이터포인트 끼리의 거리를 구하고 전체 거리의 평균을 구한다.  
- 상대적으로 이상치에는 둔감하지만 계산량은 많은 편이다.  

### 🧪평균 연결법
- 각 군집 내 평균을 구하고, 해당 평균을 중심으로 여겨 중심 간 거리를 계산하는 방식이다.  
- 이상치에 둔감하고 계산량이 적은 편이라서 굉장히 많이 쓰이는 방법이다.  

### 🧪와드 연결법
- 사이킷런에 있는 계층 군집화 함수의 default 값으로 쓰일 만큼 자주 사용되는 방식이다.  
- 계산량이 매우 많다는 단점이 있다.  
- 장점으로는 군집화가 되었을 때의 효과까지 측정할 수 있다는 것이다.  
- $r_{1,2}$ 는 $r_1$과 $r_2$가 함께 묶였을 때 중심이되는 위치이다.
- 수식: $\Sigma$ 군집별(군집 내 중심에서부터 각 샘플들로의 거리의 합) - (새 중심이 되는 r로부터의 새 군집 내 각 샘플들로의 거리의 합)
- 군집 크기를 비슷하게 만드는 효과가 있어서 자주 사용된다.
    - 군집의 크기가 작은 군집일수록 다른 군집과의 거리가 짧게 나오는 경향이 있다. 그래서 일반적으로 다른 방법으로는 군집이 비정상적으로 크게 묶이는 경우가 생기는데, 군집이라는 개념 특성상 비슷한 크기로 묶이는 것이 해석하기 좋다.

## 🧪덴드로그램
- 군집이 묶이는 과정이 그려지는 그림이다.  
- 맨 아래는 샘플(이자 군집)이 나오고, 가장 가까운 것끼리 묶인다. 그리고 왼쪽의 거리별로 어디까지 묶이는 지를 볼 수 있다. 끝까지 가면 모든 아이들이 하나로 묶인다.

- 장점1: 계층 군집화 알고리즘을 사용해서 군집이 만들어지는 과정을 한눈에 볼 수 있다.  
- 장점2: 사용자가 설정하는 기준선에 따라 군집 개수를 정할 수 있다. 기준선 C1, C2에 각각 만나는 샘플들은 같이 군집으로 묶인다.  
- 단점: 샘플 수가 많은 경우에는 해석이 불가능할 정도로 복잡해진다.      
    - 사실 군집화를 하는 경우는 샘플수가 100개 이상인 경우가 흔한데, 샘플 수가 많으면 해석이 불가능할 정도가 되어버린다. 그림은 7000개 정도 되던 고객데이터이다.  
    - 그래서 실제로 덴드로그램을 그려서 군집수를 결정하는 경우는 극히 드물다.
    

## 계층 군집화의 장단점

- 장점 1: 그러나 그마저도 쉽지 않다.
- 장점 2: 샘플들 간의 거리, 즉 위치는 몰라도 거리만 알면 군집화를 할 수 있다.
    - 예를 들면 시퀀스 데이터처럼 거리행렬만 주어지거나 데이터나 수치로 표현하기 어려운 데이터의 경우가 있다. 특징들로 표현하기 어려운 경우 군집화를 해야할 때.
- 장점 3: k-means 군집화의 경우 유클리디안 거리만 사용할 수 있다. 하지만 여기는 다양한 거리척도를 사용할 수 있다.
- 장점 4: 같은 데이터면 같은 output이 나온다. k-means는 수행할 때마다 다를 수 있다.
- 단점 1: 계산량이 상대적으로 많아서 오래 걸린다.
- 단점 2: 사용자가 직접 군집 개수를 정하기 쉽지 않다. 특히 샘플수가 많으면 더욱 힘들어진다. 또 거리가 같으면 해당 작업을 건너 뛰거나 임의로 결정될 경우도 있을 것이다. 그래서 군집개수 설정에 제약이 있다.

# 실습 : `sklearn.cluster.AgglomerativeClustering`


### 주요 입력

- `n_clusters` : 군집 개수  
- `affinity` : 거리 측정 척도 `{”Euclidean”, “manhattan”, “cosine”, “precomputed”}`
    - linkage가 `ward`로 입력되면(와드 연결법) 유클리디안만 사용가능 (와드 연결법은 각 샘플들의 중심점이 필요. 그러나 중심점 자체가 유클리드 기하에서 정의되는 개념이기 때문에 한정됨. 참고로 중심 연결법은 사이킷런에서 정의되지 않는다.)  
    - `precomputed`: 거리 혹은 유사도 행렬을 입력으로 하는 경우에 설정하는 값(데이터 값 자체가 아닌 거리를 계산한 후 넣는 데이터. 많이 씀.)  
- `linkage` : 군집 간 거리 연결법 `{”ward”, “complete”, “average”, “single”}`
    - complete : 최장 연결법  
    - average : 평균 연결법  
    - single : 최단 연결법  

### class의 메서드
- `fit(X)` : 데이터 X에 대한 군집화 모델 학습  
- `fit_predict(X)`: 데이터 X에 대한 군집화 모델 학습 및 라벨 반환 (속하는 군집 라벨)

### class 속성

- `labels_` : fitting한 데이터에 있는 샘플들이 속한 군집 정보 (ndarray형태로 반환)  

# Ch11-2 계층적 군집화 실습

In [1]:
import pandas as pd
import numpy as np
from scipy.stats import *

import os
os.chdir(r"/Users/Angela/Desktop/과속대학쿠쿠루/2. 탐색적 데이터 분석/데이터")

print(pd.__version__)
print(np.__version__)

1.4.1
1.22.4


## 고객 특성에 따른 군집화

고객들의 특성을 적어놓은 실습 데이터이다.  


In [2]:
df = pd.read_csv("Telco_customer_info.csv")
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65


### customerID
고유값이고, 특징으로 사용할 수 없음. 유사도를 측정할 수 없고 측정한다 하더라도 의미가 없다.  
그래서 인덱스로 설정한다.

In [3]:
df.set_index('customerID', inplace = True)
df.head()

Unnamed: 0_level_0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
customerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85
5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5
3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15
7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75
9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65


### 컬럼 더미화

판다스의 매서드를 이용하여 더미화 한다.  
drop_first로 더미화 한 결과의 첫번째는 지우도록 한다.  

In [4]:
df = pd.get_dummies(df, drop_first = True)
df.head()

Unnamed: 0_level_0,SeniorCitizen,tenure,MonthlyCharges,TotalCharges,gender_Male,Partner_Yes,Dependents_Yes,PhoneService_Yes,MultipleLines_No phone service,MultipleLines_Yes,...,StreamingTV_No internet service,StreamingTV_Yes,StreamingMovies_No internet service,StreamingMovies_Yes,Contract_One year,Contract_Two year,PaperlessBilling_Yes,PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check
customerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
7590-VHVEG,0,1,29.85,29.85,0,1,0,0,1,0,...,0,0,0,0,0,0,1,0,1,0
5575-GNVDE,0,34,56.95,1889.5,1,0,0,1,0,0,...,0,0,0,0,1,0,0,0,0,1
3668-QPYBK,0,2,53.85,108.15,1,0,0,1,0,0,...,0,0,0,0,0,0,1,0,0,1
7795-CFOCW,0,45,42.3,1840.75,1,0,0,0,1,0,...,0,0,0,0,1,0,0,0,0,0
9237-HQITU,0,2,70.7,151.65,0,0,0,1,0,0,...,0,0,0,0,0,0,1,0,1,0


In [5]:
df.columns

Index(['SeniorCitizen', 'tenure', 'MonthlyCharges', 'TotalCharges',
       'gender_Male', 'Partner_Yes', 'Dependents_Yes', 'PhoneService_Yes',
       'MultipleLines_No phone service', 'MultipleLines_Yes',
       'InternetService_Fiber optic', 'InternetService_No',
       'OnlineSecurity_No internet service', 'OnlineSecurity_Yes',
       'OnlineBackup_No internet service', 'OnlineBackup_Yes',
       'DeviceProtection_No internet service', 'DeviceProtection_Yes',
       'TechSupport_No internet service', 'TechSupport_Yes',
       'StreamingTV_No internet service', 'StreamingTV_Yes',
       'StreamingMovies_No internet service', 'StreamingMovies_Yes',
       'Contract_One year', 'Contract_Two year', 'PaperlessBilling_Yes',
       'PaymentMethod_Credit card (automatic)',
       'PaymentMethod_Electronic check', 'PaymentMethod_Mailed check'],
      dtype='object')

### AgglomerativeClustering 로 클러스터 만들기
이 함수는 군집화를 수행할 수 있는 모듈을 반환한다. 이것 자체로 군집화를 하는 것은 아니다.  
군집 3개로 와드 연결법을 수행하는 모듈을 셋팅하는데,  
`fit()` 을 사용하여 학습을 시킨다.

In [6]:
from sklearn.cluster import AgglomerativeClustering
clusters = AgglomerativeClustering(n_clusters = 3,
                                  affinity = 'euclidean',
                                  linkage = 'ward').fit(df)

### 라벨 확인 및 데이터 라벨링
학습이 되지 않으면 `labels_` 를 사용할 수 없다.  

결과를 바탕으로 군집을 라벨링 한 후, 군집의 특성을 보기 위해 집계함수를 사용한다.    

In [7]:
df['군집정보'] = clusters.labels_

In [8]:
df['군집정보'].head()

customerID
7590-VHVEG    2
5575-GNVDE    1
3668-QPYBK    2
7795-CFOCW    1
9237-HQITU    2
Name: 군집정보, dtype: int64

In [9]:
df.groupby(['군집정보'])[['MonthlyCharges', 'TotalCharges']].mean()

Unnamed: 0_level_0,MonthlyCharges,TotalCharges
군집정보,Unnamed: 1_level_1,Unnamed: 2_level_1
0,92.846384,5615.733243
1,65.558747,2192.519269
2,48.428814,444.712194


In [10]:
df.groupby(['군집정보'])[['SeniorCitizen', 'StreamingTV_Yes']].mean()

Unnamed: 0_level_0,SeniorCitizen,StreamingTV_Yes
군집정보,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.213708,0.744738
1,0.181723,0.390078
2,0.121936,0.176471


#### 해석
군집별로 특성을 확인해본 결과 군집 0은 월별 요금을 많이 내고, 토탈도 많다.  
`'SeniorCitizen', 'StreamingTV_Yes'`는 이진 변수이기 때문에 일종의 비율로 표시된다.  
0번 군집은 상대적으로 고령 고객이 많고 스트리밍 서비스를 많이 이용한다.  
스트리밍 서비스를 사용하고 있는 사람들은, 쓰고있기 때문에 월별 요금이 많이 나올 수도 있고, 어쩌면 디폴트로 사용하고 있을 뿐일 수도 있다.  
마지막에는 각각에 이름을 붙여주고, 군집에 따라 도메인 지식을 활용하여 마케팅이나 서비스 기획을 할 수 있다. 군집화 자체보다 훨씬 더 중요한, 가장 중요한 부분. 


## 구매기록 기준 고객 군집화
고객별 도서 구매 기록을 담은 데이터이다.

In [13]:
df = pd.read_csv("베스트셀러_도서구매기록.txt", sep = "\t", encoding = "cp949")
df.head()

Unnamed: 0,회원번호,책제목
0,75111,정글만리 1
1,48022,정글만리 1
2,3063,해커스 토익 Reading
3,84128,뱃살부터 빼셔야겠습니다
4,77611,장하준의 경제학 강의


### pd.crosstab 을 활용하여 회원 번호 별 책 이진변수 데이터 만들기
카이제곱 검정을 할 때처럼 인덱스를 회원번호를 넣고, 컬럼으로 책 제목을 넣는다.  
값은 구매 여부(구매 횟수의 합)가 될 것이다.  

In [14]:
matrix_df = pd.crosstab(index = df['회원번호'], columns = df['책제목'])
matrix_df.head()

책제목,1cm+,21세기 자본,EBS FM 라디오 고교 영어듣기 (2014년),EBS N제 국어영역 국어 270제 A형 (2014년),EBS N제 국어영역 국어 270제 B형 (2014년),EBS N제 영어영역 영어 280제 (2014년),EBS 수능완성 국어영역 국어 A형 유형편+실전편 (2014년),EBS 수능완성 국어영역 국어 B형 유형편+실전편 (2014년),EBS 수능완성 수학영역 기하와 벡터 (2014년),EBS 수능완성 수학영역 미적분과 통계 기본 유형편+실전편 A형 (2014년),...,정글만리 3,제3인류 3,창문 넘어 도망친 100세 노인,책은 도끼다,"총, 균, 쇠",칼 비테의 자녀교육 불변의 법칙,코스모스,해커스 토익 Listening,해커스 토익 Reading,해커스 토익 보카 Vocabulary
회원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
808,0,0,1,0,1,1,0,3,0,1,...,0,0,1,0,0,0,0,0,0,0
1101,0,0,1,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
1479,0,0,1,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1805,0,0,1,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
2011,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### 군집화 모델 
군집화 모델을 인스턴스화 해서 학습시킨다.

희소한 데이터이다. 대부분 0으로 이루어진 데이터이기 때문에 `jaccard`를 사용한다.  
이때 이진 데이터가 아닌 데이터(값이 3인 데이터)가 존재하지만, `jaccard`는 1 이상의 데이터를 모두 1 취급하기 때문에 문제가 되지는 않는다.  
이때 자카드이기 때문에 `linkage` 는 `ward`를 쓸 수 없기 때문에 `average`를 사용한다.

In [15]:
# 군집화 모델 인스턴스화 및 학습
from sklearn.cluster import AgglomerativeClustering as AC
clustering_model = AC(n_clusters = 10,
                      affinity = "jaccard",
                      linkage = "average")
clustering_model.fit(matrix_df)

AgglomerativeClustering(affinity='jaccard', linkage='average', n_clusters=10)

### 라벨 추적 및 데이터프레임 생성

보기 좋게 데이터 프레임으로 바꾸는데, 회원 ID를 바탕으로 소속 군집을 값으로 갖는 데이터 프레임을 새로 만든다. 

In [16]:
cluster_labels = clustering_model.labels_
cluster_labels

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [17]:
# 회원별 소속 군집 입력 및 확인
cluster_info = pd.DataFrame({"회원ID":matrix_df.index, 
                             "소속군집":cluster_labels})
cluster_info.head()

Unnamed: 0,회원ID,소속군집
0,808,0
1,1101,0
2,1479,0
3,1805,0
4,2011,0


In [18]:
cluster_info['소속군집'].value_counts() # 대다수가 0번 군집에 속함

0    665
1     12
2      6
3      4
4      2
8      2
7      1
9      1
5      1
6      1
Name: 소속군집, dtype: int64

대부분 나눌만한 기준이 마땅치 않음을 알 수 있으며, ward를 사용할 수 없었어서 한 곳에 샘플이 몰리는 상황도 함께 발생한 것을 알 수 있다. 

### 원 데이터셋에 라벨 붙이기

left_index를 살리고, `cluster_info`에는 회원 ID가 따로 컬럼으로 있기 때문에 right_on 으로 이어준다.  


In [19]:
matrix_df_with_cluster_info = pd.merge(matrix_df, cluster_info, 
                                       left_index = True, right_on = '회원ID')
matrix_df_with_cluster_info.head()

Unnamed: 0,1cm+,21세기 자본,EBS FM 라디오 고교 영어듣기 (2014년),EBS N제 국어영역 국어 270제 A형 (2014년),EBS N제 국어영역 국어 270제 B형 (2014년),EBS N제 영어영역 영어 280제 (2014년),EBS 수능완성 국어영역 국어 A형 유형편+실전편 (2014년),EBS 수능완성 국어영역 국어 B형 유형편+실전편 (2014년),EBS 수능완성 수학영역 기하와 벡터 (2014년),EBS 수능완성 수학영역 미적분과 통계 기본 유형편+실전편 A형 (2014년),...,창문 넘어 도망친 100세 노인,책은 도끼다,"총, 균, 쇠",칼 비테의 자녀교육 불변의 법칙,코스모스,해커스 토익 Listening,해커스 토익 Reading,해커스 토익 보카 Vocabulary,회원ID,소속군집
0,0,0,1,0,1,1,0,3,0,1,...,1,0,0,0,0,0,0,0,808,0
1,0,0,1,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,1101,0
2,0,0,1,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1479,0
3,0,0,1,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,1805,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,2011,0


### 군집에 따른 구매 이력 추적


In [20]:
matrix_df_with_cluster_info.groupby(['소속군집'])[matrix_df.columns].mean()

Unnamed: 0_level_0,1cm+,21세기 자본,EBS FM 라디오 고교 영어듣기 (2014년),EBS N제 국어영역 국어 270제 A형 (2014년),EBS N제 국어영역 국어 270제 B형 (2014년),EBS N제 영어영역 영어 280제 (2014년),EBS 수능완성 국어영역 국어 A형 유형편+실전편 (2014년),EBS 수능완성 국어영역 국어 B형 유형편+실전편 (2014년),EBS 수능완성 수학영역 기하와 벡터 (2014년),EBS 수능완성 수학영역 미적분과 통계 기본 유형편+실전편 A형 (2014년),...,정글만리 3,제3인류 3,창문 넘어 도망친 100세 노인,책은 도끼다,"총, 균, 쇠",칼 비테의 자녀교육 불변의 법칙,코스모스,해커스 토익 Listening,해커스 토익 Reading,해커스 토익 보카 Vocabulary
소속군집,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,0.063158,0.039098,0.440602,0.264662,0.354887,0.619549,0.312782,0.372932,0.288722,0.324812,...,0.099248,0.033083,0.156391,0.042105,0.097744,0.034586,0.010526,0.03609,0.039098,0.04812
1,0.5,0.5,0.0,0.0,0.0,0.083333,0.0,0.0,0.0,0.0,...,1.0,0.333333,1.166667,0.5,0.0,0.0,0.0,0.0,0.0,0.25
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,1.0,0.5,0.0,0.0,0.0,0.0
3,0.0,0.0,0.75,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,2.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


### 해석

- 0번 군집은 대부분 수험서 위주로 산것을 볼 수 있다.  
- 0.5 즉 50%확률로 샀다는 높은 수치는 해당 군집 안의 샘플이 적어서 발생한 수치이다.  

- 1이 넘은 것은 책을 여러번 샀던 사람이 있었기 때문에 나온 수치이다. 즉 한 명이 여러권 샀을 수 있기 때문에 0.06 같은 수치도 확실히 믿기는 어렵다.  

### idxmax(axis = 1) 로 행별로 맥스값 반환
행별로 최대값을 가지는 인덱스를 출력하는데, axis=1이기에 컬럼을 출력한다.  
즉 군집별로 최대값을 갖는 인덱스(axis = 0이 아니라 1이니까 사실 열벡터)를 출력한다.  
`max vs argmax`의 차이.  

In [21]:
# 군집별로 가장 많이 구매하는 책 목록 확인
matrix_df_with_cluster_info.groupby(['소속군집'])[matrix_df.columns].mean().idxmax(axis = 1)

소속군집
0    EBS 수능특강 영어영역 영어 (2014년)
1           창문 넘어 도망친 100세 노인
2                 나미야 잡화점의 기적
3              어떻게 원하는 것을 얻는가
4    EBS 수능특강 영어영역 영어 (2014년)
5                   강신주의 감정수업
6                    마법천자문 27
7                 꾸뻬 씨의 행복 여행
8              나는 까칠하게 살기로 했다
9                    월급쟁이 부자들
dtype: object