# CHAPTER 7. 군집분석

고객들을 집단으로 분류하고자 할 때 사용되는 다변량 분석 방법이 군집분석(Clustering Analysis)이다. 

- 판별분석과 군집분석의 다른 점은 판별분석은 조사된 데이터에 개체의 집단 변수가 이미 포함되어 있으나 군집분석은 개체들에 대해 측정된 변수에 의해 집단을 분류하게 되므로 집단의 개수와 집단의 종류(이름)는 분류 후 정해지게 된다. 

- 즉, 군집분석은 grouping 혹은 classification이라 불리기도 한다.
  측정변수가 2개인 경우 산점도(Scatter plot), 측정 변수가 3개인 경우는 Bubble Plot,
  측정변수가 4개 이상인 경우는 주성분 변수를 이용하여 2~3개의 주성분에 대한 산점도가   
  있다.

## 7.1 유사성과 비유사성

### 7.1.1 Euclidean 거리

두 개체 사이의 유사 정도를 거리로 표현할 수 있다. 거리가 멀면 유사성(Similarity)이 떨어진다. 다음 식은 r번째 개체와 s번째 개체의 
Euclidean 거리이다.

$\sqrt{ (A_x-B_x)^2 + (A_y-B_y)^2}$

### 7.1.3 Mahalanobis 거리

다음 식이 r번째 개체와 s번째 개체의 Mahalanobis거리이고 $\Sigma$는 within 군집 분산-공분산 행렬 추정치이다. 

## 7.2 군집 분석 방법

### 7.2.1 비계층적 방법

군집의 중심이 되는 seed 점들 집합을 선택하여 그 seed점과 유사성이 높은 개체들을 묶는 방법이다. 
 1. 사전에 군집수에 대한 예상이 필요하다.
 2. 개체 분류는 처음 선정한 seed 점들에 의해 영향을 많이 받고 분석자 마다 분류가 다를 가능성이 있다.
 3. 군집의 수와 seed 값의 위치의 결합 조건이 너무 많아 계산이 분류를 위한 계산이 용이하지 않다.

이 방법에 대한 SAS procedure은 FASTCLUS이다

## 7.5 예제

56개 피자 제품에 대해 MOSI, PROT, FAT, ASH, SODIUM, CARB, CAL를 조사하였다. 이를 이용항 56개 피자 제품을 분류하여 보자.

### 7.5.1 프로그램

In [7]:
data PIZZA;
Input ID MOIS PROT FAT ASH SODIUM CARB CAL;
cards;

14025    28.35    19.99    45.78    5.08     1.63      0.80    4.95
14164    28.70    20.00    45.12    4.93     1.56      1.25    4.91
14154    30.91    19.65    42.45    4.81     1.65      2.81    4.72
24082    31.02    19.05    42.29    5.27     1.71      2.37    4.66
24138    29.62    21.10    43.37    5.05     1.69      0.86    4.78
14047    49.99    13.35    29.20    3.52     1.05      3.94    3.32
14074    50.72    12.93    29.88    3.60     1.03      2.87    3.32
14149    54.96    14.26    22.99    3.19     0.90      4.60    2.82
14113    54.12    14.06    24.95    3.14     0.82      3.73    2.96
24118    51.75    13.18    28.38    3.04     0.86      3.65    3.23
14106    50.18    28.30    15.79    3.47     0.45      2.26    2.64
14014    48.15    27.98    18.69    3.58     0.48      1.70    2.87
14151    51.59    26.24    16.41    3.61     0.60      2.15    2.61
24058    49.27    27.42    17.42    3.05     0.33      2.84    2.78
34010    50.98    26.34    16.47    3.20     0.43      3.01    2.66
34003    49.57    25.46    20.79    3.04     0.37      1.14    2.94
14072    47.60    22.07    21.13    4.07     0.72      5.13    2.99
14107    46.88    21.71    23.60    4.59     0.75      3.22    3.12
14140    48.44    22.73    21.05    5.22     0.98      2.56    2.91
24030    48.01    21.31    21.05    4.01     0.73      5.62    2.97
24153    48.81    22.43    18.68    4.10     0.72      5.98    2.82
24123    46.28    21.51    25.44    4.58     0.60      2.19    3.24
24043    52.19    26.00    16.64    4.17     0.61      1.00    2.58
14099    35.14     8.05    15.77    1.38     0.41     39.66    3.33
14122    36.04     7.74    15.49    1.45     0.45     39.28    3.27
14126    37.78     8.30    13.05    1.64     0.49     39.23    3.08
34037    28.03     7.65    18.39    1.53     0.49     44.40    3.74
14118    29.79     8.17    14.35    1.49     0.46     46.20    3.46
14143    29.54     7.79    15.08    1.41     0.45     46.18    3.52
24035    27.65     7.78    17.30    1.29     0.40     46.25    3.72
24049    28.33     7.82    17.96    1.41     0.45     44.48    3.71
24103    30.15     8.06    12.23    1.50     0.47     48.06    3.35
34034    28.36     7.62    19.29    1.45     0.47     43.28    3.77
14153    28.83     8.26    20.10    1.37     0.42     41.44    3.80
14077    33.09     7.87    12.07    1.37     0.44     45.60    3.23
14166    27.56     8.25    14.65    1.45     0.46     48.09    3.57
24041    30.63     8.21    17.33    1.39     0.42     42.44    3.59
24033    28.55     8.25    17.30    1.48     0.47     44.42    3.66
24119    27.16     8.27    14.68    1.79     0.46     48.10    3.58
14100    33.44     7.45    18.49    1.39     0.40     39.23    3.53
34007    36.73     7.42    18.16    1.17     0.39     36.52    3.39
24100    34.61     7.17    17.88    1.29     0.40     39.05    3.46
24107    54.32    10.66    14.04    2.03     0.46     18.95    2.45
24111    52.90    10.19    14.35    2.02     0.49     20.54    2.52
14157    54.43     9.61    12.18    2.16     0.51     21.62    2.35
14067    54.87    10.78    13.65    2.08     0.50     18.62    2.40
34022    54.28    10.75    13.87    2.13     0.46     18.97    2.40
34021    54.54    10.40    13.22    2.10     0.47     19.74    2.40
34026    54.17    10.13    13.25    2.07     0.46     20.38    2.41
14043    47.84    10.16    14.56    2.27     0.54     25.17    2.72
24073    46.13    10.84    13.99    2.38     0.64     26.66    2.76
24071    46.22    11.26    15.93    2.47     0.63     24.12    2.85
24056    43.45    10.81    19.49    2.51     0.68     23.74    3.14
24070    45.21     9.39    16.23    2.14     0.55     27.03    2.92
24069    43.15    11.79    18.46    2.43     0.67     24.17    3.10
34039    44.55    11.01    16.03    2.43     0.64     25.98    2.92
;
run;

In [8]:
proc cluster data=pizza standard method=average ccc pseudo outtree=OUT1;
	var MOIS PROT FAT ASH SODIUM CARB CAL;
	ID ID;
run;

Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix
Unnamed: 0_level_1,Eigenvalue,Difference,Proportion,Cumulative
1,3.90915703,1.3858184,0.5585,0.5585
2,2.52333862,2.0808702,0.3605,0.9189
3,0.44246842,0.34408358,0.0632,0.9821
4,0.09838484,0.07180589,0.0141,0.9962
5,0.02657895,0.02651569,0.0038,1.0
6,6.327e-05,5.44e-05,0.0,1.0
7,8.87e-06,,0.0,1.0

0,1
Root-Mean-Square Total-Sample Standard Deviation,1

0,1
Root-Mean-Square Distance Between Observations,3.741657

Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History
Number of Clusters,Clusters Joined,Clusters Joined.1,Freq,Semipartial R-Square,R-Square,Approximate Expected R-Square,Cubic Clustering Criterion,Pseudo F Statistic,Pseudo t-Squared,Norm RMS Distance,Tie
55,34021,34026,2,0.0,1.0,.,.,2461,.,0.0203,
54,24107,34022,2,0.0,1.0,.,.,1552,.,0.0304,
53,14072,24030,2,0.0,1.0,.,.,1186,.,0.0366,
52,CL54,CL55,4,0.0,1.0,.,.,864,3.5,0.0386,
51,24049,24033,2,0.0,1.0,.,.,832,.,0.0402,
50,14118,14143,2,0.0,1.0,.,.,805,.,0.0418,
49,CL52,14067,5,0.0,1.0,.,.,761,1.8,0.0426,
48,34037,34034,2,0.0,1.0,.,.,758,.,0.0427,
47,14047,14074,2,0.0,1.0,.,.,757,.,0.0432,
46,14099,14122,2,0.0,1.0,.,.,728,.,0.0507,


> 1. STANDARD 옵션은 Standardized Euclidean Distance 거리에 의해 개체가 유사성을 측정한다. 각 분류 변수의 측정 단위가 다르므로 
STANDARD옵션을 사용하였다.
2. 군집과 개체를 묶어갈 때 Average neighbor(군집내의 개체 각각의 거리 평균) 방법을 사용하였다. (METHOD=AVERAGE)
 - AVERAGE : average linkage vs. CENTROID
 - COMPLETE : complete linkage(furthest neighbor, maximum method, diameter method, rank order analysis)
 - DENSITY : density linkage, which is a class of clustering methods using nonparametric probability density estimation. You must also specify one of the K=, R=, or HYBRID options
 - EML : maximum-likelihood hierarchical clustering
 - MEDIAN : Gower's median method
 - SINGLE : single linkage (nearest neighbor, minimum method, connectedness method, elementary linkage analysis)
 - WARD : Ward's minimum variance method
3. CCC는 Cubic Clustering Criterion 값을, PSEUDO는 Pseudo Hotelling's $T^2$ 검정 통계량을 출력하라는 것이다. 이 통계량은 군집 개수를 결정하는데 사용된다.
4. 군집 분석 결과가 TREE라는 SAS data에 저장된다.

### 7.5.2. 출력 결과

> 분류 변수 7개의 표본 상관 행렬로부터 주성분 분석 결과이다. 7개 변수의 총변동을 설명하려면 주성분 개수가 2개이면 충분하다. 개체 분류 후 주성분 변수의 산점도를 이용하여 분류 결과를 시각적으로 표현할 수 있다. 주성분 분석을 실시한 이유는 주성분 변수를 이용하여 산점도를 그리기 위해서이다. 이 산점도는 개체들을 군집화(그룹화) 한 후 각 개체 집단의 이를 부여하거나 군집 간 차이를 보는데 사용된다.

### 7.5.3. 개체 군집 과정

> 1. 개체 분류 순서가 나타난다. 제일 먼저 피자 34021 와 피자 34026 가 묶인다. 두 피자 (개체)의 유사성(Norm Distance): 즉 거리)은 0.0203 이다. 
2. 두 번째는 피자 24107 와 피자 34022 가 묶인다. 유사성은 0.0304 
3. 세 번째는 피자 14072 와 피자 24030 가 묶인다. 유사성은 0.0366 
4. 네 번째는 CL54(군집 54: 피자 24107, 파자 34022)와 군집 55(피자 34021, 피자 34026) 이 서로 묶인다. 
5. 다섯 번째는 피자 24049, 피자 24033 이 여섯 번째는 피자 14118, 피자 14143 이 묶인 다. 
6. 일곱 번째는 군집 52(군집 54, 군집 55)에 피자 14067 이 묶인다. 
…. 
7. FREQ 는 군집에 들어가는 개체의 개수를 나타낸다. 개체끼리 묶이는 경우는 2 개이고 집단과 집단이 묶이는 경우는 집단 내의 개체 수이다.

### 7.5.4. 군집 개수 결정

다음은 군집의 개수를 결정하기 위한 통계량 부분을 출력한 것이다. 위의 결과 바로 아래 출력된다. NCL 은 Number of Clustering 의 약어로 군집의 개수이다. 만약 유사성이 Tie(동점) 이 되지 않는 한 개체는 하나씩 분류된다. Tie 가 발생하면 제일 마지막 열(Tie)에 표시된다.

![NCL](data/NCL.png)