# CHAPTER 7. 군집분석

고객들을 집단으로 분류하고자 할 때 사용되는 다변량 분석 방법이 군집분석(Clustering Analysis)이다. 

- 판별분석과 군집분석의 다른 점은 판별분석은 조사된 데이터에 개체의 집단 변수가 이미 포함되어 있으나 군집분석은 개체들에 대해 측정된 변수에 의해 집단을 분류하게 되므로 집단의 개수와 집단의 종류(이름)는 분류 후 정해지게 된다. 

- 즉, 군집분석은 grouping 혹은 classification이라 불리기도 한다.
  측정변수가 2개인 경우 산점도(Scatter plot), 측정 변수가 3개인 경우는 Bubble Plot,
  측정변수가 4개 이상인 경우는 주성분 변수를 이용하여 2~3개의 주성분에 대한 산점도가   
  있다.

## 7.1 유사성과 비유사성

### 7.1.1 Euclidean 거리

두 개체 사이의 유사 정도를 거리로 표현할 수 있다. 거리가 멀면 유사성(Similarity)이 떨어진다. 다음 식은 r번째 개체와 s번째 개체의 
Euclidean 거리이다.

$\sqrt{ (A_x-B_x)^2 + (A_y-B_y)^2}$

### 7.1.3 Mahalanobis 거리

다음 식이 r번째 개체와 s번째 개체의 Mahalanobis거리이고 $\Sigma$는 within 군집 분산-공분산 행렬 추정치이다. 

## 7.2 군집 분석 방법

### 7.2.1 비계층적 방법

군집의 중심이 되는 seed 점들 집합을 선택하여 그 seed점과 유사성이 높은 개체들을 묶는 방법이다. 
 1. 사전에 군집수에 대한 예상이 필요하다.
 2. 개체 분류는 처음 선정한 seed 점들에 의해 영향을 많이 받고 분석자 마다 분류가 다를 가능성이 있다.
 3. 군집의 수와 seed 값의 위치의 결합 조건이 너무 많아 계산이 분류를 위한 계산이 용이하지 않다.

이 방법에 대한 SAS procedure은 FASTCLUS이다

## 7.5 예제

56개 피자 제품에 대해 MOSI, PROT, FAT, ASH, SODIUM, CARB, CAL를 조사하였다. 이를 이용항 56개 피자 제품을 분류하여 보자.

### 7.5.1 프로그램

In [9]:
data PIZZA;
Input ID MOIS PROT FAT ASH SODIUM CARB CAL;
cards;

14025    28.35    19.99    45.78    5.08     1.63      0.80    4.95
14164    28.70    20.00    45.12    4.93     1.56      1.25    4.91
14154    30.91    19.65    42.45    4.81     1.65      2.81    4.72
24082    31.02    19.05    42.29    5.27     1.71      2.37    4.66
24138    29.62    21.10    43.37    5.05     1.69      0.86    4.78
14047    49.99    13.35    29.20    3.52     1.05      3.94    3.32
14074    50.72    12.93    29.88    3.60     1.03      2.87    3.32
14149    54.96    14.26    22.99    3.19     0.90      4.60    2.82
14113    54.12    14.06    24.95    3.14     0.82      3.73    2.96
24118    51.75    13.18    28.38    3.04     0.86      3.65    3.23
14106    50.18    28.30    15.79    3.47     0.45      2.26    2.64
14014    48.15    27.98    18.69    3.58     0.48      1.70    2.87
14151    51.59    26.24    16.41    3.61     0.60      2.15    2.61
24058    49.27    27.42    17.42    3.05     0.33      2.84    2.78
34010    50.98    26.34    16.47    3.20     0.43      3.01    2.66
34003    49.57    25.46    20.79    3.04     0.37      1.14    2.94
14072    47.60    22.07    21.13    4.07     0.72      5.13    2.99
14107    46.88    21.71    23.60    4.59     0.75      3.22    3.12
14140    48.44    22.73    21.05    5.22     0.98      2.56    2.91
24030    48.01    21.31    21.05    4.01     0.73      5.62    2.97
24153    48.81    22.43    18.68    4.10     0.72      5.98    2.82
24123    46.28    21.51    25.44    4.58     0.60      2.19    3.24
24043    52.19    26.00    16.64    4.17     0.61      1.00    2.58
14099    35.14     8.05    15.77    1.38     0.41     39.66    3.33
14122    36.04     7.74    15.49    1.45     0.45     39.28    3.27
14126    37.78     8.30    13.05    1.64     0.49     39.23    3.08
34037    28.03     7.65    18.39    1.53     0.49     44.40    3.74
14118    29.79     8.17    14.35    1.49     0.46     46.20    3.46
14143    29.54     7.79    15.08    1.41     0.45     46.18    3.52
24035    27.65     7.78    17.30    1.29     0.40     46.25    3.72
24049    28.33     7.82    17.96    1.41     0.45     44.48    3.71
24103    30.15     8.06    12.23    1.50     0.47     48.06    3.35
34034    28.36     7.62    19.29    1.45     0.47     43.28    3.77
14153    28.83     8.26    20.10    1.37     0.42     41.44    3.80
14077    33.09     7.87    12.07    1.37     0.44     45.60    3.23
14166    27.56     8.25    14.65    1.45     0.46     48.09    3.57
24041    30.63     8.21    17.33    1.39     0.42     42.44    3.59
24033    28.55     8.25    17.30    1.48     0.47     44.42    3.66
24119    27.16     8.27    14.68    1.79     0.46     48.10    3.58
14100    33.44     7.45    18.49    1.39     0.40     39.23    3.53
34007    36.73     7.42    18.16    1.17     0.39     36.52    3.39
24100    34.61     7.17    17.88    1.29     0.40     39.05    3.46
24107    54.32    10.66    14.04    2.03     0.46     18.95    2.45
24111    52.90    10.19    14.35    2.02     0.49     20.54    2.52
14157    54.43     9.61    12.18    2.16     0.51     21.62    2.35
14067    54.87    10.78    13.65    2.08     0.50     18.62    2.40
34022    54.28    10.75    13.87    2.13     0.46     18.97    2.40
34021    54.54    10.40    13.22    2.10     0.47     19.74    2.40
34026    54.17    10.13    13.25    2.07     0.46     20.38    2.41
14043    47.84    10.16    14.56    2.27     0.54     25.17    2.72
24073    46.13    10.84    13.99    2.38     0.64     26.66    2.76
24071    46.22    11.26    15.93    2.47     0.63     24.12    2.85
24056    43.45    10.81    19.49    2.51     0.68     23.74    3.14
24070    45.21     9.39    16.23    2.14     0.55     27.03    2.92
24069    43.15    11.79    18.46    2.43     0.67     24.17    3.10
34039    44.55    11.01    16.03    2.43     0.64     25.98    2.92
;
run;

In [10]:
proc cluster data=pizza standard method=average ccc pseudo outtree=OUT1;
	var MOIS PROT FAT ASH SODIUM CARB CAL;
	ID ID;
run;

Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix
Unnamed: 0_level_1,Eigenvalue,Difference,Proportion,Cumulative
1,3.90915703,1.3858184,0.5585,0.5585
2,2.52333862,2.0808702,0.3605,0.9189
3,0.44246842,0.34408358,0.0632,0.9821
4,0.09838484,0.07180589,0.0141,0.9962
5,0.02657895,0.02651569,0.0038,1.0
6,6.327e-05,5.44e-05,0.0,1.0
7,8.87e-06,,0.0,1.0

0,1
Root-Mean-Square Total-Sample Standard Deviation,1

0,1
Root-Mean-Square Distance Between Observations,3.741657

Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History,Cluster History
Number of Clusters,Clusters Joined,Clusters Joined.1,Freq,Semipartial R-Square,R-Square,Approximate Expected R-Square,Cubic Clustering Criterion,Pseudo F Statistic,Pseudo t-Squared,Norm RMS Distance,Tie
55,34021,34026,2,0.0,1.0,.,.,2461,.,0.0203,
54,24107,34022,2,0.0,1.0,.,.,1552,.,0.0304,
53,14072,24030,2,0.0,1.0,.,.,1186,.,0.0366,
52,CL54,CL55,4,0.0,1.0,.,.,864,3.5,0.0386,
51,24049,24033,2,0.0,1.0,.,.,832,.,0.0402,
50,14118,14143,2,0.0,1.0,.,.,805,.,0.0418,
49,CL52,14067,5,0.0,1.0,.,.,761,1.8,0.0426,
48,34037,34034,2,0.0,1.0,.,.,758,.,0.0427,
47,14047,14074,2,0.0,1.0,.,.,757,.,0.0432,
46,14099,14122,2,0.0,1.0,.,.,728,.,0.0507,


> 1. STANDARD 옵션은 Standardized Euclidean Distance 거리에 의해 개체가 유사성을 측정한다. 각 분류 변수의 측정 단위가 다르므로 
STANDARD옵션을 사용하였다.
2. 군집과 개체를 묶어갈 때 Average neighbor(군집내의 개체 각각의 거리 평균) 방법을 사용하였다. (METHOD=AVERAGE)
 - AVERAGE : average linkage vs. CENTROID
 - COMPLETE : complete linkage(furthest neighbor, maximum method, diameter method, rank order analysis)
 - DENSITY : density linkage, which is a class of clustering methods using nonparametric probability density estimation. You must also specify one of the K=, R=, or HYBRID options
 - EML : maximum-likelihood hierarchical clustering
 - MEDIAN : Gower's median method
 - SINGLE : single linkage (nearest neighbor, minimum method, connectedness method, elementary linkage analysis)
 - WARD : Ward's minimum variance method
3. CCC는 Cubic Clustering Criterion 값을, PSEUDO는 Pseudo Hotelling's $T^2$ 검정 통계량을 출력하라는 것이다. 이 통계량은 군집 개수를 결정하는데 사용된다.
4. 군집 분석 결과가 TREE라는 SAS data에 저장된다.

### 7.5.2. 출력 결과

> 분류 변수 7개의 표본 상관 행렬로부터 주성분 분석 결과이다. 7개 변수의 총변동을 설명하려면 주성분 개수가 2개이면 충분하다. 개체 분류 후 주성분 변수의 산점도를 이용하여 분류 결과를 시각적으로 표현할 수 있다. 주성분 분석을 실시한 이유는 주성분 변수를 이용하여 산점도를 그리기 위해서이다. 이 산점도는 개체들을 군집화(그룹화) 한 후 각 개체 집단의 이를 부여하거나 군집 간 차이를 보는데 사용된다.

### 7.5.3. 개체 군집 과정

> 1. 개체 분류 순서가 나타난다. 제일 먼저 피자 34021 와 피자 34026 가 묶인다. 두 피자 (개체)의 유사성(Norm Distance): 즉 거리)은 0.0203 이다. 
2. 두 번째는 피자 24107 와 피자 34022 가 묶인다. 유사성은 0.0304 
3. 세 번째는 피자 14072 와 피자 24030 가 묶인다. 유사성은 0.0366 
4. 네 번째는 CL54(군집 54: 피자 24107, 파자 34022)와 군집 55(피자 34021, 피자 34026) 이 서로 묶인다. 
5. 다섯 번째는 피자 24049, 피자 24033 이 여섯 번째는 피자 14118, 피자 14143 이 묶인 다. 
6. 일곱 번째는 군집 52(군집 54, 군집 55)에 피자 14067 이 묶인다. 
…. 
7. FREQ 는 군집에 들어가는 개체의 개수를 나타낸다. 개체끼리 묶이는 경우는 2 개이고 집단과 집단이 묶이는 경우는 집단 내의 개체 수이다.

### 7.5.4. 군집 개수 결정

다음은 군집의 개수를 결정하기 위한 통계량 부분을 출력한 것이다. 위의 결과 바로 아래 출력된다. NCL 은 Number of Clustering 의 약어로 군집의 개수이다. 만약 유사성이 Tie(동점) 이 되지 않는 한 개체는 하나씩 분류된다. Tie 가 발생하면 제일 마지막 열(Tie)에 표시된다.

![NCL](image/NCL.png)

>1. CCC(Cubic Clustering Criterion, Searle; 1983) 값은 자료 수의 20%까지만 출력된다. CCC 값이 3 이상이고 갑자기 줄어드는 부분이면 적당하다. CCC 에 의하면 군집의 개 수는 4 개가 적당하다고 결론 내릴 수 있다. 
2. Hotelling’s 2 T 검정 통계량은 두 다변량 정규 분포 집단의 평균을 비교하는데 사용된 다. 이 개념을 이용하여 PST2(Pseudo Hotelling’s 2 T )는 두 군집을 하나로 합칠 수 있 는가를 알아보는 기준이 된다. PST2 값이 크다는 것은 군집간 거리가 멀다는 것을 의 미하므로 군집을 나누는 것이 좋다. 값이 적다는 것은 군집간 거리가 가깝다는 것으로 군집으로 합치는 것이 좋다. PST2 의 경우 NCL=6, NCL=3 인 경우 주변 값들보다 크므 로 이 값 바로 전의 군집 개수(NCL)가 적절하다. 즉 NCL=6 를 고르면 최적 군집의 개 수는 7 이고 NCL=3 를 고르면 최적 군집의 개수는 7 이다. 
3. PSF 는 Pseudo F 통계량으로 PST2 Pseudo Hotelling’s 2 T 검정 통계량과 유사하다. 그러나 일반적으로 CCC 와 PST2 에 의해 군집 수를 결정한다. 
4. CCC 에 의해서는 4 개, PST2 에 의해 4 개나 7 개가 적당하다.

### 7.5.5 Hierarchical Tree 다이어그램

In [48]:
proc tree data=out1 out=treeout nclusters=7;
    copy mois prot fat ash sodium carb cal;
    id id;
run;

In [12]:
proc sort data=treeout; by cluster;
proc print data=treeout;
	variables id cluster;
run;

Obs,ID,CLUSTER
1,34021,1
2,34026,1
3,24107,1
4,34022,1
5,14067,1
6,24111,1
7,14157,1
8,14072,2
9,24030,2
10,24153,2


> 군집 1 로 분류된 피자 7 개를 보고 군집의 이름을 붙이면 된다. 예를 들어 이 피자들이 2001 피자이면 군집 1 은 2001 피자 군집이라 이름 붙인다. 그러나 변수가 많은 경우 묶여 진 개체들을 보고 이름을 붙이는 것은 쉽지 않다. 그러므로 변수를 축약한 주성분 변수를 이용하여 군집에 대한 이름을 붙으면 편리하다.

### 7.5.7. 군집 이름 부여하기

개체 군집 결과를 위의 출력 형태보다는 그래프로 보면 이름 붙이기 더 쉬울 것이다. 개체 군집이 나타날 수 있도록 산점도를 그려 보자. 그런데 불행히도 각 피자에 대해 측정 변수 가 7 개(MOIS, PROT, FAT, ASH, SODIUM, CARB, CAL)이므로 하나의 산점도로는 표현할 수 없다. 그리고 군집 분석에서는 분류 변수(군집 분석에 이용되는 변수)를 선택한다는 것은 전혀 의미가 없다. 

유용한 그래프 산점도를 어떻게 그리지? 변수가 2 개라면 몰라도… 아 어떻게 하지. 고민하 지 말자. 우리는 변수의 개수를 축약하는 방법인 주성분 분석을 알고 있다. 주성분 분석에 의해 분류 변수를 축약하고 주성분 분석으로 산점도를 그리자. 주성분 개수가 2 개 이하이 면 더 말할 나위 없이 좋지만 3 개라도 산점도 2 개만 그리면 되니 별 문제는 없다.

In [13]:
title 'Scatter plot of Prin1*Prin2* NCL=7';
proc princomp data=pizza out=scores;
	var mois prot fat ash sodium carb cal;
run;

proc sort data=treeout; by id;
proc sort data=scores; by id;
data comb; merge scores treeout; by id;
proc plot data=comb;
	plot prin1*prin2 = cluster /vpos=25 hpos=50;
run;

0,1
Observations,56
Variables,7

Simple Statistics,Simple Statistics,Simple Statistics,Simple Statistics,Simple Statistics,Simple Statistics,Simple Statistics,Simple Statistics
Unnamed: 0_level_1,MOIS,PROT,FAT,ASH,SODIUM,CARB,CAL
Mean,41.70642857,14.0175,20.11410714,2.692678571,0.6566071429,21.48714286,3.230357143
StD,10.08730569,6.87700391,8.54278064,1.260323899,0.3552887521,17.7911424,0.642888268

Correlation Matrix,Correlation Matrix,Correlation Matrix,Correlation Matrix,Correlation Matrix,Correlation Matrix,Correlation Matrix,Correlation Matrix
Unnamed: 0_level_1,MOIS,PROT,FAT,ASH,SODIUM,CARB,CAL
MOIS,1.0,0.3906,-0.2425,0.2701,-0.1356,-0.6217,-0.8123
PROT,0.3906,1.0,0.3761,0.8144,0.3482,-0.8458,-0.0583
FAT,-0.2425,0.3761,1.0,0.7248,0.9314,-0.5378,0.7615
ASH,0.2701,0.8144,0.7248,1.0,0.7708,-0.886,0.2346
SODIUM,-0.1356,0.3482,0.9314,0.7708,1.0,-0.558,0.6449
CARB,-0.6217,-0.8458,-0.5378,-0.886,-0.558,1.0,0.1024
CAL,-0.8123,-0.0583,0.7615,0.2346,0.6449,0.1024,1.0

Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix
Unnamed: 0_level_1,Eigenvalue,Difference,Proportion,Cumulative
1,3.90915703,1.3858184,0.5585,0.5585
2,2.52333862,2.0808702,0.3605,0.9189
3,0.44246842,0.34408358,0.0632,0.9821
4,0.09838484,0.07180589,0.0141,0.9962
5,0.02657895,0.02651569,0.0038,1.0
6,6.327e-05,5.44e-05,0.0,1.0
7,8.87e-06,,0.0,1.0

Eigenvectors,Eigenvectors,Eigenvectors,Eigenvectors,Eigenvectors,Eigenvectors,Eigenvectors,Eigenvectors
Unnamed: 0_level_1,Prin1,Prin2,Prin3,Prin4,Prin5,Prin6,Prin7
MOIS,0.072468,-0.59144,0.457949,-0.201367,-0.005564,0.557763,0.289051
PROT,0.376602,-0.287747,-0.724057,-0.064028,0.400693,0.073813,0.284625
FAT,0.439164,0.281253,0.210489,-0.51252,-0.193821,-0.374282,0.493351
ASH,0.486412,-0.108591,-0.093574,0.552362,-0.656636,0.071263,0.038761
SODIUM,0.440202,0.22713,0.432383,0.449484,0.604676,-0.001702,-0.002599
CARB,-0.431373,0.319985,-0.07443,0.345541,-0.006053,0.197706,0.739908
CAL,0.208799,0.567914,-0.143065,-0.257169,-0.070763,0.706538,-0.207532


>HPOS=50 옵션은 산점도 그림 크기를 줄이는 옵션으로 그래프를 수평(H)은 50%로 VPOS=50 옵션은 수직(V)은 25% 크기로 축소하여 그린다.

>주성분 분석(상관 계수 이용: 측정 단위가 다르므로) 결과 중 주성분 계수를 출력한 것이다. 페이지 152 에서 우리는 주성분 변수 2 개로 전체 6 개 변수의 변동 중 91.8%가 설명됨을 알았다. Prin1 은 영양소(PROT, FAT, ASH, SOLDIUM, CARB(탄수화물 반대 작용)) 함유량 주 성분이고 Print2 는 수분과 칼로리(서로 반대 개념) 주성분이다. 그래서 주성분 1 을 영양소 변수, 주성분 2 를 칼로리 변수로 이름 붙였다.

> 주성분 변수에 이름을 붙이는 이유는 개체(군집)에 대한 산점도를 그린 후 주성분 변수에 의해 군집에 적절한 이름을 부여하기 위함이다. 다시 강조하지만 군집 분석에는 어디에도 집단을 나타내는 변수가 측정(조사)되지 않는다. 군집 분석 후 각 개체 군집에 적절한 이름 이 부여되는 것이다.

> 산점도의 점들은 군집 번호로 표시되었으므로 이를 이용하여 각 군집에 적절한 이름을 부 여하면 된다. 만약 군집을 4 개로 분류한다면 원과 같이 개체가 분류될 것이다. 위의 산점도 에 의하면 7 개 집단보다는 4 개 집단으로 하는 것이 더 적절할 것이다. 파란 색 직선에 의 해 각 집단의 이름 부여하기도 4 개 집단이 더 적절할 것이다.



## 7.6. Faster Cluster 군집 분석


Faster clustering 방법은 앞 절에서 살펴보았던 계층적 군집(hierarchical clustering) 방법과는 [유사성(거리)이 가까운 개체들을 차례로 군집으로 묶어가는 방법] 달리 비계층적 군집(nonhierarchical clustering) 방법이다. 우선 seed 를 정하고 이 seed 에 가까운 개체들을 군집으 로 묶는다. 그러므로 군집의 개수를 분석 전에 정해야 하며(number of clusters) 군집의 크기 (size: 이는 radius 로 설정)를 정해 주어야 한다. 비계층적 군집 방법의 순서는 다음과 같으 며 SAS 에서는 FASTCLUS 에서 이 방법으로 군집 분석할 수 있다. 

Faster Cluster 방법을 이해하기 위하여 예를 들어 설명하기로 한다.



1. Faster clustering 방법은 앞 절에서 살펴보았던 계층적 군집(hierarchical clustering) 방법과는 [유사성(거리)이 가까운 개체들을 차례로 군집으로 묶어가는 방법] 달리 비계층적 군집(nonhierarchical clustering) 방법이다. 우선 seed 를 정하고 이 seed 에 가까운 개체들을 군집으 로 묶는다. 그러므로 군집의 개수를 분석 전에 정해야 하며(number of clusters) 군집의 크기 (size: 이는 radius 로 설정)를 정해 주어야 한다. 비계층적 군집 방법의 순서는 다음과 같으 며 SAS 에서는 FASTCLUS 에서 이 방법으로 군집 분석할 수 있다. Faster Cluster 방법을 이해하기 위하여 예를 들어 설명하기로 한다.

2. 개체들을 가장 가까운 군집 seeds 에 묶는다. 만약 이 경우 DRIFT 옵션을 쓰면 seed 가 임시 군집의 평균으로 옮겨가며 개체를 묶는다.

3. 일단 개체 군집이 끝나면 군집 개체의 평균을 SEED 로 하여 개체를 다시 분류한다.

4. 군집이 끝나면 STEP 2)-STEP3)을 반복한다. 다음 STEP 에서는 SEED 가 빨강에서 초록색으로 옮겨간다. 그리고 위의 STEP 을 반복한다. MAXITER 옵션이 없으면 개 체가 군집 분류가 이전과 같을 때까지 반복한다. MAXITER=3 이라 하면 위의 STEP 을 3 번 반복한다.

Non-hierarchical clustering 방법의 또 하나의 결점은 자료 입력 순서에 따라 군집이 달라지 므로 RANDOM 이라는 옵션을 사용해 자료 입력 순서를 바꾸어 가며 군집하게 한다. 이처 럼 FASTCLUS 방법도 하나의 방법이 있는 것은 아니다. 군집 분류 결과의 산점도(변수가 3 개 이상인 경우는 주성분 분석을 이용하여 PRIN1, PRIN2 를 이용한다.) 살펴보고 군집 내 개체간 거리 분산이 작은 것들을 택하면 된다.


### 7.6.1. 예제 자료


Fisher 의 Iris(꽃) 자료[IRIS.TXT]이다. 이것에 대해 4 가지 특성을 조사하였다. 물론 이 꽃은 어떤 종인지 (VARIETY: S, C, V ► 3 종류) 이미 알고 있지만 종을 모른다고 가정하고 군집 분석을 실시해 보자.

- 꽃잎 길이(petal length), 꽃잎 넓이(petal width), 수술 길이(stamen length), 수술 넓이(stamen width)



In [14]:
proc import datafile = 'iris.xls' dbms=xls out=iris replace;
	getnames=yes;
run;

In [15]:
proc print data=iris;
run;

Obs,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width,group
1,50,33,14,2,Setosa
2,64,28,56,22,Virginica
3,65,28,46,15,Versicolor
4,67,31,56,24,Virginica
5,63,28,51,15,Virginica
6,46,34,14,3,Setosa
7,69,31,51,23,Virginica
8,62,22,45,15,Versicolor
9,59,32,48,18,Versicolor
10,46,36,10,2,Setosa


### 7.6.2. 변수 표준화


PROC CLUSTER와는 달리 FASTCLUS에는 변수(자료) 표준화 옵션이 없다. 그러므로 변수 측정 단위가 다르거나 분산 차이가 많으면 분석자가 직접 표준화 procedure를 사용하여 표준화해야 한다.

In [16]:
proc standard data=iris out=iris0 mean=0 std=1;
	var Sepal_Length Sepal_Width Petal_Length Petal_Width;
run;

### 7.6.3. 주성분 분석



Fast cluster 방법을 사용하려면 군집의 개수에 대한 정보가 필요하다. IRIS 자료처럼 집단의 수(3 개: S, C, V)를 알고 있다면 이를 사용하면 되지만 그렇지 않은 경우는 변수들간의 산점 도를 그려 개체 분류 개수를 예상하면 된다. 그러나 변수가 많은 경우는 산점도를 동시에 고려한 집단 분류는 쉬운 문제가 아니므로 주성분 분석을 이용하여 2~3 개 정도의 주성분 변수간 산점도를 그리면 된다.



In [17]:
proc princomp data=iris0 out=iris_prin;
	var Sepal_Length Sepal_Width Petal_Length Petal_Width;
run;

0,1
Observations,150
Variables,4

Simple Statistics,Simple Statistics,Simple Statistics,Simple Statistics,Simple Statistics
Unnamed: 0_level_1,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
Mean,0.0,0.0,0.0,0.0
StD,1.0,1.0,1.0,1.0

Correlation Matrix,Correlation Matrix,Correlation Matrix,Correlation Matrix,Correlation Matrix,Correlation Matrix
Unnamed: 0_level_1,Unnamed: 1_level_1,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
Sepal_Length,Sepal_Length,1.0,-0.1176,0.8718,0.8179
Sepal_Width,Sepal_Width,-0.1176,1.0,-0.4284,-0.3661
Petal_Length,Petal_Length,0.8718,-0.4284,1.0,0.9629
Petal_Width,Petal_Width,0.8179,-0.3661,0.9629,1.0

Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix,Eigenvalues of the Correlation Matrix
Unnamed: 0_level_1,Eigenvalue,Difference,Proportion,Cumulative
1,2.91849782,2.00446735,0.7296,0.7296
2,0.91403047,0.7672736,0.2285,0.9581
3,0.14675688,0.12604204,0.0367,0.9948
4,0.02071484,,0.0052,1.0

Eigenvectors,Eigenvectors,Eigenvectors,Eigenvectors,Eigenvectors,Eigenvectors
Unnamed: 0_level_1,Unnamed: 1_level_1,Prin1,Prin2,Prin3,Prin4
Sepal_Length,Sepal_Length,0.521066,0.377418,-0.719566,-0.261286
Sepal_Width,Sepal_Width,-0.269347,0.923296,0.244382,0.12351
Petal_Length,Petal_Length,0.580413,0.024492,0.142126,0.801449
Petal_Width,Petal_Width,0.564857,0.066942,0.634273,-0.523597


> 주성분 1 은 (SL, PL, PW: 꽃잎의 크기), 주성분 2 는 SW(수술의 넓이)에 의해 결정된다. VAXIS 는 Y 축, HAXIS 는 X 축에 대한 설정이다. VPOS 는 가로 25%, HPOS 세로 50% 크 기의 PLOT 을 그리라는 명령이다.



In [19]:
proc plot;
	plot prin2*prin1 = '*'/vaxis=-4 to 4 by 2 haxis=-4 to 2 by 2
	vpos=25 hpos=50;
run;

> 위의 주성분 산점도를 살펴보면 PRIN1 에 의해 군집이 잘 나누어 진다. 즉 꽃잎의 크기(넓 이, 길이)가 개체를 분류하는데 결정적 역할을 하고 있음을 알 수있다.



### 7.6.4. Fast clustering 군집 분석



비계층적 군집 방법을 사용하되 최대 군집의 개수는 3 개로 하여 개체를 군집하여 보자. 주 성분 분석 결과 2 개 집단일 가능성이 높지만 우리는 이미 집단이 3 개인지 알고 있고 예상 되는 집단보다는 1 나 정도 더 잡아 주는 것이 좋다. 왜냐하면 최대 군집 개수이므로…… 

주성분 분석 결과가 저장된 SAS data 자료(IRIS_PRIN)를 이용하여 군집 분석하면 이미 PRIN1, PRIN2 등 주성분 변수가 있으니 군집 분석 결과에 대한 산점도 그리는데 용이하다.


In [21]:
proc fastclus data=iris_prin  out=clus maxclusters=3;
	var Sepal_Length Sepal_Width Petal_Length Petal_Width;
run;

Initial Seeds,Initial Seeds,Initial Seeds,Initial Seeds,Initial Seeds
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,-0.535383973,1.933314633,-1.392399286,-1.048666795
2,2.483698581,1.703886472,1.496630966,1.050416031
3,-1.018437181,-2.425820418,-0.146150942,-0.261510735

0,1
Criterion Based on Final Seeds =,0.4817

Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary
Cluster,Frequency,RMS Std Deviation,Maximum Distance from Seed to Observation,Radius Exceeded,Nearest Cluster,Distance Between Cluster Centroids
1,50,0.4915,2.716,,3,3.0114
2,46,0.5075,2.1026,,3,1.8156
3,54,0.4621,1.9649,,2,1.8156

Statistics for Variables,Statistics for Variables,Statistics for Variables,Statistics for Variables,Statistics for Variables
Variable,Total STD,Within STD,R-Square,RSQ/(1-RSQ)
Sepal_Length,1.0,0.50704,0.746363,2.942639
Sepal_Width,1.0,0.69279,0.526489,1.111885
Petal_Length,1.0,0.2855,0.919586,11.435708
Petal_Width,1.0,0.35636,0.874711,6.98157
OVER-ALL,1.0,0.48619,0.766787,3.287934

0,1
Pseudo F Statistic =,241.66

0,1
Approximate Expected Over-All R-Squared =,0.35016

0,1
Cubic Clustering Criterion =,44.062

Cluster Means,Cluster Means,Cluster Means,Cluster Means,Cluster Means
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,-1.011191383,0.850413715,-1.30063009,-1.250703517
2,1.142175811,0.107864486,0.995422393,1.016191854
3,-0.036676262,-0.879304669,0.356334712,0.292413899

Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,0.425678186,0.8696804093,0.0983765764,0.1382581755
2,0.5950189589,0.5922951048,0.3649694483,0.4385620131
3,0.4948967917,0.5779864472,0.3225278796,0.413822662


> 1. RMS Std Deviation : 군집 내의 개체들간의 거리 평균 제곱근으로 작을수록 개체 군집화가 잘 된 것이다. 
2. Maximum Distance from Seed to Observation : 군집 내 개체 중 seed 와 거리가 가장 먼 개체와 seed 간 거리 
3. R-Square : 군집에 의해 변수를 예측할 때 결정 계수 
4. RSQ/(1-RSQ) : 군집에 의해 변수를 얼마나 잘 예측할 수 있나? 
5. Distance Between Cluster Centroids : 가장 가까이 있는 군집과 현재 군집의 중심(평균)간의 거리

> PL 이 개체들을 분류(군집)하는데 가장 큰 역할을 하고 있음을 알 수 있다. 그 다음이 PW 이다. 이는 주성분 변수 1 이 개체를 분류하는 역할을 하고 있음을 주성분 변수 산점도에서 알았다.

>각 군집에서 분류 변수들의 평균과 표준 편차 값이 출력되므로 이것에 의해 정보를 이용하 여 어떤 변수들에 의해 나누어 지고 있는지 알 수 있으므로 군집의 이름을 붙이는데 유용 하다.



In [45]:
proc plot data=clus;
	plot prin1*prin2=cluster /vpos=25 hpos=50;
run;

> 만약 최대 군집 개수를 2 개로 하였다면 빨간 점선으로 2 개의 개체 분류가 될 것이다.(A 는 꽃잎의 크기가 큰 군집, B 는 꽃잎의 크기가 작은 군집) 이 경우 주성분 변수 1, 2 의 산점도 에 의해 개체를 분류하는 것과 동일하다. 그러나 주성분 변수에 의해 개체를 분류하면 개체 의 ID 를 모르므로 군집 분석 방법을 사용하여 개체를 분류하고 개체의 이름을 부일 때 주 성분 산점도를 사용하는 것이 좋다.


### 7.6.5. 다른 옵션 사용 1


최대 군집 개수 3 개, SEED 는 매번 옮겨 가게(DRIFT), 최대 반복 수는 3 번



In [25]:
proc fastclus data=iris_prin out=clus0 random=1 drift maxclusters=3;
	var Sepal_Length Sepal_Width Petal_Length Petal_Width;
run;

Initial Seeds,Initial Seeds,Initial Seeds,Initial Seeds,Initial Seeds
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,-0.535383973,1.933314633,-1.392399286,-1.048666795
2,2.483698581,1.703886472,1.496630966,1.050416031
3,-1.018437181,-2.425820418,-0.146150942,-0.261510735

0,1
Criterion Based on Final Seeds =,0.4823

Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary
Cluster,Frequency,RMS Std Deviation,Maximum Distance from Seed to Observation,Radius Exceeded,Nearest Cluster,Distance Between Cluster Centroids
1,50,0.4915,2.6616,,3,2.9668
2,53,0.5148,2.3046,,3,1.808
3,47,0.4483,1.834,,2,1.808

Statistics for Variables,Statistics for Variables,Statistics for Variables,Statistics for Variables,Statistics for Variables
Variable,Total STD,Within STD,R-Square,RSQ/(1-RSQ)
Sepal_Length,1.0,0.51581,0.737516,2.809752
Sepal_Width,1.0,0.69541,0.522895,1.095976
Petal_Length,1.0,0.2862,0.919192,11.374966
Petal_Width,1.0,0.34216,0.884501,7.658049
OVER-ALL,1.0,0.48699,0.766026,3.273976

0,1
Pseudo F Statistic =,240.64

0,1
Approximate Expected Over-All R-Squared =,0.35016

0,1
Cubic Clustering Criterion =,43.922

Cluster Means,Cluster Means,Cluster Means,Cluster Means,Cluster Means
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,-1.011191383,0.850413715,-1.30063009,-1.250703517
2,1.048210272,0.03295685,0.949393271,0.983582026
3,-0.106288835,-0.941859549,0.31305662,0.221389968

Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,0.425678186,0.8696804093,0.0983765764,0.1382581755
2,0.617893378,0.5907451433,0.3635620119,0.4438701113
3,0.4749842704,0.5875664556,0.3194082992,0.361990075


> RMS 편차가 크므로 더 좋은 방법은 아니다.


In [42]:
proc plot data=clus0;
	plot prin1*prin2=cluster /vpos=25 hpos=50;
run;

> 군집결과도 달라짐을 알 수 있다

### 7.6.6. 다른 옵션 사용 2



군집의 반지름을 정해주는 방법으로 군집의 개수가 반지름에 의해 결정된다. 다음은 군집의 반지름을 2 으로 설정하여 한 결과이다.



In [33]:
proc fastclus data=iris_prin out=clus1 radius=2;
	var Sepal_Length Sepal_Width Petal_Length Petal_Width;
run;

proc plot data=clus1;
	plot prin1*prin2=cluster vpos=25 hpos=50;
run;

Initial Seeds,Initial Seeds,Initial Seeds,Initial Seeds,Initial Seeds
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,-1.018437181,0.55674567,-1.335751634,-1.311052148
2,0.672249049,-0.590395133,1.04344975,1.312801384
3,-0.293857369,-1.278679615,0.080439666,-0.130318059
4,2.242171976,1.703886472,1.666573922,1.312801384
5,-0.173094066,3.080455436,-1.279103982,-1.048666795
6,-1.622253692,-1.737535936,-1.392399286,-1.179859472

0,1
Criterion Based on Final Seeds =,0.4116

Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary
Cluster,Frequency,RMS Std Deviation,Maximum Distance from Seed to Observation,Radius Exceeded,Nearest Cluster,Distance Between Cluster Centroids
1,37,0.3125,1.2215,,5,1.5617
2,55,0.4682,1.9491,,3,1.7076
3,42,0.4413,1.7206,,2,1.7076
4,3,0.3153,0.6915,,2,2.1715
5,12,0.2998,0.8585,,1,1.5617
6,1,.,0.0,,1,2.3402

Statistics for Variables,Statistics for Variables,Statistics for Variables,Statistics for Variables,Statistics for Variables
Variable,Total STD,Within STD,R-Square,RSQ/(1-RSQ)
Sepal_Length,1.0,0.46024,0.795287,3.884881
Sepal_Width,1.0,0.52129,0.737375,2.807708
Petal_Length,1.0,0.27869,0.92494,12.322678
Petal_Width,1.0,0.34635,0.884067,7.625641
OVER-ALL,1.0,0.41267,0.835417,5.075963

0,1
Pseudo F Statistic =,146.19

0,1
Approximate Expected Over-All R-Squared =,0.61771

0,1
Cubic Clustering Criterion =,25.97

Cluster Means,Cluster Means,Cluster Means,Cluster Means,Cluster Means
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,-1.14572823,0.550544909,-1.309724335,-1.264957424
2,0.942319706,-0.110681707,0.885866282,0.919223354
3,-0.181720017,-0.978237976,0.281403955,0.188292727
4,2.121408674,1.550934365,1.496630966,1.356532276
5,-0.545447581,1.990671673,-1.264942069,-1.212657641
6,-1.622253692,-1.737535936,-1.392399286,-1.179859472

Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,0.3438703614,0.4941042196,0.0949724674,0.1390347233
2,0.5582481838,0.4902282600,0.3474407981,0.4516507126
3,0.4434263092,0.5963153841,0.3185372995,0.3538619704
4,0.4354182780,0.2649208205,0.1699429560,0.3301609958
5,0.2978556117,0.4903638133,0.1056334078,0.1384462811
6,.,.,.,.


군집의 크기가 반지름 2이하 되게 개체를 묶었으므로 군집의 수가 7개가 되었다. 군집의 크기가 매우 작음을 알 수 있다.

In [49]:
proc fastclus data=iris_prin out=clus1 radius=3;
	var Sepal_Length Sepal_Width Petal_Length Petal_Width;
run;
proc plot data=clus1;
	plot prin1*prin2=cluster /vpos=25 hpos=50;
run;

Initial Seeds,Initial Seeds,Initial Seeds,Initial Seeds,Initial Seeds
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,-1.018437181,0.55674567,-1.335751634,-1.311052148
2,0.672249049,-0.590395133,1.04344975,1.312801384
3,-1.018437181,-2.425820418,-0.146150942,-0.261510735

0,1
Criterion Based on Final Seeds =,0.505

Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary,Cluster Summary
Cluster,Frequency,RMS Std Deviation,Maximum Distance from Seed to Observation,Radius Exceeded,Nearest Cluster,Distance Between Cluster Centroids
1,49,0.4571,2.3375,,3,2.9447
2,74,0.5477,2.7133,,3,1.9767
3,27,0.462,2.1261,,2,1.9767

Statistics for Variables,Statistics for Variables,Statistics for Variables,Statistics for Variables,Statistics for Variables
Variable,Total STD,Within STD,R-Square,RSQ/(1-RSQ)
Sepal_Length,1.0,0.57702,0.671512,2.044251
Sepal_Width,1.0,0.65776,0.573163,1.342814
Petal_Length,1.0,0.32335,0.896845,8.694191
Petal_Width,1.0,0.38673,0.852445,5.777128
OVER-ALL,1.0,0.50491,0.748491,2.976006

0,1
Pseudo F Statistic =,218.74

0,1
Approximate Expected Over-All R-Squared =,0.35016

0,1
Cubic Clustering Criterion =,40.814

Cluster Means,Cluster Means,Cluster Means,Cluster Means,Cluster Means
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,-0.998720724,0.903229014,-1.298757249,-1.252149314
2,0.799540097,-0.131538812,0.828341774,0.823488158
3,-0.378838952,-1.278679615,0.086733849,0.015451582

Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations,Cluster Standard Deviations
Cluster,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width
1,0.4207601377,0.7935506964,0.098491342,0.139308525
2,0.680177958,0.5968274198,0.3831696313,0.4837646338
3,0.5066468812,0.5323828625,0.4012776974,0.3907647126


> 반지름을 3(RADIUS=3) 설정하였 더니 군집의 개수는 3 개이고 RMS 편차도 가장 적음을 알 수 있다. 어떤 옵션을 사용해야 하 나? Intuition & Trial Error
