## Chapter 6.군집 분석(Cluster Analysis)

- 군집 분석은 데이터의 특성에 따라 유사한 것끼리 묶은 것이다.
- 유사성을 기반으로 군집을 분류하고, 군집에 따라 유형별 특징을 분석하는 기법이다.
- 텍스트에 대한 군집 분석에서는 군집으로 묶여진 텍스트들끼리는 최대한 유사하고, 다른 군집으로 묶여진 텍스트들과는 최대한 유사하지 않도록 분류하는 것이다.

### 1. 텍스트 유사도(Text Similarity)

- 텍스트 유사도는 대표적으로 텍스트 쌍에 대한 자카드 유사도와 코사인 유사도로 계산할 수 있다.
- 자카드 유사도(Jaccard Similarity): 두 텍스트 문서 사이에 공통된 용어의 수와 해당 텍스트에 존재하는 총 고유 용어 수의 비율을 사용한다.
- 코사인 유사도(Cosine Similarity): 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 유사도 계산 방식이다.

#### 1) 자카드 유사도

<img src='images/Jaccard1.png' width='300px'><img src='images/Jaccard2.png' width='400px'>
  
- A, B 두개의 집합이 있다고 할 때, 합집합에서 교집합의 비율을 구함으로써 유사도를 계산 방식이다.

  ###### * 출처 : https://blog.naver.com/sw4r/222223674842

##### ① 데이터 입력

In [None]:
d1 = "The sky is blue"
d2 = "The sun is bright" 
d3 = "The sun in the sky is bright"

##### ② 자카드 유사도 함수 생성

##### ③ 자카드 유사도 계산

#### 2) 코사인 유사도

<img src='images/cos.png' width='980px'>

- 두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며, 90°의 각일때 0, 반대방향이면 -1의 값을 가진다.
- 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다.

##### ① tf-idf vectorizer 객체 생성

##### ② tf-idf 계산

##### ③ 코사인 유사도 계산

- d1과 d1,d2,d3간 유사도

- 각 문서간 유사도

- 다른 문서와 d1,d2,d3간 유사도

- 시각화

### 2. 군집화를 위한 데이터 전처리

##### ① 네이버 영화 리뷰 데이터 다운 : https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt

In [None]:
import urllib.request
raw = urllib.request.urlopen("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt").readlines()

##### ② 바이트를 문자열로 변환

##### ③ 리뷰 데이터만 추출

##### ④ 형태소 분석

### 3. Word2Vec 생성

* `Word2Vec` 모델을 생성한다.
* `gensim`의 `Word2Vec`은 선언과 동시에 학습을 해 단어 벡터들을 생성한다.

##### ① word2vec 모델 생성

##### ② 영화와 유사한 단어 추출

##### ③ t-sne을 이용한 단어 벡터 시각화

##### ④ 어휘간 유사도 계산

##### ⑤ 데이터 프레임으로 변환

##### ⑥ 시각화

### 4. Scikit-learn, Scipy를 이용한 계층적 군집화

* 계층적 군집화란 개별 개체들을 유사한 개체나 그룹과 통합해 군집화를 수행하는 알고리즘
* 비계층적 군집화와는 달리 군집 수를 지정하지 않아도 군집화를 할 수 있는 것이 장점  
* 계층적 군집화는 모든 개체간 거리나 유사도가 미리 계산되어 있어야만 하며, 계산복잡도도 비계층적 군집화보다 큼




#### 1) Scikit-learn을 이용한 계층적 군집화

- 비계층적 군집화의 일종인 `agglomerativeClustering`(병합 군집)을 이용하여 계층적 군집화 실습을 한다.    
- 병합 군집은 각 개체들을 클러스터로 간주, 종료 조건을 만족할 때 까지 가장 비슷한 두 클러스터들을 합치며 진행한다.
- 계속 합쳐 나가더라도 언젠가는 종료해야 하는데, 병합 군집의 종료 조건에는 3가지를 지정 가능하다.
  1.   ward - 모든 클러스터 내의 분산을 가장 적게 증가시키는 두 클러스터를 합친다.(기본값)
  2.   average - 클러스터간 평균 거리가 가장 짧은 두 클러스터를 합친다.
  3.   complete - 클러스터간 최대 거리가 가장 짧은 두 클러스터를 합친다.
* `scikit-learn` 사용 예제에서는 3가지 종료 조건 간의 차이를 비교해 본다.

##### ① ward

- ward 객체 생성

- 어떤 클러스터에 속하는지 예측 연산

- 데이터 프레임으로 변환

- 시각화

##### ② average

- average 객체 생성

- 어떤 클러스터에 속하는지 예측 연산

- 데이터 프레임으로 변환

- 시각화

##### ③ complete

- complete 객체 생성

- 어떤 클러스터에 속하는지 예측 연산

- 데이터 프레임으로 변환

- 시각화

#### 2) Scipy를 이용한 계층적 군집화

* scipy를 이용한 거리 사용과 word2vec 사용을 비교해 본다.

##### ① `pdist`를 이용한 각 단어간 유클리디안 거리 계산

##### ② 각 단어간 유클리디안 거리를 이용한 군집 분석 및 덴드로그램 시각화

##### ③ `word2vec`을 이용한 군집 분석 및 덴드로그램 시각화

### 5. Scikit-learn을 이용한 비계층적 군집화

* 비계층적 군집화는 나눌 클러스터 개수를 지정해 각 개체가 어느 클러스터에 속하는 지를 결정
* 계층적 군집화보다 계산 복잡도가 작기 때문에 대량의 데이터에 유리하나, 클러스터 개수에 따라 군집화 성능이 크게 좌우되기 때문에 조정이 필요

* 대표적인 비계층적 군집화 알고리즘인 kmeans를 사용해 실습

#### 1) 클러스터 3개

##### ① KMeans 객체 생성

##### ② 어떤 클러스트에 속하는지 클러스터 인덱스 번호 출력

##### ③ 데이터 프레임으로 변환

##### ④ 시각화

#### 2) 클러스터 6개

##### ① KMeans 객체 생성

##### ② 어떤 클러스트에 속하는지 클러스터 인덱스 번호 출력

##### ③ 데이터 프레임으로 변환

##### ④ 시각화