## <b>M5_군집 분석(Cluster Analysis)</b>

- 군집 분석은 데이터의 특성에 따라 유사한 것끼리 묶은 것이다.
- 유사성을 기반으로 군집을 분류하고, 군집에 따라 유형별 특징을 분석하는 기법이다.
- 텍스트에 대한 군집 분석에서는 군집으로 묶여진 텍스트들끼리는 최대한 유사하고, 다른 군집으로 묶여진 텍스트들과는 최대한 유사하지 않도록 분류하는 것이다.

### 1. 텍스트 유사도(Text Similarity)

- 텍스트 유사도는 대표적으로 텍스트 쌍에 대한 자카드 유사도와 코사인 유사도로 계산할 수 있다.
- 자카드 유사도(Jaccard Similarity): 두 텍스트 문서 사이에 공통된 용어의 수와 해당 텍스트에 존재하는 총 고유 용어 수의 비율을 사용한다.
- 코사인 유사도(Cosine Similarity): 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 유사도 계산 방식이다.

> 자카드 유사도

<img src='images/jaccard1.png' width='300px'><img src='images/jaccard2.png' width='400px'>
  
- A, B 두개의 집합이 있다고 할 때, 합집합에서 교집합의 비율을 구함으로써 유사도를 계산 방식이다.

  ###### * 출처 : https://blog.naver.com/sw4r/222223674842

>> 데이터 입력

In [None]:
d1 = "The sky is blue"
d2 = "The sun is bright" 
d3 = "The sun in the sky is bright"

>> 자카드 유사도 함수 생성

In [None]:
from nltk import word_tokenize
from nltk.stem import WordNetLemmatizer

In [None]:
def jaccard_similarity(d1, d2):
    lemmatizer = WordNetLemmatizer() 
    
    words1 = [lemmatizer.lemmatize(word.lower()) for word in word_tokenize(d1)]
    words2 = [lemmatizer.lemmatize(word.lower()) for word in word_tokenize(d2)]
    inter = len(set(words1).intersection(set(words2))) 
    union = len(set(words1).union(set(words2))) 

    return inter/union 

>> 자카드 유사도 계산

In [None]:
print(jaccard_similarity(d1, d2))
print(jaccard_similarity(d1, d3))
print(jaccard_similarity(d2, d3))

> 코사인 유사도

<img src='images/cos.png' width='980px'>

- 두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며, 90°의 각일때 0, 반대방향이면 -1의 값을 가진다.
- 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다.

>> tf-idf vectorizer 객체 생성

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import numpy as np

tfidf_vectorizer = TfidfVectorizer()

>> tf-idf 계산

In [None]:
docs = np.array([d1,d2,d3])

tfidf_matrix = tfidf_vectorizer.fit_transform(docs)

print(tfidf_matrix)

>> 코사인 유사도 계산

- 각 문서간 유사도

In [None]:
similarity = cosine_similarity(tfidf_matrix, tfidf_matrix)
print(similarity)

- 시각화

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

similarity = cosine_similarity(tfidf_matrix, tfidf_matrix)
print(similarity)

map = sns.heatmap(similarity, xticklabels=docs, yticklabels=docs, cmap='viridis')
map.figure.set_size_inches(10, 7)
plt.show();

### 2. 군집화를 위한 데이터 전처리

- 네이버 영화 리뷰 데이터 : https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt

- 리뷰 데이터 읽기

In [None]:
f = open('data_set/ratings.txt', 'r', encoding='utf-8') 
raw = f.readlines()
print(raw[:3])

- 리뷰 데이터만 추출

In [None]:
reviews = []
for i in raw:
    reviews.append(i.split("\t")[1])

print(reviews[:5])

- 'document' 제외

In [None]:
reviews = reviews[1:]
print(reviews[:5])

- 형태소 분석 : 2차원 리스트로 명사만 추출

In [None]:
from kiwipiepy import Kiwi
from kiwipiepy.utils import Stopwords
from tqdm import tqdm

kiwi = Kiwi()

reviews_token = []

stopwords = Stopwords()

for review in tqdm(reviews):
      token = kiwi.tokenize(review, stopwords=stopwords)
      review_token = []
      for t in token:
            if t.tag[0] == 'N': review_token.append(t.form)
      reviews_token.append(review_token)

In [None]:
print(reviews_token[:5])

### 3. Word2Vec 생성

* `Word2Vec` 모델을 생성한다.
* `gensim`의 `Word2Vec`은 선언과 동시에 학습을 해 단어 벡터들을 생성한다.

> word2vec 모델 생성

In [None]:
from gensim.models import Word2Vec
from sklearn.manifold import TSNE
from matplotlib import font_manager as fm
from matplotlib import rc

In [None]:
word2vec = Word2Vec(reviews_token, min_count=5)
word2vec

> 영화와 유사한 단어 추출

In [None]:
sim = word2vec.wv.most_similar("영화")
print(sim)

> t-sne을 이용한 단어 벡터 시각화

> 어휘간 유사도 계산

> 데이터 프레임으로 변환

In [None]:
import pandas as pd

transform_similarity = tsne.fit_transform(similarity) 
df = pd.DataFrame(transform_similarity, index=vocab, columns=["x", "y"]) 
df[0:10]

> 시각화

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.style.use("default")

map = sns.lmplot(x='x', y='y', data=df, fit_reg=False)
map.figure.set_size_inches(10, 7)
plt.show();

### 4. Scikit-learn을 이용한 군집화

> 계층적 군집화(Hierarchical Clustering)와 비계층적 군집화(Partitional Clustering)

>> 계층적 군집화
* 계층적 군집화란 개별 개체들을 유사한 개체나 그룹과 통합해 군집화를 수행하는 알고리즘
* 비계층적 군집화와는 달리 군집 수를 지정하지 않아도 군집화를 할 수 있는 것이 장점  
* 계층적 군집화는 모든 개체간 거리나 유사도가 미리 계산되어 있어야만 하며, 계산복잡도도 비계층적 군집화보다 큼

>> 비계층적 군집화
* 비계층적 군집화는 나눌 클러스터 개수를 지정해 각 개체가 어느 클러스터에 속하는 지를 결정
* 계층적 군집화보다 계산 복잡도가 작기 때문에 대량의 데이터에 유리하나, 클러스터 개수에 따라 군집화 성능이 크게 좌우되기 때문에 조정이 필요

<img src='images/clustering1.png' width='550px'>  <img src='images/clustering2.png' width='300px'><br>
................................................<계층적 군집화>..........................................................................................<비계층적 군집화>...........

> 대표적인 비계층적 군집화 알고리즘인 kmeans를 사용해 실습

>> K-Means 클러스터링 개념
- 비지도 학습 알고리즘으로 사전에 클러스터 개수 k와 초기값을 입력하면 각 데이터의 그룹을 할당해 나가는 알고리즘

1. 일단 K개의 임의의 중심점(centroid)을 배치하고, 각 데이터들을 가장 가까운 중심점으로 할당한다. (일종의 군집을 형성한다.)

<img src='images/k-means1.png'><img src='images/k-means2.png'>

###### .................................<군집화 전 데이터 포인트들>.............................................................<군집수를 3개로 정하고 랜덤하게 군집 중심들 배치>

2.데이터 포인트들과 Centroid들 간 유클리드 거리를 계산하며 Centroid들의 위치를 계속 수정한다. 
- 각각의 데이터 포인트와 Centroid 간 유클리드 거리를 계산한다.
-  가장 짧은 거리의 Centroid로 데이터 포인트를 할당한다.

<img src='images/k-means3.png'>

###### ....<모든 데이터 포인트들을 가까운 군집(클러스터)에 할당>

- 데이터 포인트들의 배정이 끝난 후, Centroid들을 배정된 데이터 포인트의 평균값으로 이동시킨다.

<img src='images/k-means4.png'>

###### .....................................<Centroid 위치 변경 전>...................................................................<데이터 포인트들의 평균 값으로 Centroid 위치 변경 후>

- Centroid들이 더 이상 움직이지 않을 때까지 반복한다.

<img src='images/k-means5.png'><img src='images/k-means6.png'>

###### ....<변경된 Centroid 위치로 다시 거리를 계산하여 클러스터에 할당>.........................<Centroid 위치가 변경되지 않을 때까지 반복>

  ###### * 출처 : https://studying-haeung.tistory.com/6

>> KMeans 객체 생성

>> 어떤 클러스트에 속하는지 클러스터 인덱스 번호 출력

>> 데이터 프레임으로 변환

>> 시각화

In [None]:
map = sns.lmplot(x='x', y='y', data = results, fit_reg = False, hue = "predict")
map.figure.set_size_inches(10, 7)
plt.show()