---
title:  "Documnet Clustering"
excerpt: "Text Analysis"  

categories:  
  - Deep-Learning  
tags:  
  - Text Analysis
  - Opinion Review  
  
last_modified_at: 2020-08-09T15:20:00-05:00
---

## Reference  
* 파이썬 머신러닝 완벽가이드 - 권철민
* NCIA shkim.hi@gmail.com  
* [디리클레 분포](https://datascienceschool.net/view-notebook/e0508d3b7dd6427eba2d35e1f629d3de/)

## Opinion Review 데이터 세트를 이용한 문서 군집화 수행하기
* [dataset](https://archive.ics.uci.edu/ml/datasets/Opinosis+Opinion+%26frasl%3B+Review)

### 데이터 로딩

In [1]:
import pandas as pd
import glob, os              

[glob 설명](https://docs.python.org/ko/3/library/glob.html)  
- unix 스타일로, 경로설정과 표현이 가능하다.

In [5]:
print(len(os.listdir("D:/★2020_ML_DL_Project/Alchemy/dataset/GloVe/OpinosisDataset1.0/topics")))
print(os.listdir("D:/★2020_ML_DL_Project/Alchemy/dataset/GloVe/OpinosisDataset1.0/topics")[0:10])

51
['accuracy_garmin_nuvi_255W_gps.txt.data', 'bathroom_bestwestern_hotel_sfo.txt.data', 'battery-life_amazon_kindle.txt.data', 'battery-life_ipod_nano_8gb.txt.data', 'battery-life_netbook_1005ha.txt.data', 'buttons_amazon_kindle.txt.data', 'comfort_honda_accord_2008.txt.data', 'comfort_toyota_camry_2007.txt.data', 'directions_garmin_nuvi_255W_gps.txt.data', 'display_garmin_nuvi_255W_gps.txt.data']


In [6]:
# 지정한 디렉토리 밑에 있는 모든 .data 파일들의 파일명을 리스트로 취합 : 51개 파일
all_files = glob.glob(os.path.join("D:/★2020_ML_DL_Project/Alchemy/dataset/GloVe/OpinosisDataset1.0/topics", "*.data"))    

In [23]:
filename_list = []
opinion_text = []

In [24]:
# 개별 파일들의 파일명은 filename_list 리스트로 취합, 
# 개별 파일들의 파일내용은 DataFrame로딩 후 다시 string으로 변환하여 opinion_text 리스트로 취합 
for file_ in all_files:
    # 개별 파일을 읽어서 DataFrame으로 생성 
    df = pd.read_table(file_,index_col=None, header=0,encoding='latin1') ## latin1
    # 절대경로로 주어진 file 명을 가공. 만일 Linux에서 수행시에는 아래 \\를 / 변경. 맨 마지막 .data 확장자도 제거
    filename_ = file_.split('\\')[-1]
    filename = filename_.split('.')[0]
    #파일명 리스트와 파일내용 리스트에 파일명과 파일 내용을 추가. 
    filename_list.append(filename)
    opinion_text.append(df.to_string())

In [25]:
# print(len(filename_list))  # 51
# 파일명 리스트와 파일내용 리스트를  DataFrame으로 생성
document_df = pd.DataFrame({'filename':filename_list, 'opinion_text':opinion_text})
document_df.head()

Unnamed: 0,filename,opinion_text
0,accuracy_garmin_nuvi_255W_gps,...
1,bathroom_bestwestern_hotel_sfo,...
2,battery-life_amazon_kindle,...
3,battery-life_ipod_nano_8gb,...
4,battery-life_netbook_1005ha,...


In [30]:
document_df.opinion_text[1]

"                                                                                                                                                                                                                                              The room was not overly big, but clean and very comfortable beds, a great shower and very clean bathrooms .\n0                                                                                                                                                                                                                          The second room was smaller, with a very inconvenient bathroom layout, but at least it was quieter and we were able to sleep .\n1                                                                                                                                                                                                                                                                                                            Larg

### Lemmatization을 위한 함수 생성

In [None]:
# for test by SOO
import string
puncs = string.punctuation  # string punctuation 부호 를 의미한다.
print(puncs[:10])

In [None]:
print(ord(puncs[0]))  # puncs[0]:'!', ord(c) -> unicode of '!' : 33 ASCII 코드를 말한다.
dict((ord(punct), None) for punct in puncs)

아스키코드(숫자)로 key 를 잡고 value 는 None 으로 넣었다.

In [None]:
from nltk.stem import WordNetLemmatizer
import nltk
import string

## 지금 쓸데없는 컬럼과 코드 제거하려는 중
# nltk는 
remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)
lemmar = WordNetLemmatizer()

def LemTokens(tokens):
    return [lemmar.lemmatize(token) for token in tokens]

def LemNormalize(text):
    return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

In [None]:
# for test by SOO
LemNormalize('Hi~, "Kim(,Soohyun)" and Park!!')

### TF-IDF 피처 벡터화
* TfidfVectorizer에서 피처 벡터화 수행 시 Lemmatization을 적용하여 토큰화

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer(tokenizer=LemNormalize, stop_words='english' , \
                             ngram_range=(1,2), min_df=0.05, max_df=0.85 )

# opinion_text 컬럼값으로 feature vectorization 수행
feature_vect = tfidf_vect.fit_transform(document_df['opinion_text'])

In [None]:
document_df['opinion_text']

In [None]:
feature_vect

### 5개의 군집으로 K-Means군집화

In [None]:
from sklearn.cluster import KMeans

# 5개 집합으로 군집화 수행. 예제를 위해 동일한 클러스터링 결과 도출용 random_state=0 
km_cluster = KMeans( n_clusters=5, max_iter=10000, random_state=0 )
km_cluster.fit(feature_vect)
cluster_label = km_cluster.labels_  # array([3, 0, 4, 4, 4, 3, 2, ..., 1, 2, 3, 4, 3])
cluster_centers = km_cluster.cluster_centers_  # cluster별 핵심 단어

In [None]:
print(cluster_centers.shape)  # (5, 2409)
print(cluster_centers)  # [[0.     , 0.00227114, 0.00115031, ..., 0.00434427, 0.00465884, 0.    ], ..,[]]

### 군집화된 그룹별로 데이터 확인

In [None]:
document_df['cluster_label'] = cluster_label
document_df.head(10)

In [None]:
document_df[document_df['cluster_label']==0].sort_values(by='filename')

In [None]:
document_df[document_df['cluster_label']==1].sort_values(by='filename')

In [None]:
document_df[document_df['cluster_label']==2].sort_values(by='filename')

In [None]:
document_df[document_df['cluster_label']==3].sort_values(by='filename')

In [None]:
document_df[document_df['cluster_label']==4].sort_values(by='filename')

### 3개의 군집으로 K-Means군집화

In [None]:
from sklearn.cluster import KMeans

# 3개의 집합으로 군집화 
km_cluster = KMeans(n_clusters=3, max_iter=10000, random_state=0)
km_cluster.fit(feature_vect)
cluster_label = km_cluster.labels_


# 소속 클러스터를 cluster_label 컬럼으로 할당하고 cluster_label 값으로 정렬
document_df['cluster_label'] = cluster_label
document_df.sort_values(by='cluster_label')

### 군집(Cluster)별 핵심 단어 추출하기

In [None]:
feature_vect.shape

* KMeans객체의 cluster_centers_ 속성은 개별 피처들의 클러스터 중심과의 상대 위치를 정규화된 숫자값으로 표시
* 0~1까지의 값으로 표현되며 1에 가까울 수록 중심에 더 가깝다는 의미

In [None]:
cluster_centers = km_cluster.cluster_centers_
print('cluster_centers shape :',cluster_centers.shape)
print(cluster_centers)

#### 군집별 top n 핵심단어, 그 단어의 중심 위치 상대값, 대상 파일명들을 반환하는 함수 생성

In [None]:
# 군집별 top n 핵심단어, 그 단어의 중심 위치 상대값, 대상 파일명들을 반환함. 
def get_cluster_details(cluster_model, cluster_data, feature_names, clusters_num, top_n_features=10):
    cluster_details = {}
    
    # cluster_centers array 의 값이 큰 순으로 정렬된 index 값을 반환
    # 군집 중심점(centroid)별 할당된 word 피처들의 거리값이 큰 순으로 값을 구하기 위함.  
    centroid_feature_ordered_ind = cluster_model.cluster_centers_.argsort()[:,::-1]
    
    #개별 군집별로 iteration하면서 핵심단어, 그 단어의 중심 위치 상대값, 대상 파일명 입력
    for cluster_num in range(clusters_num):
        # 개별 군집별 정보를 담을 데이터 초기화. 
        cluster_details[cluster_num] = {}
        cluster_details[cluster_num]['cluster'] = cluster_num
        
        # cluster_centers_.argsort()[:,::-1] 로 구한 index 를 이용하여 top n 피처 단어를 구함. 
        top_feature_indexes = centroid_feature_ordered_ind[cluster_num, :top_n_features]
        top_features = [ feature_names[ind] for ind in top_feature_indexes ]
        
        # top_feature_indexes를 이용해 해당 피처 단어의 중심 위치 상댓값 구함 
        top_feature_values = cluster_model.cluster_centers_[cluster_num, top_feature_indexes].tolist()
        
        # cluster_details 딕셔너리 객체에 개별 군집별 핵심 단어와 중심위치 상대값, 그리고 해당 파일명 입력
        cluster_details[cluster_num]['top_features'] = top_features
        cluster_details[cluster_num]['top_features_value'] = top_feature_values
        filenames = cluster_data[cluster_data['cluster_label'] == cluster_num]['filename']
        filenames = filenames.values.tolist()
        cluster_details[cluster_num]['filenames'] = filenames
        
    return cluster_details

#### 클러스터별 top feature들의 단어와 파일명 출력 함수 생성

In [None]:
def print_cluster_details(cluster_details):
    for cluster_num, cluster_detail in cluster_details.items():
        print('####### Cluster {0}'.format(cluster_num))
        print('Top features:', cluster_detail['top_features'])
        print('Reviews 파일명 :',cluster_detail['filenames'][:7])
        print('==================================================')

#### 군집(Cluster)별 핵심 단어 추출하기

In [None]:
feature_names = tfidf_vect.get_feature_names()

cluster_details = get_cluster_details(cluster_model=km_cluster, cluster_data=document_df,\
                                  feature_names=feature_names, clusters_num=3, top_n_features=10 )
print_cluster_details(cluster_details)