# Opinion Review 데이터 세트를 이용한 문서 군집화 수행

In [2]:
import pandas as pd
import glob, os
path=r'C:\Users\204\Python\03_MachineLearning\05_군집\OpinosisDataset1.0\topics'
all_files = glob.glob(os.path.join(path, "*.data"))
print(all_files)

['C:\\Users\\204\\Python\\03_MachineLearning\\05_군집\\OpinosisDataset1.0\\topics\\accuracy_garmin_nuvi_255W_gps.txt.data', 'C:\\Users\\204\\Python\\03_MachineLearning\\05_군집\\OpinosisDataset1.0\\topics\\bathroom_bestwestern_hotel_sfo.txt.data', 'C:\\Users\\204\\Python\\03_MachineLearning\\05_군집\\OpinosisDataset1.0\\topics\\battery-life_amazon_kindle.txt.data', 'C:\\Users\\204\\Python\\03_MachineLearning\\05_군집\\OpinosisDataset1.0\\topics\\battery-life_ipod_nano_8gb.txt.data', 'C:\\Users\\204\\Python\\03_MachineLearning\\05_군집\\OpinosisDataset1.0\\topics\\battery-life_netbook_1005ha.txt.data', 'C:\\Users\\204\\Python\\03_MachineLearning\\05_군집\\OpinosisDataset1.0\\topics\\buttons_amazon_kindle.txt.data', 'C:\\Users\\204\\Python\\03_MachineLearning\\05_군집\\OpinosisDataset1.0\\topics\\comfort_honda_accord_2008.txt.data', 'C:\\Users\\204\\Python\\03_MachineLearning\\05_군집\\OpinosisDataset1.0\\topics\\comfort_toyota_camry_2007.txt.data', 'C:\\Users\\204\\Python\\03_MachineLearning\\05_군집\\Op

In [3]:
filename_list = [] # 파일명들이 저장될 리스트
opinion_text = [] # 파일의 내용(주제)등이 저장될 리스트

1. 개별 파일명들을 filename_list에 저장합니다
2. 개별파일의 내용은 Dataframe 로딩 후 다시 string으로 변환하여 opinion_text 리스트에 저장합니다

In [12]:
# 모든 파일네임으로 반복실행
for file_ in all_files:
    # 개별파일을 읽어서 DataFrame으로 생성
    df = pd.read_table(file_, index_col=None, header=0, encoding='latin1')
    
    # 전체경로에서 파일명(XXX.data)만 추출
    filename_ = file_.split('\\')[-1]
    # 추출한 파일명에서 .data를 제외한 나머지 이름 추출
    filename = filename_.split('.')[0]
    # 추출한 파일명은 파일명 리스트에 append
    filename_list.append(filename)
    # 파일의 내용은 opinion_text 리스트에 String 형식으로 변환하여 append
    opinion_text.append(df.to_string())

# 취합된 파일명과 파일 내용을 각각에 컬럼으로 담은 데이터 프레임 생성
document_df = pd.DataFrame({'filename':filename_list, 'opinion_text':opinion_text})
document_df.head()

Unnamed: 0,filename,opinion_text
0,accuracy_garmin_nuvi_255W_gps,...
1,bathroom_bestwestern_hotel_sfo,...
2,battery-life_amazon_kindle,...
3,battery-life_ipod_nano_8gb,...
4,battery-life_netbook_1005ha,...


## Lemmatization을 위한 함수 생성

In [13]:
from nltk.stem import WordNetLemmatizer
import nltk
import string

In [14]:
# 특수기호의 아스키 코드값(key)과 None(value)이 조합된 딕셔너리 생성
remove_punct_dict = dict( ( ord(punct), None) for punct in string.punctuation)
# 어근 추출을 위한 객체 생성
lemmar = WordNetLemmatizer()

In [17]:
# 1. 전달인수로 전달된 text를 워드토큰화
# 2. 소문자로 모두 변환
# 3. remove_punct_dict에 들어있는 key값을 찾아서 value로 대체
# 4. 결과가 리턴되기 전 LemToken 함수 호출해서 결과를 받고 리턴함
def LemNormalize(text):
    text_1 = text.lower() # 소문자 변환
    text_2 = text_1.translate(remove_punct_dict) # 특수문자를 None으로 변환
    text_3 = nltk.word_tokenize(text_2) # 단어별로 분할
    text_4 = LemTokens(text_3) # Lemtokens 함수에 적용 호출
    return text_4 # 결과 리턴
    # return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

# 위에서 전달된 tokens(분리되고 특수기호 없앤 단어들의 어근을 추출해서 리턴)
def LemTokens(tokens):
    result = []
    for token in tokens :
        k = lemmar.lemmatize(token) # 단어의 원형으로 변환
        result.append(k) # 원형으로 변형된 단어를 리스트에 추가
    return result
    # return [lemmar.lemmatize(token) for token in tokens]
# LemNormalize(document_df['opinion_text'][0])

## TF-IDF 피처 벡터화, TfidVectorizer에서 피처 벡터화 수행 시 Lemmatization을 적용하여 토큰화 된 데이터를 TfidfVectorizer 객체의 fit_transform 데이터로 제공합니다    

* LemNormalize 함수를 적용한 객체 생성
* 생성된 객체로 fit와 transform 실행

In [18]:
from sklearn.feature_extraction.text import TfidfVectorizer
import warnings
warnings.filterwarnings('ignore')

tfidf_vect = TfidfVectorizer(tokenizer=LemNormalize, stop_words='english', \
                            ngram_range=(1,2), min_df=0.05, max_df=0.85)
# opinion_text 컬럼값으로 feature vectorzation 수행
feature_vect = tfidf_vect.fit_transform(document_df['opinion_text'])
# fit 대상과 transform 대상이 같다면 위와 같이 한 번에 실행할 수 있습니다

## 군집 알고리즘(K-Mean)
* 대표적인 비지도 학습 알고리즘입니다
* 지도학습과 비지도 학습의 외형상 차이점은 target의 유무로 구분합니다
* train feature 데이터와 train target 데이터로 학습하여 완성된 머신러닝 모델을 얻은후에, test feature로 테스트하고 결과를 test target과 비교하여 성능평가를 하는 지도학습의 모습과는 달리,
* 비지도학습은 target 없이 feature들로만 학습하고 그 결과로 군집된 데이터결과(집단의 이름-label)와 완성된 머신러닝 모델을 얻습닌다

### 5개의 군집으로 K-Means 군집

In [19]:
from sklearn.cluster import KMeans
# 5개의 집합으로 군집화 객체 생성 및 수행
# max_iter=10000   군집 알고리즙의 실행횟수 : 10000회
# n_clusters : 군집 단위 갯수
km_cluster = KMeans(n_clusters=5, max_iter=10000, random_state=0)
km_cluster.fit(feature_vect)

KMeans(max_iter=10000, n_clusters=5, random_state=0)

In [21]:
# 군집 결과 타겟들(0,1,2,3,4)
cluster_label = km_cluster.labels_
# km_cluster.cluster_centers_ : 군집 중심점과의 거리들
cluster_centers = km_cluster.cluster_centers_
document_df['cluster_label'] = cluster_label
document_df.head()

Unnamed: 0,filename,opinion_text,cluster_label
0,accuracy_garmin_nuvi_255W_gps,...,0
1,bathroom_bestwestern_hotel_sfo,...,2
2,battery-life_amazon_kindle,...,4
3,battery-life_ipod_nano_8gb,...,4
4,battery-life_netbook_1005ha,...,4


In [22]:
document_df[ document_df['cluster_label']==0 ].sort_values(by='filename')

Unnamed: 0,filename,opinion_text,cluster_label
0,accuracy_garmin_nuvi_255W_gps,...,0
51,accuracy_garmin_nuvi_255W_gps,...,0
8,directions_garmin_nuvi_255W_gps,...,0
59,directions_garmin_nuvi_255W_gps,...,0
33,satellite_garmin_nuvi_255W_gps,...,0
84,satellite_garmin_nuvi_255W_gps,...,0
34,screen_garmin_nuvi_255W_gps,...,0
85,screen_garmin_nuvi_255W_gps,...,0
48,updates_garmin_nuvi_255W_gps,...,0
99,updates_garmin_nuvi_255W_gps,...,0


In [23]:
document_df[ document_df['cluster_label']==1 ].sort_values(by='filename')

Unnamed: 0,filename,opinion_text,cluster_label
5,buttons_amazon_kindle,...,1
56,buttons_amazon_kindle,...,1
9,display_garmin_nuvi_255W_gps,...,1
60,display_garmin_nuvi_255W_gps,...,1
10,eyesight-issues_amazon_kindle,...,1
61,eyesight-issues_amazon_kindle,...,1
11,features_windows7,...,1
62,features_windows7,...,1
12,fonts_amazon_kindle,...,1
63,fonts_amazon_kindle,...,1


In [24]:
document_df[ document_df['cluster_label']==2 ].sort_values(by='filename')

Unnamed: 0,filename,opinion_text,cluster_label
1,bathroom_bestwestern_hotel_sfo,...,2
52,bathroom_bestwestern_hotel_sfo,...,2
13,food_holiday_inn_london,...,2
64,food_holiday_inn_london,...,2
14,food_swissotel_chicago,...,2
65,food_swissotel_chicago,...,2
66,free_bestwestern_hotel_sfo,...,2
15,free_bestwestern_hotel_sfo,...,2
71,location_bestwestern_hotel_sfo,...,2
20,location_bestwestern_hotel_sfo,...,2


In [25]:
document_df[ document_df['cluster_label']==3 ].sort_values(by='filename')

Unnamed: 0,filename,opinion_text,cluster_label
6,comfort_honda_accord_2008,...,3
57,comfort_honda_accord_2008,...,3
7,comfort_toyota_camry_2007,...,3
58,comfort_toyota_camry_2007,...,3
16,gas_mileage_toyota_camry_2007,...,3
67,gas_mileage_toyota_camry_2007,...,3
17,interior_honda_accord_2008,...,3
68,interior_honda_accord_2008,...,3
18,interior_toyota_camry_2007,...,3
69,interior_toyota_camry_2007,...,3


In [26]:
document_df[ document_df['cluster_label']==4 ].sort_values(by='filename')

Unnamed: 0,filename,opinion_text,cluster_label
2,battery-life_amazon_kindle,...,4
53,battery-life_amazon_kindle,...,4
3,battery-life_ipod_nano_8gb,...,4
54,battery-life_ipod_nano_8gb,...,4
4,battery-life_netbook_1005ha,...,4
55,battery-life_netbook_1005ha,...,4
19,keyboard_netbook_1005ha,...,4
70,keyboard_netbook_1005ha,...,4
26,performance_netbook_1005ha,...,4
77,performance_netbook_1005ha,...,4


In [27]:
# 3개의 집합으로 군집화
km_cluster = KMeans(n_clusters=3, max_iter=10000, random_state=0)
km_cluster.fit(feature_vect)
cluster_label = km_cluster.labels_
# 소속 클러스트를 cluster_label 컬럼으로 할당하고 cluster_label 값으로 정렬
document_df['cluster_label'] = cluster_label

In [28]:
document_df[ document_df['cluster_label']==0 ].sort_values(by='filename')

Unnamed: 0,filename,opinion_text,cluster_label
0,accuracy_garmin_nuvi_255W_gps,...,0
51,accuracy_garmin_nuvi_255W_gps,...,0
53,battery-life_amazon_kindle,...,0
2,battery-life_amazon_kindle,...,0
3,battery-life_ipod_nano_8gb,...,0
54,battery-life_ipod_nano_8gb,...,0
4,battery-life_netbook_1005ha,...,0
55,battery-life_netbook_1005ha,...,0
5,buttons_amazon_kindle,...,0
56,buttons_amazon_kindle,...,0


* KMeans 객체의 cluster_centers_ 속성은 개별 피처들의 클러스터 중심과의 상대 위치를 정규화한 숫자값들입니다
* 0~1까지ㅣ의 값으로 표현되며 1에 가까울수록 중심에 더 가깝다는 의미입니다

In [30]:
cluster_centers = km_cluster.cluster_centers_
print('cluster_centers shape :', cluster_centers.shape)
print(cluster_centers)

cluster_centers shape : (3, 4611)
[[0.01005141 0.         0.         ... 0.00712732 0.         0.        ]
 [0.         0.00094399 0.         ... 0.         0.         0.        ]
 [0.         0.00101894 0.0017818  ... 0.         0.00187208 0.00147903]]


## 군집별 top n 핵심단어, 대상 파일명 등

In [32]:
feature_names = tfidf_vect.get_feature_names()
# print(feature_names)
cluster_details={}

In [33]:
# cluster_centers를 정렬 - 정렬 결과의 index 값을 얻기 위해서 argsort 실행(내림차순)
centoid_feature_ordered_ind = km_cluster.cluster_centers_.argsort()[:,::-1]

In [36]:
# 개별 군집별로 iteration하면서 핵심단어, 그 단어의 중심 위치 상대값, 대상 파일명 출력
# cluster_details에 입력
for cluster_num in range(3):
    # 개별 군집별 정보를 담을 데이터 초기화
    cluster_details[cluster_num] = {}
    cluster_details[cluster_num]['cluster'] = cluster_num
    # cluster_centers_.argsort()[:,::-1]로 얻은 index를 이용하여 top n
    # 피처 단어들의 인덱스, 각 클러스터 별 10개의 인덱스
    top_feature_indexes = centoid_feature_ordered_ind[cluster_num, :10]
    # 추출한 인덱스로 단어 추출
    top_features = [ feature_names[ind] for ind in top_feature_indexes ]
    # 단어들의 상대적 거리 추출
    top_feature_values\
    = km_cluster.cluster_centers_[ cluster_num, top_feature_indexes].tolist()
    
    # cluster_details 딕셔너리 객체에 개별 군집별 핵심 단어와 중심위치 상대값,
    # 그리고 해당 파일명 저장
    cluster_details[cluster_num]['top_features'] = top_features
    cluster_details[cluster_num]['top_feature_value'] = top_feature_values
    filenames = document_df[ document_df['cluster_label'] == cluster_num]['filename']
    filenames = filenames.values.tolist()
    cluster_details[cluster_num]['filenames'] = filenames
    
# 완성된 자료 출력
for cluster_num, cluster_detail in cluster_details.items():
    print('###### Clsuter {0}'.format(cluster_num))
    print('Top features:', cluster_detail['top_features']) # 군집에 가까운 핵심단어
    print('Reviews 파일명 : ', cluster_detail['filenames'][:7]) # 핵심파일 7개
    print('==================================================')

###### Clsuter 0
Top features: ['screen', 'battery', 'keyboard', 'battery life', 'life', 'kindle', 'video', 'direction', 'voice', 'size']
Reviews 파일명 :  ['accuracy_garmin_nuvi_255W_gps', 'battery-life_amazon_kindle', 'battery-life_ipod_nano_8gb', 'battery-life_netbook_1005ha', 'buttons_amazon_kindle', 'directions_garmin_nuvi_255W_gps', 'display_garmin_nuvi_255W_gps']
###### Clsuter 1
Top features: ['interior', 'seat', 'mileage', 'comfortable', 'gas', 'gas mileage', 'transmission', 'car', 'performance', 'quality']
Reviews 파일명 :  ['comfort_honda_accord_2008', 'comfort_toyota_camry_2007', 'gas_mileage_toyota_camry_2007', 'interior_honda_accord_2008', 'interior_toyota_camry_2007', 'mileage_honda_accord_2008', 'performance_honda_accord_2008']
###### Clsuter 2
Top features: ['room', 'hotel', 'service', 'staff', 'food', 'location', 'bathroom', 'clean', 'price', 'parking']
Reviews 파일명 :  ['bathroom_bestwestern_hotel_sfo', 'food_holiday_inn_london', 'food_swissotel_chicago', 'free_bestwestern_h