<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1.-[Chapter-08]-텍스트-분석" data-toc-modified-id="1.-[Chapter-08]-텍스트-분석-1">1. [Chapter 08] 텍스트 분석</a></span><ul class="toc-item"><li><span><a href="#1.6-토픽-모델링---20-뉴스그룹" data-toc-modified-id="1.6-토픽-모델링---20-뉴스그룹-1.1">1.6 토픽 모델링 - 20 뉴스그룹</a></span></li><li><span><a href="#1.7-문서-군집화-소개와-실습" data-toc-modified-id="1.7-문서-군집화-소개와-실습-1.2">1.7 문서 군집화 소개와 실습</a></span><ul class="toc-item"><li><span><a href="#1.7.1-Opinion-Review-데이터-세트를-이용한-문서-군집화-수행하기" data-toc-modified-id="1.7.1-Opinion-Review-데이터-세트를-이용한-문서-군집화-수행하기-1.2.1">1.7.1 Opinion Review 데이터 세트를 이용한 문서 군집화 수행하기</a></span></li><li><span><a href="#1.7.2-군집별-핵심-단어-추출하기" data-toc-modified-id="1.7.2-군집별-핵심-단어-추출하기-1.2.2">1.7.2 군집별 핵심 단어 추출하기</a></span></li></ul></li></ul></li></ul></div>

# 1. [Chapter 08] 텍스트 분석

## 1.6 토픽 모델링 - 20 뉴스그룹

- 토픽 모델링(Topic Modeling) : 문서 집합에 숨어 있는 주체를 찾아내는 것 (ex) LSA, LDA)

**LatentDirichletAllocation** 클래스로 LDA 기반의 토픽 모델링 수행. **LDA는 Count 기반의 벡터화만 사용**

In [1]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# 모토사이클, 야구, 그래픽스, 윈도우즈, 중동, 기독교, 전자공학, 의학 8개 주제 추출
cats = ['rec.motorcycles','rec.sport.baseball','comp.graphics','comp.windows.x','talk.politics.mideast',\
        'soc.religion.christian','sci.electronics','sci.med']

news_df = fetch_20newsgroups(subset='all', remove=('headers','footers','quotes'), categories=cats, random_state=0)

count_vec = CountVectorizer(max_df=0.95, max_features=1000, min_df=2, stop_words='english', ngram_range=(1,2))
feat_vec = count_vec.fit_transform(news_df.data)
print('CountVectorizer Shape: ', feat_vec.shape)

CountVectorizer Shape:  (7862, 1000)


In [3]:
lda = LatentDirichletAllocation(n_components=8, random_state=0)   # n_components로 토픽 개수 조정
lda.fit(feat_vec)
print(lda.components_.shape)
lda.components_

(8, 1000)


array([[2.46251560e+02, 1.18842248e+02, 1.51715288e+02, ...,
        1.00147234e+02, 7.63673375e+01, 1.17028758e+02],
       [1.25033020e-01, 1.25052288e-01, 1.25003012e-01, ...,
        1.10644583e+02, 1.51405141e-01, 5.09788954e+01],
       [1.25103419e-01, 1.25075224e-01, 1.25082214e-01, ...,
        6.72008817e+01, 1.25138615e-01, 2.48516614e+00],
       ...,
       [1.05055615e+02, 4.94858011e-01, 2.52075927e+01, ...,
        1.80695744e+01, 1.25115936e-01, 8.33321314e+00],
       [1.25147502e-01, 2.27058083e+02, 5.45176328e+00, ...,
        1.41751120e+00, 7.67217701e+01, 4.49861794e+01],
       [1.25096012e-01, 4.05666840e+00, 1.25049904e-01, ...,
        1.63821915e+02, 1.25049991e-01, 1.49550227e-01]])

components_는 개별 토픽별로 각 word 피처가 얼마나 많이 할당됐는지에 대한 수치를 의미

높은 값일수록 해당 word 피처는 그 토픽의 중심 word가 됨

In [5]:
# 각 토픽별로 연관도가 높은 순으로 word를 나열하는 함수
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print('Topic #', topic_idx)
        
        # components_ array에서 가장 값이 큰 순으로 정렬했을 때, 그 값의 array 인덱스를 반환
        topic_word_idx = topic.argsort()[::-1]
        top_idx = topic_word_idx[:no_top_words]
        
        # top_idx 대상인 인덱스별로 feature_names에 해당하는 word feature 추출
        feature_concat = ' '.join([feature_names[i] for i in top_idx])
        print(feature_concat)
        
# CountVectorizer 객체 내의 전체 word의 명칭 추출
feature_names = count_vec.get_feature_names()

display_topics(lda, feature_names, 15)

Topic # 0
year said don didn know game just time went people think did like say home
Topic # 1
god people jesus church think believe christ say does don christian know christians bible faith
Topic # 2
know does thanks like question information help time post advance book just looking group read
Topic # 3
edu com graphics mail ftp information available data pub list computer send software ca 3d
Topic # 4
israel jews jewish israeli dos dos arab turkish people war turkey dos state government greek history
Topic # 5
file image use program window jpeg windows display version color server files using available motif
Topic # 6
armenian armenians people health medical armenia disease turkish patients cancer russian 10 azerbaijan children 92
Topic # 7
like just don ve use good think time know way make used bike want need


명확한 주제어가 추출되지 않고 일반적인 단어가 주를 이루는 Topic 들도 있음

## 1.7 문서 군집화 소개와 실습

- 문서 군집화 : 비슷한 텍스트 구성의 문서를 군집화하는 것. 텍스트 분류 기반의 문서 분류와 달리 비지도학습 기반으로 동작

### 1.7.1 Opinion Review 데이터 세트를 이용한 문서 군집화 수행하기

https://archive.ics.uci.edu/ml/datasets/Opinosis+Opinion+%26frasl%3B+Review

In [6]:
import pandas as pd
import glob, os

path = r'C:\Users\dalgo\06.Kaggle_Study\data\topics'
all_files = glob.glob(os.path.join(path, '*.data'))
filename_list = []
opinion_text = []

for file_ in all_files:
    df = pd.read_table(file_, index_col=None, header=0, encoding='latin1')
    
    # 절대 경로로 주어진 파일명을 가공하고, 맨 마지막 .data 확장자 제거
    filename_ = file_.split('\\')[-1]
    filename = filename_.split('.')[0]
    
    # 파일명 list와 파일 내용 list에 파일명과 파일 내용 추가
    filename_list.append(filename)
    opinion_text.append(df.to_string())
    
# 파일명 list와 파일 내용 list 객체를 df로 생성
document_df = pd.DataFrame({'filename': filename_list, 'opinion_text': opinion_text})
document_df.head()

Unnamed: 0,filename,opinion_text
0,accuracy_garmin_nuvi_255W_gps,...
1,bathroom_bestwestern_hotel_sfo,...
2,battery-life_amazon_kindle,...
3,battery-life_ipod_nano_8gb,...
4,battery-life_netbook_1005ha,...


In [17]:
import string, nltk
from nltk.stem import WordNetLemmatizer 
import re

def ngrams(string, n=2):
    string = re.sub(r'[,-./]|\sBD',r'', string)
    ngrams = zip(*[string[i:] for i in range(n)])
    return [''.join(ngram) for ngram in ngrams]

lemmer = nltk.stem.WordNetLemmatizer()

def LemTokens(tokens):
    return [lemmer.lemmatize(token) for token in tokens]

remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)

def LemNormalize(text):
    return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

In [18]:
# 문서를 TF-IDF 형태로 피처 벡터화
from sklearn.feature_extraction.text import TfidfVectorizer
import warnings
warnings.filterwarnings('ignore')

tfidf_vec = TfidfVectorizer(tokenizer=LemNormalize, stop_words='english',\
                            ngram_range=(1,2), min_df=0.05, max_df=0.85)
feature_vec = tfidf_vec.fit_transform(document_df['opinion_text'])

In [20]:
# 피처 벡터화 행렬 데이터에 대해 군집화(K-평균) 수행
from sklearn.cluster import KMeans

km_cluster = KMeans(n_clusters=3, max_iter=10000, random_state=0)
km_cluster.fit(feature_vec)
cluster_label = km_cluster.labels_
cluster_centers = km_cluster.cluster_centers_

# 소속 군집을 cluster_label 칼럼으로 할당
document_df['cluster_label'] = cluster_label
document_df[document_df['cluster_label']==0].sort_values(by='filename')   # 전자기기 리뷰

Unnamed: 0,filename,opinion_text,cluster_label
0,accuracy_garmin_nuvi_255W_gps,...,0
2,battery-life_amazon_kindle,...,0
3,battery-life_ipod_nano_8gb,...,0
4,battery-life_netbook_1005ha,...,0
5,buttons_amazon_kindle,...,0
8,directions_garmin_nuvi_255W_gps,...,0
9,display_garmin_nuvi_255W_gps,...,0
10,eyesight-issues_amazon_kindle,...,0
11,features_windows7,...,0
12,fonts_amazon_kindle,...,0


In [21]:
document_df[document_df['cluster_label']==1].sort_values(by='filename')   # 호텔 리뷰

Unnamed: 0,filename,opinion_text,cluster_label
1,bathroom_bestwestern_hotel_sfo,...,1
13,food_holiday_inn_london,...,1
14,food_swissotel_chicago,...,1
15,free_bestwestern_hotel_sfo,...,1
20,location_bestwestern_hotel_sfo,...,1
21,location_holiday_inn_london,...,1
24,parking_bestwestern_hotel_sfo,...,1
28,price_holiday_inn_london,...,1
32,room_holiday_inn_london,...,1
30,rooms_bestwestern_hotel_sfo,...,1


In [22]:
document_df[document_df['cluster_label']==2].sort_values(by='filename')   # 자동차 리뷰

Unnamed: 0,filename,opinion_text,cluster_label
6,comfort_honda_accord_2008,...,2
7,comfort_toyota_camry_2007,...,2
16,gas_mileage_toyota_camry_2007,...,2
17,interior_honda_accord_2008,...,2
18,interior_toyota_camry_2007,...,2
22,mileage_honda_accord_2008,...,2
25,performance_honda_accord_2008,...,2
29,quality_toyota_camry_2007,...,2
37,seats_honda_accord_2008,...,2
47,transmission_toyota_camry_2007,...,2


### 1.7.2 군집별 핵심 단어 추출하기

In [24]:
cluster_centers = km_cluster.cluster_centers_
print(cluster_centers.shape)
print(cluster_centers)

(3, 4611)
[[0.01005322 0.         0.         ... 0.00706287 0.         0.        ]
 [0.         0.00099499 0.00174637 ... 0.         0.00183397 0.00144581]
 [0.         0.00092551 0.         ... 0.         0.         0.        ]]


In [25]:
# 군집별 핵심 단어, 그 단어의 중심 위치 상댓값, 대상 파일명을 반환하는 함수
def get_cluster_details(cluster_model, cluster_data, feature_names, clusters_num, top_n_features=10):
    cluster_details = {}
    
    # 군집 중심점별 할당된 word 피처들의 거리값이 큰 순으로 값을 구하기 위해 인덱스 반환
    centroid_feature_ordered_idx = cluster_model.cluster_centers_.argsort()[:, ::-1]
    
    for cluster_num in range(clusters_num):
        cluster_details[cluster_num] = {}
        cluster_details[cluster_num]['cluster'] = cluster_num
        
        # 앞서 구한 인덱스로 top n 피처 단어를 구함
        top_feature_idx = centroid_feature_ordered_idx[cluster_num, :top_n_features]
        top_features = [feature_names[idx] for idx in top_feature_idx]
        
        # 해당 피처 단어의 중심 위치 상댓값 구함
        top_feature_values = cluster_model.cluster_centers_[cluster_num, top_feature_idx].tolist()
        
        # 딕셔너리 객체에 개별 군집별 핵심단어와 중심위치 상댓값, 파일명 입력
        cluster_details[cluster_num]['top_features'] = top_features
        cluster_details[cluster_num]['top_features_value'] = top_feature_values
        filenames = cluster_data[cluster_data['cluster_label'] == cluster_num]['filename']
        filenames = filenames.values.tolist()
        cluster_details[cluster_num]['filenames'] = filenames
    return cluster_details

def print_cluster_details(cluster_details):
    for cluster_num, cluster_detail in cluster_details.items():
        print('##### Cluster {0} #####'.format(cluster_num))
        print('Top features: ', cluster_detail['top_features'])
        print('Reviews 파일명: ', cluster_detail['filenames'][:7])
        print('-'*50)

In [26]:
feature_names = tfidf_vec.get_feature_names()
cluster_details = get_cluster_details(cluster_model=km_cluster, cluster_data=document_df, \
                                      feature_names=feature_names, clusters_num=3, top_n_features=10)
print_cluster_details(cluster_details)

##### Cluster 0 #####
Top features:  ['screen', 'battery', 'keyboard', 'battery life', 'life', 'kindle', 'direction', 'video', 'size', 'voice']
Reviews 파일명:  ['accuracy_garmin_nuvi_255W_gps', 'battery-life_amazon_kindle', 'battery-life_ipod_nano_8gb', 'battery-life_netbook_1005ha', 'buttons_amazon_kindle', 'directions_garmin_nuvi_255W_gps', 'display_garmin_nuvi_255W_gps']
--------------------------------------------------
##### Cluster 1 #####
Top features:  ['room', 'hotel', 'service', 'staff', 'food', 'location', 'bathroom', 'clean', 'price', 'parking']
Reviews 파일명:  ['bathroom_bestwestern_hotel_sfo', 'food_holiday_inn_london', 'food_swissotel_chicago', 'free_bestwestern_hotel_sfo', 'location_bestwestern_hotel_sfo', 'location_holiday_inn_london', 'parking_bestwestern_hotel_sfo']
--------------------------------------------------
##### Cluster 2 #####
Top features:  ['interior', 'seat', 'mileage', 'comfortable', 'gas', 'gas mileage', 'transmission', 'car', 'performance', 'quality']
Re