# 문서 군집화 (Document Clustering)

- Opinion Review 데이터셋
    - 다양한 주제에 대한 텍스트 리뷰와 의견을 모은 데이터셋
    - https://archive.ics.uci.edu/dataset/191/opinosis+opinion+frasl+review

**데이터셋 구조**

```
OpinosisDataset1.0/
│
├── OpinosisDataset1.1.pdf         # 데이터셋 설명서
│
├── examples/                      # 예제 폴더
│   └─── prepare4rouge/            # 텍스트 요약 평가를 위한 준비 폴더
│       ├── input/                 # 입력 데이터 폴더
│       └── output/                # Rouge 평가 결과 폴더
│
├── scripts/                       # 스크립트 파일 폴더
├── summaries-gold/                # 골드 요약 데이터 모음
└── topics/                        # 주제별 원본 데이터 폴더
    ├── accuracy_garmin_nuvi_255W_gps.txt.data            # Garmin Nuvi 255W GPS의 정확성에 대한 의견
    ├── bathroom_bestwestern_hotel_sfo.txt.data           # Best Western Hotel (San Francisco)의 화장실 관련 의견
    ├── battery-life_amazon_kindle.txt.data               # Amazon Kindle의 배터리 수명에 대한 의견
    ├── battery-life_ipod_nano_8gb.txt.data               # iPod Nano 8GB의 배터리 수명에 대한 의견
    ├── battery-life_netbook_1005ha.txt.data              # ASUS Netbook 1005HA의 배터리 수명에 대한 의견
    ├── buttons_amazon_kindle.txt.data                    # Amazon Kindle의 버튼에 대한 의견
    ├── comfort_honda_accord_2008.txt.data                # 2008년형 Honda Accord의 편안함에 대한 의견
    ├── comfort_toyota_camry_2007.txt.data                # 2007년형 Toyota Camry의 편안함에 대한 의견
    ├── directions_garmin_nuvi_255W_gps.txt.data          # Garmin Nuvi 255W GPS의 길 안내 성능에 대한 의견
    ├── display_garmin_nuvi_255W_gps.txt.data             # Garmin Nuvi 255W GPS의 디스플레이 성능에 대한 의견
    ├── eyesight-issues_amazon_kindle.txt.data            # Amazon Kindle 사용 중 시력 관련 문제에 대한 의견
    ├── features_windows7.txt.data                        # Windows 7의 기능에 대한 의견
    ├── fonts_amazon_kindle.txt.data                      # Amazon Kindle의 폰트에 대한 의견
    ├── food_holiday_inn_london.txt.data                  # Holiday Inn (London)의 음식에 대한 의견
    ├── food_swissotel_chicago.txt.data                   # Swissotel (Chicago)의 음식에 대한 의견
    ├── free_bestwestern_hotel_sfo.txt.data               # Best Western Hotel (San Francisco) 무료 서비스에 대한 의견
    ├── gas_mileage_toyota_camry_2007.txt.data            # 2007년형 Toyota Camry의 연비에 대한 의견
    ├── interior_honda_accord_2008.txt.data               # 2008년형 Honda Accord의 실내 디자인에 대한 의견
    ├── interior_toyota_camry_2007.txt.data               # 2007년형 Toyota Camry의 실내 디자인에 대한 의견
    ├── keyboard_netbook_1005ha.txt.data                  # ASUS Netbook 1005HA의 키보드에 대한 의견
    ├── location_bestwestern_hotel_sfo.txt.data           # Best Western Hotel (San Francisco)의 위치에 대한 의견
    ├── location_holiday_inn_london.txt.data              # Holiday Inn (London)의 위치에 대한 의견
    ├── mileage_honda_accord_2008.txt.data                # 2008년형 Honda Accord의 연비에 대한 의견
    ├── navigation_amazon_kindle.txt.data                 # Amazon Kindle의 탐색 성능에 대한 의견
    ├── parking_bestwestern_hotel_sfo.txt.data            # Best Western Hotel (San Francisco)의 주차장에 대한 의견
    ├── performance_honda_accord_2008.txt.data            # 2008년형 Honda Accord의 성능에 대한 의견
    ├── performance_netbook_1005ha.txt.data               # ASUS Netbook 1005HA의 성능에 대한 의견
    ├── price_amazon_kindle.txt.data                      # Amazon Kindle의 가격에 대한 의견
    ├── price_holiday_inn_london.txt.data                 # Holiday Inn (London)의 가격에 대한 의견
    ├── quality_toyota_camry_2007.txt.data                # 2007년형 Toyota Camry의 품질에 대한 의견
    ├── room_holiday_inn_london.txt.data                  # Holiday Inn (London)의 객실에 대한 의견
    ├── rooms_bestwestern_hotel_sfo.txt.data              # Best Western Hotel (San Francisco)의 객실에 대한 의견
    ├── rooms_swissotel_chicago.txt.data                  # Swissotel (Chicago)의 객실에 대한 의견
    ├── satellite_garmin_nuvi_255W_gps.txt.data           # Garmin Nuvi 255W GPS의 위성 연결 성능에 대한 의견
    ├── screen_garmin_nuvi_255W_gps.txt.data              # Garmin Nuvi 255W GPS의 화면에 대한 의견
    ├── screen_ipod_nano_8gb.txt.data                     # iPod Nano 8GB의 화면 성능에 대한 의견
    ├── screen_netbook_1005ha.txt.data                    # ASUS Netbook 1005HA의 화면 성능에 대한 의견
    ├── seats_honda_accord_2008.txt.data                  # 2008년형 Honda Accord의 좌석에 대한 의견
    ├── service_bestwestern_hotel_sfo.txt.data            # Best Western Hotel (San Francisco)의 서비스에 대한 의견
    ├── service_holiday_inn_london.txt.data               # Holiday Inn (London)의 서비스에 대한 의견
    ├── service_swissotel_hotel_chicago.txt.data          # Swissotel (Chicago)의 서비스에 대한 의견
    ├── size_asus_netbook_1005ha.txt.data                 # ASUS Netbook 1005HA의 크기에 대한 의견
    ├── sound_ipod_nano_8gb.txt.data                      # iPod Nano 8GB의 사운드 성능에 대한 의견
    ├── speed_garmin_nuvi_255W_gps.txt.data               # Garmin Nuvi 255W GPS의 속도에 대한 의견
    ├── speed_windows7.txt.data                           # Windows 7의 속도에 대한 의견
    ├── staff_bestwestern_hotel_sfo.txt.data              # Best Western Hotel (San Francisco)의 직원 서비스에 대한 의견
    ├── staff_swissotel_chicago.txt.data                  # Swissotel (Chicago)의 직원 서비스에 대한 의견
    ├── transmission_toyota_camry_2007.txt.data           # 2007년형 Toyota Camry의 변속기에 대한 의견
    ├── updates_garmin_nuvi_255W_gps.txt.data             # Garmin Nuvi 255W GPS의 업데이트에 대한 의견
    ├── video_ipod_nano_8gb.txt.data                      # iPod Nano 8GB의 비디오 성능에 대한 의견
    └── voice_garmin_nuvi_255W_gps.txt.data               # Garmin Nuvi 255W GPS의 음성 안내 성능에 대한 의견
```

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Opinosis 데이터 파일 로드 및 리스트로 저장
import os, glob
path = "data/OpinosisDataset1.0/topics"
all_files = glob.glob(os.path.join(path, "*.data"))

filename_list = []
opinions_list = []

for file_ in all_files:
    df = pd.read_table(
        file_,
        header = None,
        index_col = None,
        encoding = "latin1"
    )

    # display(df)

    filename = os.path.basename(file_)
    filename = filename.split(".")[0]
    filename_list.append(filename)

    opinions = df.to_string(index = False, header = False)
    opinions_list.append(opinions)

print(filename_list, opinions_list)



In [3]:
document_df = pd.DataFrame({
    "filename" : filename_list,
    "opinions" : opinions_list
})

document_df

Unnamed: 0,filename,opinions
0,accuracy_garmin_nuvi_255W_gps,...
1,bathroom_bestwestern_hotel_sfo,...
2,battery-life_amazon_kindle,...
3,battery-life_ipod_nano_8gb,...
4,battery-life_netbook_1005ha,...
5,buttons_amazon_kindle,...
6,comfort_honda_accord_2008,...
7,comfort_toyota_camry_2007,...
8,directions_garmin_nuvi_255W_gps,...
9,display_garmin_nuvi_255W_gps,...


### 특성 벡터화 및 전처리
- TfidfVectorizer를 이용한 벡터화
- 불용어 처리
- ngram 설정
- 어근 분리 (Lemmatization)

In [4]:
# NLTK wordNet 다운로드
import nltk

nltk.download('wordnet')    # wordNet 코퍼스 (대형 의미사전)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [6]:
# WordNetLemmatizer 로 표제어 추출
from nltk.stem import WordNetLemmatizer     # 표제어(lemma) 추출 도구

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('running',pos='v'))  # 동사로 간주해 표제어 변환
print(lemmatizer.lemmatize('ran',pos='v'))      # 동사로 간주해 표제어 변환

run
run


In [8]:
import string           # 문자열 관련 도구 모음

string.punctuation      # 문장부호 문자들

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [None]:
# 표제어 추출 전처리 함수
def lemmatize(text):
    text = text.lower() # 소문자 변환(대소문자 통일)
    
    # 특수 문자 제거
    pucn_rem_dict = dict((ord(ch), None) for ch in string.punctuation)       # 문장부호 제거용 치환 딕셔너리
    text = text.translate(pucn_rem_dict)    # 키로 저장된 문자(문장부호)는 None으로 매핑 -> 삭제
    
    # 토큰화
    tokens = nltk.word_tokenize(text)
    
    lemmatizer = WordNetLemmatizer()    # 표제어 추출기
    return [lemmatizer.lemmatize(token, pos='v') for token in tokens]   # 동사 기준 표제어 변환

lemmatize("The Matrix is everywhere its all around us, here even in this room!!!!!. You can see it out your window or on your television.")

['the',
 'matrix',
 'be',
 'everywhere',
 'its',
 'all',
 'around',
 'us',
 'here',
 'even',
 'in',
 'this',
 'room',
 'you',
 'can',
 'see',
 'it',
 'out',
 'your',
 'window',
 'or',
 'on',
 'your',
 'television']

ord()는 문자 1개를 유니코드 포인트(정수)로 바꿔주는 함수  
punctuation => {33: None, 34: None, 35:None, 36:None,...}  
lemmatizer.lemmatize(token,pos='v') : 토큰을 동사로 가정하고 바꿀 수 있으면 바꾸고, 아니면 원형을 그대로 유지

In [None]:
# Lemmatize 적용한 TF_IDF 벡터화
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer(
    tokenizer=lemmatize,
    stop_words='english',
    ngram_range=(1,2),      # 1-gram ~ 2-gram
    max_df=0.85,            # 전체 문서에서 85% 초과에 등장하면 흔한단어이니 제외
    min_df=0.05
)

opinions_vecs = tfidf_vectorizer.fit_transform(document_df['opinions'])
print(opinions_vecs.toarray().shape)    # (문서 수, 특성 수)
print(opinions_vecs)                    # 희소ㅇ행렬 출력




(51, 4072)
<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 25383 stored elements and shape (51, 4072)>
  Coords	Values
  (0, 165)	0.7742542979210241
  (0, 1463)	0.07204716607359458
  (0, 3407)	0.016130297873354668
  (0, 2815)	0.03322048155310359
  (0, 1016)	0.1613798782436557
  (0, 1866)	0.020663607871398704
  (0, 1444)	0.013478481520354605
  (0, 1053)	0.007936997735176827
  (0, 2031)	0.01013758802410648
  (0, 360)	0.015122124086220925
  (0, 2358)	0.02934179604430104
  (0, 3165)	0.017183123909565296
  (0, 3550)	0.012166058278124673
  (0, 2226)	0.019655434084264962
  (0, 2686)	0.015122124086220925
  (0, 1459)	0.017322714375150577
  (0, 1799)	0.018011791518398646
  (0, 3143)	0.05196814312545173
  (0, 2540)	0.016699368276168712
  (0, 2266)	0.17743327660690134
  (0, 2803)	0.016699368276168712
  (0, 443)	0.015122124086220925
  (0, 1910)	0.04757120962562307
  (0, 1532)	0.2161414982207837
  (0, 3798)	0.017322714375150577
  :	:
  (50, 232)	0.012712026490235473
  (50, 2966)	0.0127

In [None]:
# TF_IDF 확인
tfidf_vectorizer.vocabulary_ #단어/구(ngram) -> 컬럼 인덱스 매핑 dictionary

{'accurate': 165,
 'garmin': 1463,
 'software': 3407,
 'provide': 2815,
 'directions': 1016,
 'intend': 1866,
 'function': 1444,
 'dont': 1053,
 'leave': 2031,
 'battery': 360,
 'mode': 2358,
 'say': 3165,
 'stop': 3550,
 'lunch': 2226,
 'play': 2686,
 'game': 1459,
 'immediate': 1799,
 'route': 3143,
 'online': 2540,
 'map': 2266,
 'program': 2803,
 'block': 443,
 'ive': 1910,
 'gps': 1532,
 'units': 3798,
 'build': 519,
 'cars': 594,
 'day': 928,
 'beat': 374,
 'accuracy': 164,
 'point': 2705,
 'b': 329,
 '100': 15,
 'everytime': 1206,
 'disappoint': 1025,
 '0': 0,
 '5': 101,
 'star': 3511,
 'honest': 1700,
 'review': 3012,
 'read': 2884,
 'aside': 280,
 'destination': 989,
 'throw': 3671,
 'close': 703,
 'fantastic': 1295,
 'feature': 1313,
 'plus': 2702,
 'hear': 1649,
 'pois': 2710,
 'pretty': 2749,
 'info': 1836,
 'amaze': 233,
 '1': 7,
 'state': 3519,
 'machine': 2230,
 'sign': 3320,
 'interstate': 1887,
 'highly': 1677,
 't': 3608,
 'depend': 970,
 'travel': 3737,
 'trip': 3745

### KMeans 군집화

In [20]:
from sklearn.cluster import KMeans      # KMeans 군집합 모델

kmeans = KMeans(
    n_clusters=4,                       # 군집(클러스터) 갯수
    max_iter=5000,                      # 최대 반복 횟수
    random_state=0
)

opinions_label = kmeans.fit_predict(opinions_vecs)  # TF-IDF 벡터로 학습 + 군집 라벨 예측
document_df['cluster'] = opinions_label             # 결과라벨을 cluster 컬럼에 추가
document_df

Unnamed: 0,filename,opinions,cluster
0,accuracy_garmin_nuvi_255W_gps,...,2
1,bathroom_bestwestern_hotel_sfo,...,1
2,battery-life_amazon_kindle,...,0
3,battery-life_ipod_nano_8gb,...,2
4,battery-life_netbook_1005ha,...,2
5,buttons_amazon_kindle,...,0
6,comfort_honda_accord_2008,...,3
7,comfort_toyota_camry_2007,...,3
8,directions_garmin_nuvi_255W_gps,...,2
9,display_garmin_nuvi_255W_gps,...,2


In [21]:
# 특정 클러스터 문서 확인
document_df[document_df['cluster'] == 1]    # 클러스터(라벨)이 1인 문서만 필터링

Unnamed: 0,filename,opinions,cluster
1,bathroom_bestwestern_hotel_sfo,...,1
13,food_holiday_inn_london,...,1
14,food_swissotel_chicago,...,1
15,free_bestwestern_hotel_sfo,...,1
20,location_bestwestern_hotel_sfo,...,1
21,location_holiday_inn_london,...,1
24,parking_bestwestern_hotel_sfo,...,1
30,rooms_bestwestern_hotel_sfo,...,1
31,rooms_swissotel_chicago,...,1
32,room_holiday_inn_london,...,1


In [25]:
# 클러스터 중식 킴워드(상위 TF-IDF) 추출
centers = kmeans.cluster_centers_   # 각 클러스터의 중심 벡터
print(centers.shape)

# 중심점에서 TF-IDF가 가장 높은 단어 20개 추출
centroid_arg_idx = centers.argsort()[:,::-1]        # 각 클러스터 값이 큰 특성 인덱스 순(내림차순)
top_20 = centroid_arg_idx[:,:20]                    # 상위 20개 특성 인덱스
feature_names = tfidf_vectorizer.get_feature_names_out()    # 특성(단어/바이그램) 이름 배열
feature_names[top_20]                               # 각 클러스터의 상위 20개 이름 출력

(4, 4072)


array([['kindle', 'price', 'page', 'button', 'font', 'battery', 'eye',
        'book', 'faster', 'navigation', 'font size', 'read', 'navigate',
        'easy', 'vista', 'screen', 'easy eye', 'kindle 2', 'hotel',
        'size'],
       ['room', 'service', 'hotel', 'staff', 'food', 'location', 'clean',
        'bathroom', 'park', 'room service', 'free', 'stay', 'friendly',
        'great location', 'wine', 'helpful', 'bed', 'breakfast', 'wharf',
        'tube'],
       ['screen', 'battery', 'keyboard', 'battery life', 'directions',
        'voice', 'map', 'life', 'video', 'feature', 'speed', 'display',
        'size', 'speed limit', 'accurate', 'satellite', 'update',
        'sound', 'performance', 'limit'],
       ['interior', 'seat', 'mileage', 'comfortable', 'gas',
        'gas mileage', 'transmission', 'car', 'performance', 'quality',
        'ride', 'comfort', 'camry', 'drive', 'toyota',
        'seat comfortable', 'accord', 'exterior', 'uncomfortable',
        'honda']], dtype=obj