# 문서 군집화 (Document Clustering)

- Opinion Review 데이터셋
    - 다양한 주제에 대한 텍스트 리뷰와 의견을 모은 데이터셋
    - https://archive.ics.uci.edu/dataset/191/opinosis+opinion+frasl+review

**데이터셋 구조**

```
OpinosisDataset1.0/
│
├── OpinosisDataset1.1.pdf         # 데이터셋 설명서
│
├── examples/                      # 예제 폴더
│   └─── prepare4rouge/            # 텍스트 요약 평가를 위한 준비 폴더
│       ├── input/                 # 입력 데이터 폴더
│       └── output/                # Rouge 평가 결과 폴더
│
├── scripts/                       # 스크립트 파일 폴더
├── summaries-gold/                # 골드 요약 데이터 모음
└── topics/                        # 주제별 원본 데이터 폴더
    ├── accuracy_garmin_nuvi_255W_gps.txt.data            # Garmin Nuvi 255W GPS의 정확성에 대한 의견
    ├── bathroom_bestwestern_hotel_sfo.txt.data           # Best Western Hotel (San Francisco)의 화장실 관련 의견
    ├── battery-life_amazon_kindle.txt.data               # Amazon Kindle의 배터리 수명에 대한 의견
    ├── battery-life_ipod_nano_8gb.txt.data               # iPod Nano 8GB의 배터리 수명에 대한 의견
    ├── battery-life_netbook_1005ha.txt.data              # ASUS Netbook 1005HA의 배터리 수명에 대한 의견
    ├── buttons_amazon_kindle.txt.data                    # Amazon Kindle의 버튼에 대한 의견
    ├── comfort_honda_accord_2008.txt.data                # 2008년형 Honda Accord의 편안함에 대한 의견
    ├── comfort_toyota_camry_2007.txt.data                # 2007년형 Toyota Camry의 편안함에 대한 의견
    ├── directions_garmin_nuvi_255W_gps.txt.data          # Garmin Nuvi 255W GPS의 길 안내 성능에 대한 의견
    ├── display_garmin_nuvi_255W_gps.txt.data             # Garmin Nuvi 255W GPS의 디스플레이 성능에 대한 의견
    ├── eyesight-issues_amazon_kindle.txt.data            # Amazon Kindle 사용 중 시력 관련 문제에 대한 의견
    ├── features_windows7.txt.data                        # Windows 7의 기능에 대한 의견
    ├── fonts_amazon_kindle.txt.data                      # Amazon Kindle의 폰트에 대한 의견
    ├── food_holiday_inn_london.txt.data                  # Holiday Inn (London)의 음식에 대한 의견
    ├── food_swissotel_chicago.txt.data                   # Swissotel (Chicago)의 음식에 대한 의견
    ├── free_bestwestern_hotel_sfo.txt.data               # Best Western Hotel (San Francisco) 무료 서비스에 대한 의견
    ├── gas_mileage_toyota_camry_2007.txt.data            # 2007년형 Toyota Camry의 연비에 대한 의견
    ├── interior_honda_accord_2008.txt.data               # 2008년형 Honda Accord의 실내 디자인에 대한 의견
    ├── interior_toyota_camry_2007.txt.data               # 2007년형 Toyota Camry의 실내 디자인에 대한 의견
    ├── keyboard_netbook_1005ha.txt.data                  # ASUS Netbook 1005HA의 키보드에 대한 의견
    ├── location_bestwestern_hotel_sfo.txt.data           # Best Western Hotel (San Francisco)의 위치에 대한 의견
    ├── location_holiday_inn_london.txt.data              # Holiday Inn (London)의 위치에 대한 의견
    ├── mileage_honda_accord_2008.txt.data                # 2008년형 Honda Accord의 연비에 대한 의견
    ├── navigation_amazon_kindle.txt.data                 # Amazon Kindle의 탐색 성능에 대한 의견
    ├── parking_bestwestern_hotel_sfo.txt.data            # Best Western Hotel (San Francisco)의 주차장에 대한 의견
    ├── performance_honda_accord_2008.txt.data            # 2008년형 Honda Accord의 성능에 대한 의견
    ├── performance_netbook_1005ha.txt.data               # ASUS Netbook 1005HA의 성능에 대한 의견
    ├── price_amazon_kindle.txt.data                      # Amazon Kindle의 가격에 대한 의견
    ├── price_holiday_inn_london.txt.data                 # Holiday Inn (London)의 가격에 대한 의견
    ├── quality_toyota_camry_2007.txt.data                # 2007년형 Toyota Camry의 품질에 대한 의견
    ├── room_holiday_inn_london.txt.data                  # Holiday Inn (London)의 객실에 대한 의견
    ├── rooms_bestwestern_hotel_sfo.txt.data              # Best Western Hotel (San Francisco)의 객실에 대한 의견
    ├── rooms_swissotel_chicago.txt.data                  # Swissotel (Chicago)의 객실에 대한 의견
    ├── satellite_garmin_nuvi_255W_gps.txt.data           # Garmin Nuvi 255W GPS의 위성 연결 성능에 대한 의견
    ├── screen_garmin_nuvi_255W_gps.txt.data              # Garmin Nuvi 255W GPS의 화면에 대한 의견
    ├── screen_ipod_nano_8gb.txt.data                     # iPod Nano 8GB의 화면 성능에 대한 의견
    ├── screen_netbook_1005ha.txt.data                    # ASUS Netbook 1005HA의 화면 성능에 대한 의견
    ├── seats_honda_accord_2008.txt.data                  # 2008년형 Honda Accord의 좌석에 대한 의견
    ├── service_bestwestern_hotel_sfo.txt.data            # Best Western Hotel (San Francisco)의 서비스에 대한 의견
    ├── service_holiday_inn_london.txt.data               # Holiday Inn (London)의 서비스에 대한 의견
    ├── service_swissotel_hotel_chicago.txt.data          # Swissotel (Chicago)의 서비스에 대한 의견
    ├── size_asus_netbook_1005ha.txt.data                 # ASUS Netbook 1005HA의 크기에 대한 의견
    ├── sound_ipod_nano_8gb.txt.data                      # iPod Nano 8GB의 사운드 성능에 대한 의견
    ├── speed_garmin_nuvi_255W_gps.txt.data               # Garmin Nuvi 255W GPS의 속도에 대한 의견
    ├── speed_windows7.txt.data                           # Windows 7의 속도에 대한 의견
    ├── staff_bestwestern_hotel_sfo.txt.data              # Best Western Hotel (San Francisco)의 직원 서비스에 대한 의견
    ├── staff_swissotel_chicago.txt.data                  # Swissotel (Chicago)의 직원 서비스에 대한 의견
    ├── transmission_toyota_camry_2007.txt.data           # 2007년형 Toyota Camry의 변속기에 대한 의견
    ├── updates_garmin_nuvi_255W_gps.txt.data             # Garmin Nuvi 255W GPS의 업데이트에 대한 의견
    ├── video_ipod_nano_8gb.txt.data                      # iPod Nano 8GB의 비디오 성능에 대한 의견
    └── voice_garmin_nuvi_255W_gps.txt.data               # Garmin Nuvi 255W GPS의 음성 안내 성능에 대한 의견
```

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Optinosis 데이터 파일 로드 및 리스트로 저장
import os, glob

path = './data/OpinosisDataset1.0/topics'
all_files = glob.glob(os.path.join(path, '*.data'))     # topics 폴더의 .data 파일 목록 수집

filename_list = []                                      # 파일만 저장
opinions_list = []                                      # 의견 저장

for file_ in all_files:                                 
    df = pd.read_table(                                 # 텍스트 파일을 표(DataFrame)로 읽기
        file_,                                          # 경로
        header = None,                                  # 첫 줄은 컬럼명으로 사용하지 않음
        index_col = None,                               # 인덱스 컬럼 지정 안함(기본, 0, 1, ...., n-1 자동생성)
        encoding = 'latin1'                             # latin1로 인코딩
    )
    # display(df)
    
    filename = os.path.basename(file_)
    filename = filename.split('.')[0]
    filename_list.append(filename)
    
    opinions = df.to_string(index=False,header=False) 
    
    opitions = df.to_string(index=False, header=False)      # DataFrame을 텍스트 변환 (인덱스/헤더 제거)
    
    opinions_list.append(opinions)                          # 의견을 리스트에 추가
    

In [3]:
# 파일명 의견 DataFrame 생성
document_df = pd.DataFrame({
    'filename': filename_list,          # 파일명 리스트->filename 컬럼
    'opinions': opinions_list           # 의견 리스트 -> opinions 컬럼
})

### 특성 벡터화 및 전처리
- TfidfVectorizer를 이용한 벡터화
- 불용어처리
- ngram 설정
- 어근 분리 (Lemmatization)

In [None]:
import nltk

nltk.download('wordnet')  # WordNet 코퍼스 (대형 의미사전)

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/gimdabin/nltk_data...


True

In [6]:
# WordNetLemmatizer로 표제어 추출
from nltk.stem import WordNetLemmatizer # 표제어(lemma) 추출 도구

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos='v')) # 동사로 간주해 표제어 변환
print(lemmatizer.lemmatize("ran", pos='v'))     # 동사로 간주해 표제어 변환

run
run


In [7]:
import string # 문자열 관련 도구 모음

string.punctuation # 문장부호 문자들

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [None]:
# 표제어 추출 전처리 함수
def lemmatizer(text) :
    text = text.lower() # 소문자 변환 (대소문자 통일)

    # 특수문자 제거
    pucn_rem_dict = dict((ord(ch), None) for ch in string.punctuation)  # 문장부호 제거용 치환 딕셔너리
    text = text.translate(pucn_rem_dict) # 키로 지정된 문자(문장부호)는 None으로 매핑 -> 삭제

   # 토큰화
    tokens = nltk.word_tokenize(text)  # 단어 단위로 토큰화

    lemmatizer = WordNetLemmatizer()   # 표제어 추출기
    return [lemmatizer.lemmatize(token, pos='v') for token in tokens]

lemmatizer("The Matrix is everywhere its all around us, here even in this room!!!! You can see it out your window or on your television.")  

['the',
 'matrix',
 'be',
 'everywhere',
 'its',
 'all',
 'around',
 'us',
 'here',
 'even',
 'in',
 'this',
 'room',
 'you',
 'can',
 'see',
 'it',
 'out',
 'your',
 'window',
 'or',
 'on',
 'your',
 'television']

ord()는 문자 1개를 유니코드 포인트(정수)로 바꿔주는 함수
punctuation => {33 : None, 34 : None, 35 : None, 36 : None, ...}
lemmatizer.lemmatize(token, pos='v'): 토큰을 동사로 가정하고 바꿀 수 있으면 바꾸고, 아니면 원형을 그대로 유지

In [20]:
# Lemmatize 적용한 TF-IDF 벡터화
from sklearn.feature_extraction.text import TfidfVectorizer # TF-IDF 벡터화 도구

tfidf_vectorizer = TfidfVectorizer(
    tokenizer = lemmatizer,  # 사용자 정의 토크나이저(표제어 추출) 적용
    stop_words = 'english',  # 영어 불용어 제거
    ngram_range = (1, 2),    # 1-gram, 2-gram
    max_df = 0.85,           # 전체 문서에서 85% 초과해 등장하면 흔한 단어니 제외
    min_df = 0.05,           # 전체 문서에서 5% 미만인 단어는 제외
)
opinions_vecs = tfidf_vectorizer.fit_transform(document_df['opinions']) # 문서들 TF-IDF 변환 (희소행렬)
print(opinions_vecs.toarray().shape) # (문서 수, 특성 수)
print(opinions_vecs) # 희소행렬 출력

(51, 4072)
<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 25383 stored elements and shape (51, 4072)>
  Coords	Values
  (0, 3309)	0.061413773738495284
  (0, 360)	0.6974844948540176
  (0, 2049)	0.3628533123078499
  (0, 2200)	0.031833191090912136
  (0, 1893)	0.23854523614076623
  (0, 2159)	0.08098139300539463
  (0, 3170)	0.0690635384589007
  (0, 1080)	0.05525083076712056
  (0, 1053)	0.021222127393941425
  (0, 4011)	0.011579468192645128
  (0, 1788)	0.01793835426893654
  (0, 3363)	0.01204008577772555
  (0, 843)	0.007752073337033438
  (0, 536)	0.00952469525108803
  (0, 3315)	0.01255501242846138
  (0, 570)	0.006229337923491895
  (0, 2068)	0.023814409386687812
  (0, 2723)	0.037665037285384145
  (0, 2830)	0.031799249056241964
  (0, 110)	0.015585329605834733
  (0, 2047)	0.01381270769178014
  (0, 2283)	0.015585329605834733
  (0, 3542)	0.0101084709399133
  (0, 4006)	0.015585329605834733
  (0, 141)	0.006102609526723694
  :	:
  (50, 2619)	0.013388287959511518
  (50, 1411)	0.013388287

In [None]:
# TF-IDF 사전 확인
tfidf_vectorizer.vocabulary_ # 단어/구(n-gram) -> 컬럼 인덱스 매핑 dictionary

{'short': 3309,
 'battery': 360,
 'life': 2049,
 'love': 2200,
 'ipod': 1893,
 'long': 2159,
 'scratch': 3170,
 'drain': 1080,
 'dont': 1053,
 'wonder': 4011,
 'im': 1788,
 'slide': 3363,
 'control': 843,
 'button': 536,
 'shut': 3315,
 'car': 570,
 'light': 2068,
 'portable': 2723,
 'quality': 2830,
 '5g': 110,
 'lie': 2047,
 'mature': 2283,
 'step': 3542,
 'wiser': 4006,
 'able': 141,
 'year': 4051,
 'old': 2535,
 'gain': 1456,
 'incremental': 1828,
 'improvements': 1813,
 'include': 1818,
 'brighter': 503,
 'screen': 3173,
 'video': 3882,
 'probably': 2784,
 'appeal': 254,
 'aspect': 283,
 'tantalize': 3615,
 'price': 2758,
 'point': 2705,
 '249': 56,
 '30gb': 79,
 'version': 3877,
 '349': 83,
 'huge': 1767,
 '80gb': 131,
 'rat': 2875,
 '6': 114,
 'proof': 2810,
 'color': 726,
 'isnt': 1900,
 'amaze': 233,
 'definitely': 958,
 'need': 2420,
 'case': 595,
 'want': 3925,
 'new': 2435,
 'upgrade': 3811,
 'mini': 2335,
 'doesnt': 1046,
 'especially': 1190,
 'youre': 4063,
 'record': 294

# KMeans 군집화

In [24]:
from sklearn.cluster import KMeans

kmeans = KMeans(
    n_clusters = 4,
    max_iter = 5000,
    random_state = 0
)

opinions_label = kmeans.fit_predict(opinions_vecs) # TF-IDF 벡터로 학습 + 군집 라벨 예측
document_df['cluster'] = opinions_label            # 결과 라벨을 cluster 컬럼에 추가
document_df 

Unnamed: 0,filename,opinions,cluster
0,battery-life_ipod_nano_8gb,...,1
1,gas_mileage_toyota_camry_2007,...,2
2,room_holiday_inn_london,...,3
3,location_holiday_inn_london,...,0
4,staff_bestwestern_hotel_sfo,...,3
5,voice_garmin_nuvi_255W_gps,...,1
6,speed_garmin_nuvi_255W_gps,...,1
7,size_asus_netbook_1005ha,...,1
8,screen_garmin_nuvi_255W_gps,...,1
9,battery-life_amazon_kindle,...,1


In [25]:
# 특정 클러스터 문서 확인
document_df[document_df['cluster'] == 1]

Unnamed: 0,filename,opinions,cluster
0,battery-life_ipod_nano_8gb,...,1
5,voice_garmin_nuvi_255W_gps,...,1
6,speed_garmin_nuvi_255W_gps,...,1
7,size_asus_netbook_1005ha,...,1
8,screen_garmin_nuvi_255W_gps,...,1
9,battery-life_amazon_kindle,...,1
10,satellite_garmin_nuvi_255W_gps,...,1
11,battery-life_netbook_1005ha,...,1
12,keyboard_netbook_1005ha,...,1
14,video_ipod_nano_8gb,...,1


In [None]:
# 클러스터 중심 키워드(상위 TF-IDF) 추출
centers = kmeans.cluster_centers_  # 각 클러스터의 중심 벡터
print(centers.shape)               # (클러스터 수, 특성 수)

# 중심점에서 TF-IDF가 가장 높은 단어 20개 추출
centroid_arg_idx = centers.argsort()[:, ::-1] # 
top_20 = centroid_arg_idx[:, :20]
feature_names = tfidf_vectorizer.get_feature_names_out()
feature_names[top_20]

(4, 4072)


array([['service', 'food', 'price', 'hotel', 'room', 'location',
        'room service', 'breakfast', 'stay', 'book', 'tube', 'kindle',
        'london', 'staff', 'great location', 'restaurant', 'eat',
        'gloucester', 'pay', 'night'],
       ['screen', 'battery', 'battery life', 'keyboard', 'life', 'size',
        'directions', 'voice', 'feature', 'map', 'video', 'button',
        'speed', 'display', 'page', 'easy', 'speed limit', 'accurate',
        'kindle', 'font'],
       ['interior', 'seat', 'mileage', 'comfortable', 'gas',
        'gas mileage', 'transmission', 'car', 'performance', 'quality',
        'ride', 'comfort', 'camry', 'drive', 'toyota',
        'seat comfortable', 'accord', 'exterior', 'uncomfortable',
        'honda'],
       ['room', 'staff', 'hotel', 'bathroom', 'clean', 'location',
        'park', 'free', 'friendly', 'wine', 'bed', 'helpful', 'wharf',
        'room clean', 'small', 'stay', 'valet', 'staff friendly', 'desk',
        'fishermans']], dtype=objec