<a href="https://colab.research.google.com/github/jeey00n/Caba_nlp/blob/main/nlp10_Text_Mining_guide.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)

## NLP, 텍스트 분석
- Natural Language Processing : 기계가 인간의 언어를 이해하고 해석하는데 중점. 기계번역, 질의응답시스템
- 텍스트 분석 : 비정형 텍스트에서 의미있는 정보를 추출하는 것에 중점
- NLP는 텍스트 분석을 향상하게 하는 기반 기술
- NLP와 텍스트 분석의 근간에는 머신러닝이 존재. 과거 언어적인 룰 기반 시스템에서 텍스트 데이터 기반으로 모델을 학습하고 예측
- 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용한 모델 수립, 정보 추출을 통해 인사이트 및 예측 분석 등의 분석 작업 수행
 - 텍스트 분류 : 신문기사 카테고리 분류, 스팸 메일 검출 프로그램. 지도학습
 - 감성 분석 : 감정/판단/믿음/의견/기분 등의 주관적 요소 분석. 소셜미디어 감정분석, 영화 리뷰, 여론조사 의견분석. 지도학습, 비지도학습
 - 텍스트 요약 : 텍스트 내에서 중요한 주제나 중심 사상을 추출. 토픽 모델링
 - 텍스트 군집화와 유사도 측정 : 비슷한 유형의 문서에 대해 군집화 수행. 비지도 학습
 
#### Text 분석 수행 프로세스
- 텍스트 정규화
 - 클랜징, 토큰화, 필터링/스톱워드 제거/철자 수정, Stemming, Lemmatization
- 피처 벡터화 변환
 - Bag of Words : Count 기반, TF-IDF 기반
 - Word2Vec
- ML 모델 수립 및 학습/예측/평가

#### 텍스트 전처리 - 텍스트 정규화
- 클렌징 : 분석에 방해되는 불필요한 문자, 기호를 사전에 제거. HTML, XML 태그나 특정 기호
- 토큰화 : 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화
- 필터링/스톱워드 제거/철자 수정 : 분석에 큰 의미가 없는 단어를 제거
- Stemming, Lemmatization : 문법적 또는 의미적으로 변화하는 단어의 원형을 찾음
 - Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용
 - Lemmatization이 Stemming 보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# 문장 토큰화(sent tokenize) : 마침표, 개행문자(\n), 정규표현식
from nltk import sent_tokenize
text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(sentences)
print(type(sentences), len(sentences))

['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']
<class 'list'> 3


In [None]:
# 단어 토큰화(word_tokenize) : 공백, 콤마, 마침표, 개행문자, 정규표현식
from nltk import word_tokenize

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(words)
print(type(words),len(words))


['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']
<class 'list'> 15


In [None]:
# 문서에 대해서 모든 단어를 토큰화
from nltk import word_tokenize, sent_tokenize

def tokenize_text(text):
    sentences = sent_tokenize(text) # 문장별 분리 토큰
    word_tokens = [word_tokenize(sentence) for sentence in sentences] # 문장별 단어 토큰화
    return word_tokens

word_tokens = tokenize_text(text_sample)
print(word_tokens)
print(type(word_tokens), len(word_tokens))   

[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]
<class 'list'> 3


In [None]:
# 스톱워드 제거 : the, is, a, will와 같이 문맥적으로 큰 의미가 없는 단어를 제거
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# NLTK english stopwords 갯수 확인
print(len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [None]:
# stopwords 필터링을 통한 제거
import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
for sentence in word_tokens:
  filtered_words = []
  for word in sentence:
    word = word.lower()
    if word not in stopwords:
      filtered_words.append(word)
  all_tokens.append(filtered_words)
print(all_tokens)
    

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


In [None]:
# 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 방법
# Stemmer(LancasterStemmer)
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('aumses'),stemmer.stem('amused'))
print(stemmer.stem('fancier'),stemmer.stem('fancist'))

work work work
amus aums amus
fant fant


In [None]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
# Lemmatization(WordNetLemmatizer) : 정확한 원형 단어 추출을 위해 단어의 품사를 직접 입력
from nltk.stem.wordnet import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('working','v'),lemma.lemmatize('works','v'),lemma.lemmatize('worked','v'))
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('aumses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fancier','a'))

work work work
amuse aumses amuse
fancy fancy


GPU vs CPU

In [None]:
import numpy as np
num_samples = 100
height = 71
width = 71
num_classes = 100

import tensorflow as tf
from keras.applications import Xception
import datetime
start = datetime.datetime.now()

model = Xception(weights = None,
                 input_shape=(height,width,3),
                 classes=num_classes)
model.compile(loss='categorical_crossentropy',
              optimizer='rmsprop')
x=np.random.random((num_samples,height,width,3))
y=np.random.random((num_samples,num_classes))

model.fit(x,y,epochs=3,batch_size=16)
model.save('my_model.h5')
end = datetime.datetime.now()
time_delta = end - start


Epoch 1/3
Epoch 2/3
Epoch 3/3


In [None]:
print('걸린시간:{}초'.format(time_delta.seconds))

걸린시간:9초


In [None]:
import numpy as np
num_samples = 100
height = 71
width = 71
num_classes = 100

import tensorflow as tf
from keras.applications import Xception
import datetime
start = datetime.datetime.now()

with tf.device('/cpu:0'):
  model = Xception(weights = None,
                  input_shape=(height,width,3),
                  classes=num_classes)
  model.compile(loss='categorical_crossentropy',
                optimizer='rmsprop')
  x=np.random.random((num_samples,height,width,3))
  y=np.random.random((num_samples,num_classes))

  model.fit(x,y,epochs=3,batch_size=16)
  model.save('my_model.h5')
end = datetime.datetime.now()
time_delta = end - start

Epoch 1/3
Epoch 2/3
Epoch 3/3


In [None]:
print('걸린시간:{}초'.format(time_delta.seconds))

걸린시간:39초


피처 벡터화 : One-hot encoding
Bag of Words : 문맥이나 순서를 무시하고 일괄적으로 단어에 대한 빈도 값을 부여해 피처 값을 추출하는 모델.  
단점 : 문맥 의미 반영 부족, 희소 행렬 문제.  
BOW에서 피처 벡터화 : 모든 단어를 컬럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것.  
피처 벡터화 방식 : 카운트 기반, TF-IDF(Term Frequency - Inverse Document Frequency) 기반 벡터화  
카운트 벡터화 : 카운트 값이 높을수록 중요한 단어로 인식. 특성상 자주 사용되는 보편적인 단어까지 높은 값 부여  
TF-IDF : 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서 패널티 부여. '빈번하게', '당연히', '조직', '업무' 등  
파라미터  
- max_df : 너무 높은 빈도수를 가지는 단어 피처를 제외  
- min_df : 너무 낮은 빈도수를 가지는 단어 피처를 제외  
- max_features : 추출하는 피처의 개수를 제한하며 정수로 값을 지정
- stop_words : 'english'로 지정하면 스톱 워드로 지정된 단어는 추출에서 제외
- n_gram_range : 튜플 형태로 (범위 최솟값, 범위 최댓값)을 지정
- analyzer : 피처 추출을 수행하는 단위. 디폴트는 'word'
- token_pattern : 토큰화를 수행하는 정규 표현식 패턴을 지정
- tokenizer : 토큰화를 별도의 커스텀 함수로 이용시 적용

In [None]:
# ndarray 객체 생성
import numpy as np
dense = np.array([[3,0,1],[0,2,0]])
dense

array([[3, 0, 1],
       [0, 2, 0]])

In [None]:
# 희소행렬 - COO 형식
from scipy import sparse
data = np.array([3,1,2]) # 0이 아닌 데이터
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])
sparse_coo = sparse.coo_matrix((data,(row_pos,col_pos)))
print(sparse_coo)

  (0, 0)	3
  (0, 2)	1
  (1, 1)	2


In [None]:
# 희소행렬 - COO vs CSR 형식
dense2 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])
# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2,(row_pos,col_pos)))
print(sparse_coo)
print(sparse_coo.toarray())
print()
# CSR 형식으로 변환
# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])
sparse_csr = sparse.csr_matrix((data2,col_pos,row_pos_ind))
print(sparse_csr)
print(sparse_csr.toarray())

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [None]:
# DictVectorizer : 문서에서 단어의 사용빈도를 나타내는 딕셔너리 정보를 입력받아 
# BOW 인코딩한 수치 벡터로 전환
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
D = [{'A':1,'B':2},{'B':3,'C':1}]
X = v.fit_transform(D)
print(X)
print(v.feature_names_)
print(v.vocabulary_)
print(v.transform({'C':4,'D':3}))


[[1. 2. 0.]
 [0. 3. 1.]]
['A', 'B', 'C']
{'A': 0, 'B': 1, 'C': 2}
[[0. 0. 4.]]


In [None]:
# CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This is the second document',
    'And the third one.',
    'Is this the first document?',
    'The last document?',
]
vect = CountVectorizer()
vect.fit(corpus)
print(vect.get_feature_names())
print()
print(vect.vocabulary_)

['and', 'document', 'first', 'is', 'last', 'one', 'second', 'the', 'third', 'this']

{'this': 9, 'is': 3, 'the': 7, 'first': 2, 'document': 1, 'second': 6, 'and': 0, 'third': 8, 'one': 5, 'last': 4}


In [None]:
print(vect.transform(['This is the second document']).toarray())

[[0 1 0 1 0 0 1 1 0 1]]


In [None]:
print(vect.transform(['Something completely new.']).toarray())

[[0 0 0 0 0 0 0 0 0 0]]


In [None]:
print(vect.transform(corpus).toarray())

[[0 1 1 1 0 0 0 1 0 1]
 [0 1 0 1 0 0 1 1 0 1]
 [1 0 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 0 1 0 1]
 [0 1 0 0 1 0 0 1 0 0]]


In [None]:
# Stop Words는 문서에서 단어장을 생성할 때 무시할 수 있는 단어. 
# 보통 영어의 관사, 접속사, 한국어의 조사 등

vect = CountVectorizer(stop_words=['and','is','the','this']).fit(corpus)
vect.vocabulary_

{'first': 1, 'document': 0, 'second': 4, 'third': 5, 'one': 3, 'last': 2}

In [None]:
vect = CountVectorizer(stop_words='english').fit(corpus)
vect.vocabulary_

{'document': 0, 'second': 1}

In [None]:
# analyzer, tokenizer, token_pattern 등의 인수로 사용할 토큰 생성기를 선택
vect = CountVectorizer(analyzer="char").fit(corpus)
vect.vocabulary_

{'t': 16,
 'h': 8,
 'i': 9,
 's': 15,
 ' ': 0,
 'e': 6,
 'f': 7,
 'r': 14,
 'd': 5,
 'o': 13,
 'c': 4,
 'u': 17,
 'm': 11,
 'n': 12,
 '.': 1,
 'a': 3,
 '?': 2,
 'l': 10}

In [None]:
vect = CountVectorizer(token_pattern='t\w+').fit(corpus)
vect.vocabulary_

{'this': 2, 'the': 0, 'third': 1}

In [None]:
# n-그램은 단어장 생성에 사용할 토큰의 크기 결정
vect = CountVectorizer(ngram_range=(1,2)).fit(corpus)
vect.vocabulary_

{'this': 20,
 'is': 5,
 'the': 13,
 'first': 3,
 'document': 2,
 'this is': 21,
 'is the': 6,
 'the first': 14,
 'first document': 4,
 'second': 11,
 'the second': 16,
 'second document': 12,
 'and': 0,
 'third': 18,
 'one': 10,
 'and the': 1,
 'the third': 17,
 'third one': 19,
 'is this': 7,
 'this the': 22,
 'last': 8,
 'the last': 15,
 'last document': 9}

In [None]:
vect = CountVectorizer(ngram_range=(1,2),token_pattern='t\w+').fit(corpus)
vect.vocabulary_

{'this': 3, 'the': 0, 'this the': 4, 'third': 2, 'the third': 1}

TF-IDF(Term Frequency – Inverse Document Frequency) 인코딩은 단어를 갯수 그대로 카운트하지 않고 모든 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소  
문서 d(document)와 단어 t 에 대해 다음과 같이 계산  

tf-idf(d,t)=tf(d,t)⋅idf(t)

tf(d,t): term frequency. 특정한 단어의 빈도수  
idf(t) : inverse document frequency. 특정한 단어가 들어 있는 문서의 수에 반비례하는 수  
n : 전체 문서의 수  
df(t) : 단어  t 를 가진 문서의 수  
idf(d,t)=log(n/(1+df(t))

In [None]:
corpus = ["""
The Corpus of Contemporary American English (COCA) is the only large, 
genre-balanced corpus of American English. COCA is probably the most 
widely-used corpus of English, and it is related to many other corpora of 
English that we have created, which offer unparalleled insight into variation 
in English.
"""]


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidv = TfidfVectorizer(stop_words='english').fit(corpus)
print(tfidv.get_feature_names())
print()
print(tfidv.vocabulary_)
print()
print(tfidv.transform(corpus).toarray())
print(tfidv.transform(['This is the second document']).toarray())

['american', 'balanced', 'coca', 'contemporary', 'corpora', 'corpus', 'created', 'english', 'genre', 'insight', 'large', 'offer', 'probably', 'related', 'unparalleled', 'used', 'variation', 'widely']

{'corpus': 5, 'contemporary': 3, 'american': 0, 'english': 7, 'coca': 2, 'large': 10, 'genre': 8, 'balanced': 1, 'probably': 12, 'widely': 17, 'used': 15, 'related': 13, 'corpora': 4, 'created': 6, 'offer': 11, 'unparalleled': 14, 'insight': 9, 'variation': 16}

[[0.26726124 0.13363062 0.26726124 0.13363062 0.13363062 0.40089186
  0.13363062 0.6681531  0.13363062 0.13363062 0.13363062 0.13363062
  0.13363062 0.13363062 0.13363062 0.13363062 0.13363062 0.13363062]]
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]


In [2]:
# KoNLPy 설치
# Java 환경 세팅
# JPype1-1.1.2-cp37-cp37m-win_amd64.whl 다운로드 후 C:\Users\admin 경로에 저장
# (caba)C:\Users\admin>pip install JPype1-1.1.2-cp37-cp37m-win_amd64.whl
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 166kB/s 
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/cd/a5/9781e2ef4ca92d09912c4794642c1653aea7607f473e156cf4d423a881a1/JPype1-1.2.1-cp37-cp37m-manylinux2010_x86_64.whl (457kB)
[K     |████████████████████████████████| 460kB 48.0MB/s 
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 14.9MB/s 
[?25hCollecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Installing collected packages: JPype1, 

In [None]:
from konlpy.tag import Okt

[KoNLPy] https://mr-doosun.tistory.com/22

In [None]:
# 형태소 분석으로 문장을 단어로 분할
okt = Okt()
print(okt.morphs('단독입찰보다 복수입찰의 경우'))

['단독', '입찰', '보다', '복수', '입찰', '의', '경우']


In [None]:
# 조사 없이 단어만
print(okt.nouns('유일하게 항공기 체계 종합개발 경험을 갖고 있는 KAI는'))
print(okt.nouns('나는 프로젝트를 하고있는데 흥미진진하고 재미있다'))

['항공기', '체계', '종합', '개발', '경험']
['나', '프로젝트', '흥미진진']


In [None]:
print(okt.phrases('날카로운 분석과 신뢰감 있는 진행으로'))

['날카로운 분석', '날카로운 분석과 신뢰감', '날카로운 분석과 신뢰감 있는 진행', '분석', '신뢰', '진행']


In [None]:
# 품사가 튜플 형태로 출력
print(okt.pos('이것도 되나욬ㅋㅋ', norm=True))

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나요', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]


In [None]:
# 원형
print(okt.pos('이것도 되나욬ㅋㅋ', norm=True, stem=True))

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]


In [None]:
# join true - 슬래시로 묶어 준다
print(okt.pos('이것도 되나욬ㅋㅋ', norm=True, stem=True, join=True))

['이/Determiner', '것/Noun', '도/Josa', '되다/Verb', 'ㅋㅋ/KoreanParticle']


In [None]:
# 명사인 품사만 선별해 리스트에 담기
morph =  okt.pos('아름다운 꽃과 파란 하늘')
print(morph)
noun_list = []
for word, tag in morph:
    if tag == 'Noun':
        noun_list.append(word)
print(noun_list)

[('아름다운', 'Adjective'), ('꽃', 'Noun'), ('과', 'Josa'), ('파란', 'Noun'), ('하늘', 'Noun')]
['꽃', '파란', '하늘']


Q. 아래와 같이 분할하세요.  

- 명사 '나는 오늘 방콕에 가고싶다.'
- 원형 '나는 오늘 방콕에 갔다.'
- 형태소 '친절한 코치와 재미있는 친구들이 있는 도장에 가고 싶다.'
- 형태소/태그' 나는 오늘도 장에 가고싶다.'
- 정규화, 원형' 나는 오늘 장에 가고싶을깤ㅋㅋ?'

In [None]:
malist1 = okt.nouns('나는 오늘 방콕에 가고싶다.')
malist2 = okt.pos('나는 오늘 방콕에 갔다.', norm=True, stem=True)
malist3 = okt.morphs('친절한 코치와 재미있는 친구들이 있는 도장에 가고 싶다.')
malist4 = okt.pos('나는 오늘도 장에 가고싶다.', norm=True, stem=True, join=True)
malist5 = okt.pos('나는 오늘 장에 가고싶을깤ㅋㅋ?', norm=True, stem=True)
print('명사')
print(malist1)
print('원형')
print(malist2)
print('형태소')
print(malist3)
print('형태소/태그')
print(malist4)
print('정규화, 원형')
print(malist5)

명사
['나', '오늘', '방콕']
원형
[('나', 'Noun'), ('는', 'Josa'), ('오늘', 'Noun'), ('방콕', 'Noun'), ('에', 'Josa'), ('가다', 'Verb'), ('.', 'Punctuation')]
형태소
['친절한', '코치', '와', '재미있는', '친구', '들', '이', '있는', '도장', '에', '가고', '싶다', '.']
형태소/태그
['나/Noun', '는/Josa', '오늘/Noun', '도/Josa', '장/Noun', '에/Josa', '가다/Verb', './Punctuation']
정규화, 원형
[('나', 'Noun'), ('는', 'Josa'), ('오늘', 'Noun'), ('장', 'Noun'), ('에', 'Josa'), ('가다', 'Verb'), ('ㅋㅋ', 'KoreanParticle'), ('?', 'Punctuation')]


#### 텍스트 분류
- 특정 문서의 분류를 학습 데이터를 통해 학습해 모델을 생성한 뒤 이 학습 모델을 이용해 다른 문서의 분류를 예측
- 텍스트를 피처 벡터화로 변환, 희소 행렬로 만들고 로지스틱 회귀를 이용해 분류 수행
- Count 기반 과 TF-IDF 기반의 벡터화를 각각 적용, 성능 비교
- 피처 벡터화를 위한 파라미터와 GridSearchCV 기반의 하이퍼파라미터 튜닝을 일괄적으로 수행

In [None]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all',random_state=0)
news_data.keys()

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])

In [None]:
import pandas as pd
print(news_data.target)
a = pd.Series(news_data.target).unique()
sorted(a)

[ 6  1 15 ...  0  5  8]


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

In [None]:
news_data.DESCR



In [None]:
# 텍스트 정규화
# 뉴스그룹 기사내용을 제외하고 다른 정보 제거
# 제목, 소속, 이메일 등 헤더와 푸터 정보들은 분류의 타겟 클래스 값과 유사할 수 있음
train_news = fetch_20newsgroups(subset='train', remove=('header','footer','quotes'),
                               random_state=0)
X_train = train_news.data
y_train = train_news.target
test_news = fetch_20newsgroups(subset='test', remove=('header','footer','quotes'),
                               random_state=0)
X_test = test_news.data
y_test = test_news.target
print(len(X_train), len(X_test))

11314 7532


In [None]:
print(news_data.target_names)
print(pd.Series(y_test).value_counts().sort_index())

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']
0     319
1     389
2     394
3     392
4     385
5     395
6     390
7     396
8     398
9     397
10    399
11    396
12    393
13    396
14    394
15    398
16    364
17    376
18    310
19    251
dtype: int64


In [None]:
# 피터 벡터화 변환
from sklearn.feature_extraction.text import CountVectorizer
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)
# 학습 데이터로 fit()된 Countervectorizer를 이용, 테스트 데이터 피처 벡터화 변환
# (피처 개수가 동일해야 함)
X_test_cnt_vect = cnt_vect.transform(X_test)
print(X_train_cnt_vect.shape)
print(X_test_cnt_vect.shape)

(11314, 120756)
(7532, 120756)


In [None]:
# 머신러닝 모델 학습/예측/평가
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings('ignore')

lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect, y_train)
lr_pred = lr_clf.predict(X_test_cnt_vect)
print(accuracy_score(y_test,lr_pred))

0.7523898035050451


In [None]:
# 피처 벡터화 변환 : TF-IDF 벡터화
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect,y_train)
lr_pred = lr_clf.predict(X_test_tfidf_vect)
print(accuracy_score(y_test,lr_pred))

0.7841210833775889


In [None]:
# stop words 필터링 추가, ngram을 기본 (1,1)에서 (1,2)로 max_df=300으로 변경해 
# 피처 벡터화 적용
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1,2),max_df=300)
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
lr_pred = lr_clf.predict(X_test_tfidf_vect)
print(accuracy_score(y_test, lr_pred))

0.774429102496017


[과제]
Random Forest, SVM, DT, KNN을 적용 뉴스그룹에 대한 분류 예측을 수행하세요.

In [None]:
from sklearn.model_selection import GridSearchCV
# 최적 C값 도출 튜닝 수행. cv는 3 Fold셋으로 설정
params={'C':[5,10]}
gcv_lr = GridSearchCV(lr_clf,param_grid=params,cv=3,
                     scoring='accuracy',verbose=1)
gcv_lr.fit(X_train_tfidf_vect,y_train)
print(gcv_lr.best_params_)
lr_pred = gcv_lr.predict(X_test_tfidf_vect)
print(accuracy_score(y_test,lr_pred))

Fitting 3 folds for each of 2 candidates, totalling 6 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   6 out of   6 | elapsed: 33.7min finished


{'C': 10}
0.7980616038236856


In [None]:
# 시간 소요
# 사이킷런 파이프라인
# TfidfVectorizer 객체를 tfidf_vect 객체명으로 LogisticRegression 객체를
# lr_clf 객체명으로 생성하는 pipeline 생성
from sklearn.pipeline import Pipeline
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english',
                                  ngram_range=(1,2),max_df=300)),
    ('lr_clf', LogisticRegression(C=10))])
pipeline.fit(X_train,y_train)
pred=pipeline.predict(X_test)
print(accuracy_score(y_test,pred)) 


In [None]:
# 시간 소요
# 사이킷런 파이프라인과 GridSearchCV와의 결합
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english')),
    ('lr_clf',LogisticRegression())
])
params = {'tfidf_vect__ngram_range':[(1,1),(1,2),(1,3)],
         'tfidf_vect__max_df':[100,300,700],
         'lr_clf__C':[1,5,10]}
grid_cv_pipe = GridSearchCV(pipeline,param_grid=params,cv=3,
                           scoring='accuracy',verbose=1)
grid_cv_pipe.fit(X_train,y_train)
print(grid_cv_pipe.best_params_,grid_cv_pipe.best_score_)
pred = grid_cv_pipe.predict(X_test)
print(accuracy_score(y_test,pred))

#### 네이버 영화 평점 train 데이터 기반으로 다음 사항에 유의하여 감정분석 후 test 데이터를 이용해 최종 감정 예측을 수행하세요. 
* 네이버 영화 평점 데이터는 http://github.com/e9t/nsmc에서 ratings.txt(전체), ratings._train.txt(학습), rating_test.txt(테스트)를 다운로드 
* 데이터 세트 요약 정보

  - 칼럼 : id, document
  - label : the sentiment class of the review (0:negative, 1: positive)
  - ratings.txt : All 200K reviews
  - ratings_test : 50K reviews held out for testing
  - ratings_train : 150K reviews for training
  
* 정규 표현식을 이용하여 숫자를 공백으로 변경(정규 표현식으로 \d 는 숫자를 의미함.) 
* 테스트 데이터 셋을 로딩하고 동일하게 Null 및 숫자를 공백으로 변환
* 한글 형태소 분석을 통해 형태소 단어로 토큰화(tokenizer 사용자 함수 작성 추천)
  - 한글 형태소 엔진은 SNS 분석에 적합한 Okt 클래스를 이용
  - morphs() 메서드는 입력 인자로 들어온 문장을 형태소 단어 형태로 토큰화해 list 객체 반환 
  - Okt 객체의 morphs( ) 객체를 이용한 tokenizer를 사용. ngram_range는 (1,2)
* 사이킷런의 TfidVectorizor를 이용, TF-IDF 피처 모델을 생성(10분 이상 소요)
* DT, RF, LR 을 이용하여 감성 분석 Classification 수행
* 3개 분류 모델별 교차 검증 및 Parameter 최적화를 GridSearchCV 를 이용하여 수행(최적 분류 모델 선정)
  - DT params = {'max_depth':[2,3,5,10], 'min_samples_split':[2,3,5],'min_samples_leaf':[1,5,8]}
  - RF params = {'n_estimators':[50,100, 200], 'max_depth':[2,3,5], 'min_samples_leaf':[1,5,8]}  
  - LR params = { 'C': [1 ,3.5, 4.5, 5.5, 10 ] }\
    C는 규제 강도를 조절하는 alpha 값의 역수로 작을 수록 규제 강도가 큼
  - param_grid=params , cv=3 ,scoring='accuracy', verbose=1(학습진행 상황 표시) 
* 학습데이터에 사용된 TfidVectorizer 객체 변수인 tfidf_vect를 이용해 transform()을 테스트 데이터의 document 칼럼에 수행

In [9]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
import seaborn as sns
#컬럼 한꺼번에보기
from IPython.display import display
pd.options.display.max_columns = None
import platform
platform.system()

# 운영체제별 한글 폰트 설정
if platform.system() == 'Darwin': # Mac 환경 폰트 설정
    plt.rc('font', family='AppleGothic')
elif platform.system() == 'Windows': # Windows 환경 폰트 설정
    plt.rc('font', family='Malgun Gothic')

plt.rc('axes', unicode_minus=False) # 마이너스 폰트 설정


# 글씨 선명하게 출력하는 설정
%config InlineBackend.figure_format = 'retina'

In [3]:
from google.colab import files
file_uploaded = files.upload()

Saving ratings.txt to ratings.txt


In [11]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [13]:
import io
import pandas as pd

df = pd.read_csv('/content/ratings.txt',sep='\t')
df.head()

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [4]:
file_uploaded = files.upload()

Saving ratings_test.txt to ratings_test.txt


In [5]:
file_uploaded = files.upload()

Saving ratings_train.txt to ratings_train.txt


In [14]:
train_df = pd.read_csv('/content/ratings_train.txt',sep='\t')
train_df.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [16]:
train_df.isnull().sum()

id          0
document    5
label       0
dtype: int64

In [15]:
test_df = pd.read_csv('/content/ratings_test.txt',sep='\t')
test_df.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


In [17]:
test_df.isnull().sum()

id          0
document    3
label       0
dtype: int64

In [18]:
import re
train_df=train_df.fillna(' ')
train_df['document']=train_df['document'].apply(lambda x:re.sub(r"\d+"," ",x))
test_df=test_df.fillna(' ')
test_df.document=test_df.document.apply(lambda x:re.sub(r"\d+"," ",x))

In [22]:
from konlpy.tag import Okt
import numpy as np
import warnings
warnings.filterwarnings('ignore')

okt = Okt()
def okt_tokenizer(text):
  tokens_ko = okt.morphs(text)
  return tokens_ko

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

tfidf_vect = TfidfVectorizer(tokenizer=okt_tokenizer, ngram_range=(1,2),min_df=3,max_df=0.9)
tfidf_vect.fit(train_df.document)
tfidf_matrix_train = tfidf_vect.transform(train_df.document)

In [23]:
# Logistic Regression을 이용하여 감성 분석 Classification 수행
# 교차 검증 (cv=3) 및 하이퍼파라미터 튜닝
# 로지스틱 회귀의 하이퍼 파라미터 C를 설정

from sklearn.linear_model import LogisticRegression


lr_clf = LogisticRegression()
params = {'C':[1, 3.5, 4.5, 5.5, 10]}
grid_cv = GridSearchCV(lr_clf, param_grid = params, cv = 3, scoring='accuracy', verbose=1)
grid_cv.fit(tfidf_matrix_train, train_df.label)
print(grid_cv.best_params_, round(grid_cv.best_score_, 4))

Fitting 3 folds for each of 5 candidates, totalling 15 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done  15 out of  15 | elapsed:  1.5min finished


{'C': 3.5} 0.8593


In [None]:
# 테스트세트를 이용해 최종 감성 분석 예측 수행
# 학습데이터를 적용한 TfidfVectorizer를 이용하여 
# 테스트데이터를 TF-IDF 값으로 Feature 변환
# 이유는 학습 시 설정된 TfidfVectorizer의 피처개수와 
# 테스트데이터를 변환할 피처 개수가 같아야 하기 때문이다.
# 학습 데이터에 사용된 TfidfVectorizer 객체변수인 tfidf_vect를 이용해 
# transform()을 테스트데이터의 document칼럼에 수행

In [24]:
from sklearn.metrics import accuracy_score
tfidf_matrix_test = tfidf_vect.transform(test_df.document)
best_estimator = grid_cv.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)
print(accuracy_score(test_df.label, preds))

0.86186


In [28]:
# rf
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier()
params = {'n_estimators':[50,100,200],'max_depth':[2,3,5],'min_samples_leaf':[1,5,8]}
grid_cv = GridSearchCV(rf_clf, param_grid = params, cv = 3, scoring='accuracy', verbose=1)
grid_cv.fit(tfidf_matrix_train, train_df.label)
print(grid_cv.best_params_, round(grid_cv.best_score_, 4))
tfidf_matrix_test = tfidf_vect.transform(test_df.document)
best_estimator = grid_cv.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)
print(accuracy_score(test_df.label, preds))

Fitting 3 folds for each of 27 candidates, totalling 81 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done  81 out of  81 | elapsed:  5.4min finished


{'max_depth': 5, 'min_samples_leaf': 5, 'n_estimators': 200} 0.7562
0.75002


In [29]:
# dt
from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier()
params = {'max_depth':[2,3,5,10],'min_samples_split':[2,3,5],'min_samples_leaf':[1,5,8]}
grid_cv = GridSearchCV(dt_clf, param_grid = params, cv = 3, scoring='accuracy', verbose=1)
grid_cv.fit(tfidf_matrix_train, train_df.label)
print(grid_cv.best_params_, round(grid_cv.best_score_, 4))
tfidf_matrix_test = tfidf_vect.transform(test_df.document)
best_estimator = grid_cv.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)
print(accuracy_score(test_df.label, preds))

Fitting 3 folds for each of 36 candidates, totalling 108 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done 108 out of 108 | elapsed:  4.4min finished


{'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 3} 0.5848
0.58618


### 토픽 모델링

- 머신러닝 기반의 토픽 모델링을 적용해 문서 집합에 숨어 있는 주제를 찾아냄
- 사람이 수행하는 토픽 모델링은 더 함축적인 의미로 문장을 요약하는 것에 반해 머신러닝 기반의 토픽 모델링은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출
- LSA(Latent Sementic Analysis)와 LDA(Latent Dirichlet Allocation) 기법
  - LSA는 단어-문서행렬(Word-Document Matrix), 단어-문맥행렬(window based co-occurrence matrix) 등 입력 데이터에 특이값 분해를 수행해 데이터의 차원 수를 줄여 계산 효율성을 키우면서 행간에 숨어있는(latent) 의미를 이끌어내기 위한 방법론
  - LDA는 미리 알고 있는 주제별 단어 수 분포를 바탕으로, 주어진 문서에서 발견된 단어 수 분포를 분석, 해당 문서가 어떤 주제들을 함께 다루고 있지를 예측

In [30]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [31]:
cats = ['rec.motorcycles','rec.sport.baseball','comp.graphics','comp.windows.x',
        'talk.politics.mideast','soc.religion.christian','sci.electronics',
        'sci.med']

news_df = fetch_20newsgroups(subset='all',remove=('headers','footers','quotes'),
                             categories = cats, random_state = 0)

#                            max_df와 min_df는 퍼센트나 갯수로 줄 수 있음
count_vect = CountVectorizer(max_df=0.95, max_features = 1000, min_df=2,
                             stop_words='english', ngram_range=(1,2))
feat_vect = count_vect.fit_transform(news_df.data)
print('CountVectorizer Shape:', feat_vect.shape)

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


CountVectorizer Shape: (7862, 1000)


In [32]:
lda = LatentDirichletAllocation(n_components=8, random_state=0)
lda.fit(feat_vect)

LatentDirichletAllocation(batch_size=128, doc_topic_prior=None,
                          evaluate_every=-1, learning_decay=0.7,
                          learning_method='batch', learning_offset=10.0,
                          max_doc_update_iter=100, max_iter=10,
                          mean_change_tol=0.001, n_components=8, n_jobs=None,
                          perp_tol=0.1, random_state=0, topic_word_prior=None,
                          total_samples=1000000.0, verbose=0)

In [33]:
print(lda.components_.shape)

(8, 1000)


In [34]:
lda.components_

array([[3.60992018e+01, 1.35626798e+02, 2.15751867e+01, ...,
        3.02911688e+01, 8.66830093e+01, 6.79285199e+01],
       [1.25199920e-01, 1.44401815e+01, 1.25045596e-01, ...,
        1.81506995e+02, 1.25097844e-01, 9.39593286e+01],
       [3.34762663e+02, 1.25176265e-01, 1.46743299e+02, ...,
        1.25105772e-01, 3.63689741e+01, 1.25025218e-01],
       ...,
       [3.60204965e+01, 2.08640688e+01, 4.29606813e+00, ...,
        1.45056650e+01, 8.33854413e+00, 1.55690009e+01],
       [1.25128711e-01, 1.25247756e-01, 1.25005143e-01, ...,
        9.17278769e+01, 1.25177668e-01, 3.74575887e+01],
       [5.49258690e+01, 4.47009532e+00, 9.88524814e+00, ...,
        4.87048440e+01, 1.25034678e-01, 1.25074632e-01]])

In [35]:
feature_names = count_vect.get_feature_names()
len(feature_names)

1000

In [36]:
def display_topics(model, feature_names, no_top_words):
  for topic_index, topic in enumerate(model.components_):
    print('Topic #', topic_index)

#                                         역순으로
    topic_word_indexes = topic.argsort()[::-1]
    top_indexes = topic_word_indexes[:no_top_words]

    feature_concat = ' '.join([feature_names[i] for i in top_indexes])
    print(feature_concat)

feature_names = count_vect.get_feature_names()

display_topics(lda, feature_names, 15)

Topic # 0
year 10 game medical health team 12 20 disease cancer 1993 games years patients good
Topic # 1
don just like know people said think time ve didn right going say ll way
Topic # 2
image file jpeg program gif images output format files color entry 00 use bit 03
Topic # 3
like know don think use does just good time book read information people used post
Topic # 4
armenian israel armenians jews turkish people israeli jewish government war dos dos turkey arab armenia 000
Topic # 5
edu com available graphics ftp data pub motif mail widget software mit information version sun
Topic # 6
god people jesus church believe christ does christian say think christians bible faith sin life
Topic # 7
use dos thanks windows using window does display help like problem server need know run


문서 군집화
- 비슷한 텍스트 구성의 문서를 군집화하여 같은 카테고리 소속으로 분류
- 학습 데이터 세트가 필요 없는 비지도학습 기반으로 동작

In [37]:
# glob 모듈의 glob함수는 path로 지정한 디렉토리 밑에 있는 모든 .data 파일들의 파일명을 리스트로 반환

import pandas as pd
import glob, os

path = '/content'
all_files = glob.glob(os.path.join(path,'*.data'))

filename_list = []
opinion_text = []

for file_ in all_files:
  df = pd.read_table(file_, index_col = None, header = 0, encoding = 'latin1')

  filename_ = file_.split('/')[-1]
  filename = filename_.split('.')[0]

  filename_list.append(filename)
  opinion_text.append(df.to_string())

document_df = pd.DataFrame({'filename':filename_list, 'opinion_text':opinion_text})
document_df.head()

Unnamed: 0,filename,opinion_text
0,price_holiday_inn_london,...
1,service_holiday_inn_london,...
2,mileage_honda_accord_2008,...
3,performance_honda_accord_2008,...
4,interior_toyota_camry_2007,...


In [39]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [40]:
from nltk.stem import WordNetLemmatizer
import string

remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)
# out: {33: None, 34: None, 36:None, 37:None, 38:None, 39: ,,,}
# {Integer:None} 형태로 딕셔너리 묶어 줌.

lemma = WordNetLemmatizer()

def LemTokens(tokens):
  return [lemma.lemmatize(token) for token in tokens]

def LemNormalize(text):
  return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

'''The translate method will convert all puctuations defind in the keys of remove_punct_dict 
to their respective values which are None.
For example, "hi!!..".translate(remove_punct_dict) will return Out: "hi"'''

'The translate method will convert all puctuations defind in the keys of remove_punct_dict \nto their respective values which are None.\nFor example, "hi!!..".translate(remove_punct_dict) will return Out: "hi"'

In [43]:
# 피처 벡터화
import nltk
nltk.download('punkt')
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer(tokenizer=LemNormalize, stop_words='english',
                             ngram_range=(1,2), min_df = 0.05, max_df = 0.85)
feature_vect = tfidf_vect.fit_transform(document_df['opinion_text'])

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [44]:
from sklearn.cluster import KMeans

km_cluster = KMeans(n_clusters = 5, max_iter = 10000, random_state = 0)
km_cluster.fit(feature_vect)
cluster_label = km_cluster.labels_
cluster_centers = km_cluster.cluster_centers_
document_df['cluster_label'] = cluster_label
document_df.head()

Unnamed: 0,filename,opinion_text,cluster_label
0,price_holiday_inn_london,...,2
1,service_holiday_inn_london,...,2
2,mileage_honda_accord_2008,...,0
3,performance_honda_accord_2008,...,0
4,interior_toyota_camry_2007,...,0


In [62]:
# 적합한 군집 개수를 확인하기

# document_df[document_df['cluster_label']==0].sort_values(by='filename') # 자동차
# document_df[document_df['cluster_label']==1].sort_values(by='filename') # 차량용 네비
# document_df[document_df['cluster_label']==2].sort_values(by='filename') # 호텔
# document_df[document_df['cluster_label']==3].sort_values(by='filename') # 차량용 네비
# document_df[document_df['cluster_label']==4].sort_values(by='filename') # 포터블 전자기기

Unnamed: 0,filename,opinion_text,cluster_label
36,comfort_honda_accord_2008,...,0
39,comfort_toyota_camry_2007,...,0
25,gas_mileage_toyota_camry_2007,...,0
35,interior_honda_accord_2008,...,0
4,interior_toyota_camry_2007,...,0
2,mileage_honda_accord_2008,...,0
3,performance_honda_accord_2008,...,0
27,quality_toyota_camry_2007,...,0
32,seats_honda_accord_2008,...,0
30,transmission_toyota_camry_2007,...,0


In [63]:
km_cluster = KMeans(n_clusters = 3, max_iter = 10000, random_state = 0)
km_cluster.fit(feature_vect)
cluster_label = km_cluster.labels_
cluster_centers = km_cluster.cluster_centers_
document_df['cluster_label'] = cluster_label
document_df.head()

Unnamed: 0,filename,opinion_text,cluster_label
0,price_holiday_inn_london,...,1
1,service_holiday_inn_london,...,1
2,mileage_honda_accord_2008,...,0
3,performance_honda_accord_2008,...,0
4,interior_toyota_camry_2007,...,0


In [66]:
# document_df[document_df['cluster_label']==0].sort_values(by='filename') # 자동차
# document_df[document_df['cluster_label']==1].sort_values(by='filename') # 호텔
document_df[document_df['cluster_label']==2].sort_values(by='filename') # 포터블 전자기기

Unnamed: 0,filename,opinion_text,cluster_label
24,accuracy_garmin_nuvi_255W_gps,...,2
11,battery-life_amazon_kindle,...,2
38,battery-life_ipod_nano_8gb,...,2
19,battery-life_netbook_1005ha,...,2
8,buttons_amazon_kindle,...,2
43,directions_garmin_nuvi_255W_gps,...,2
41,display_garmin_nuvi_255W_gps,...,2
18,eyesight-issues_amazon_kindle,...,2
34,features_windows7,...,2
10,fonts_amazon_kindle,...,2


In [67]:
# 군집별 핵심 단어 추출
cluster_centers = km_cluster.cluster_centers_
print(cluster_centers.shape)
print(cluster_centers)

(3, 4611)
[[0.         0.00092551 0.         ... 0.         0.         0.        ]
 [0.         0.00099499 0.00174637 ... 0.         0.00183397 0.00144581]
 [0.01005322 0.         0.         ... 0.00706287 0.         0.        ]]


In [70]:
# 군집별 top n 핵심 단어, 그 단어의 중심 위치 상대값, 대상 파일명들을 반환
def get_cluster_details(cluster_model, cluster_data, feature_names, clusters_num, top_n_features=10):
  cluster_details = {}
  centroid_feature_ordered_ind = cluster_model.cluster_centers_.argsort()[::-1]

  for cluster_num in range(clusters_num):
    # 개별 군집별 정보를 담을 데이터 초기화
    cluster_details[cluster_num] = {}
    cluster_details[cluster_num]['cluster'] = cluster_num

    # top n 피처 단어를 구함
    top_feature_indexes = centroid_feature_ordered_ind[cluster_num, :top_n_features]
    top_features = [feature_names[ind] for ind in top_feature_indexes]

    # top_feature_indexes를 이용해 해당 피처 단어와 중심 위치 상대값 구하기
    top_feature_values = cluster_model.cluster_centers_[cluster_num,top_feature_indexes].tolist()

    # cluster_details 딕셔너리 객체에 개별 군집별 핵심 단어와 중심위치 상대값, 파일명 입력
    cluster_details[cluster_num]['top_features'] = top_features
    cluster_details[cluster_num]['top_features_value'] = top_feature_values
    filenames = cluster_data[cluster_data['cluster_label']==cluster_num]['filename']
    filenames = filenames.values.tolist()
    cluster_details[cluster_num]['filename'] = filenames

  return cluster_details

def print_cluster_details(cluster_details):
  for cluster_num, cluster_detail in cluster_details.items():
    print('### Cluster {0}'.format(cluster_num))
    print('Top features:',cluster_detail['top_features'])
    print('Review 파일명:', cluster_detail['filename'][:7])

feature_names = tfidf_vect.get_feature_names()
cluster_details = get_cluster_details(cluster_model=km_cluster,
                                      cluster_data=document_df, 
                                      feature_names=feature_names,
                                      clusters_num = 3, top_n_features = 10)

print_cluster_details(cluster_details)


### Cluster 0
Top features: ['£6', 'served', 'francisco', 'fran', 'service 111', 'service 33', 'service 34', 'service 53', 'service 57', 'foot']
Review 파일명: ['mileage_honda_accord_2008', 'performance_honda_accord_2008', 'interior_toyota_camry_2007', 'gas_mileage_toyota_camry_2007', 'quality_toyota_camry_2007', 'transmission_toyota_camry_2007', 'seats_honda_accord_2008']
### Cluster 1
Top features: ['0 5', 'iphone', 'intrusive', 'interstate', 'interior trim', 'interior roomy', 'interior quality', 'interior nice', 'interior new', 'interior luxurious']
Review 파일명: ['price_holiday_inn_london', 'service_holiday_inn_london', 'location_holiday_inn_london', 'service_swissotel_hotel_chicago', 'location_bestwestern_hotel_sfo', 'food_swissotel_chicago', 'food_holiday_inn_london']
### Cluster 2
Top features: ['0 5', 'navigator', 'near kensington', 'near tube', 'nearby', 'nearest', 'neat clean', 'necessary', 'necklace', 'necklace earring']
Review 파일명: ['satellite_garmin_nuvi_255W_gps', 'speed_windo