<br></br>
# **Phrase 분석**

<br></br>
## **1 불용어 (stop words) 처리**

1. 연관성이 낮은 단어들을 제외하고 분석
2. 내용과 목적에 따라서, 불용어 처리여부 및 해당 목적에 맞는 불용어 말뭉치 DB등을 판단해야 한다


## 1.1 영문 불용어 처리

In [1]:
texts = 'I like such a Wonderful Snow Ice Cream'
texts = texts.lower()
texts

'i like such a wonderful snow ice cream'

In [2]:
# NEED TO RUN ONLY ONCE 
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/yyoo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
from nltk import word_tokenize
tokens = word_tokenize(texts)
tokens

['i', 'like', 'such', 'a', 'wonderful', 'snow', 'ice', 'cream']

In [4]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /Users/yyoo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [5]:
from nltk.corpus import stopwords
stopwords.words('english')[::18]

['i', 'him', 'which', 'had', 'at', 'in', 'both', 's', 'aren', "mightn't"]

In [6]:
tokens = [word   for word in tokens   
                 if word not in stopwords.words('english')]
print(tokens)

['like', 'wonderful', 'snow', 'ice', 'cream']


<br></br>
## **1.2. 한글의 불용어 처리**

In [7]:
f = open('./data/한국어불용어100.txt', 'r')
s = f.read(); f.close()

stop_words = [ txt.split('\t')[:2]  for txt in s.split('\n') ]
stopword   = {}
for txt in stop_words:
    try:    stopword[txt[0]] = txt[1]
    except: pass
stopword

{'이': 'NP',
 '있': 'VA',
 '하': 'VV',
 '것': 'NNB',
 '들': 'VV',
 '그': 'MM',
 '되': 'VV',
 '수': 'NNB',
 '보': 'VX',
 '않': 'VX',
 '없': 'VA',
 '나': 'VX',
 '사람': 'NNG',
 '주': 'VV',
 '아니': 'VCN',
 '등': 'NNB',
 '같': 'VA',
 '우리': 'NP',
 '때': 'NNG',
 '년': 'NNB',
 '가': 'VV',
 '한': 'MM',
 '지': 'VX',
 '대하': 'VV',
 '오': 'VV',
 '말': 'VX',
 '일': 'NNB',
 '그렇': 'VA',
 '위하': 'VV',
 '때문': 'NNB',
 '그것': 'NP',
 '두': 'VV',
 '말하': 'VV',
 '알': 'VV',
 '그러나': 'MAJ',
 '받': 'VV',
 '못하': 'VX',
 '그런': 'MM',
 '또': 'MAG',
 '문제': 'NNG',
 '더': 'MAG',
 '사회': 'NNG',
 '많': 'VA',
 '그리고': 'MAJ',
 '좋': 'VA',
 '크': 'VA',
 '따르': 'VV',
 '중': 'NNB',
 '나오': 'VV',
 '가지': 'VV',
 '씨': 'NNB',
 '시키': 'XSV',
 '만들': 'VV',
 '지금': 'NNG',
 '생각하': 'VV',
 '그러': 'VV',
 '속': 'NNG',
 '하나': 'NR',
 '집': 'NNG',
 '살': 'VV',
 '모르': 'VV',
 '적': 'XSN',
 '월': 'NNB',
 '데': 'NNB',
 '자신': 'NNG',
 '안': 'MAG',
 '어떤': 'MM',
 '내': 'VV',
 '경우': 'NNG',
 '명': 'NNB',
 '생각': 'NNG',
 '시간': 'NNG',
 '그녀': 'NP',
 '다시': 'MAG',
 '이런': 'MM',
 '앞': 'NNG',
 '보이': 'VV',
 '번': '

<br></br>
# **2. Token 객체를 활용한 통계적 분석**

## 2.1. 레벤슈타인의 편집거리

1. 비교 대상간의 Token 의 갯수가 일치
2. 두 단어/ 문장이 같은 내용이 되려면 몇 번의 수정을 필요로
하는지 계산
3. 최소 작업순번의 측정 값으로 문장의 유사도를 판단

In [8]:
text1 = "자연 언어에 대한 연구는 오래전부터 이어져 오고 있음에도 2018년까지도 사람처럼 이해하지는 못한다.".split()
text2 = "자연 언어에 대한 연구는 오래전부터 이어져 들어서도 아직 컴퓨터가 사람처럼 이해하지는 못한다.".split()
text3 = "자연 아직 컴퓨터가 언어에 들어서도 못한다 이어져 사람처럼 이해하지는 대한 연구는 오래전부터.".split()
len(text1), len(text2), len(text3)

(12, 12, 12)

In [9]:
from nltk.metrics import edit_distance
edit_distance('파이썬 알고리즘', '파파미 알탕')

5

In [10]:
print('생략된 단어가 다를 때 : {} \n어휘 순서를 바꿨을 때 : {}'.format(
    edit_distance(text1, text2), 
    edit_distance(text2, text3)))

생략된 단어가 다를 때 : 3 
어휘 순서를 바꿨을 때 : 10


## 2.2 Accuracy

In [11]:
# 02 accuracy 정확도 측정
from nltk.metrics import accuracy
accuracy('파이썬', '파이프')

0.6666666666666666

In [12]:
print('생략된 단어가 다를 때 {:.4} \n어휘 순서를 바꿨을 때 {:.4}'.format(
    accuracy(text1, text2), 
    accuracy(text2, text3)))

생략된 단어가 다를 때 0.75 
어휘 순서를 바꿨을 때 0.08333


<br></br>
## **2.3 Token 고유 객체를 활용한 통계적 검증방법**
1. precision = Correct / (Correct + Incorrect + Missing)
1. recall = Correct / (Correct + Incorrect + Spurious<가짜>)
1. f_measure = (2 X Precision X Recall) / (Precision + Recall)

In [13]:
text1 = set(text1)
text2 = set(text2)
text3 = set(text3)
len(text1), len(text2), len(text3)

(12, 12, 12)

In [14]:
from nltk.metrics import precision
precision({'파이썬'}, {'파르썬'})

0.0

In [15]:
print('생략된 단어가 다를 때 {:.4} \n어휘 순서를 바꿨을 때 {:.4}'.format(
    precision(set(text1), set(text2)), 
    precision(set(text2), set(text3))))

생략된 단어가 다를 때 0.75 
어휘 순서를 바꿨을 때 0.8333


In [16]:
from nltk.metrics import recall
print('생략된 단어가 다를 때 {:.4} \n어휘 순서를 바꿨을 때 {:.4}'.format(
    recall(text1, text2), 
    recall(text2, text3)))

생략된 단어가 다를 때 0.75 
어휘 순서를 바꿨을 때 0.8333


In [17]:
from nltk.metrics import f_measure
print('생략된 단어가 다를 때 {:.4} \n어휘 순서를 바꿨을 때 {:.4}'.format(
    f_measure(text1, text2), 
    f_measure(text2, text3)))

생략된 단어가 다를 때 0.75 
어휘 순서를 바꿨을 때 0.8333


<br></br>
# **3. N-gram 의 활용**

1. 통계적 이론, 편집 알고리즘은 token 갯수 일치를 필요
2. 기준보다 갯수가 적으면 Zero Padding 활용
3. 문장 token 최대 기준 갯수가 변경되면 기존의 모델을 활용하기 어련운 단점이
4. 독립적 관리 가능한, 분류기준이 필요

<br></br>
## **3.1 N-gram 생성하기**

In [18]:
# 독일 퀘르버 재단 연설문 : 베를린 선언
f     = open('./data/베를린선언.txt', 'r')
texts_org = f.read()
f.close()

In [19]:
from nltk.tokenize import word_tokenize
word_token = word_tokenize(texts_org)

In [20]:
from nltk.util import ngrams

texts_sample = [txt for txt in ngrams(word_token, 3)]
texts_sample[:5]

[('존경하는', '독일', '국민'),
 ('독일', '국민', '여러분'),
 ('국민', '여러분', ','),
 ('여러분', ',', '고국에'),
 (',', '고국에', '계신')]

<br></br>
## **3.2 Point wise Mutual Information**
PMI

In [21]:
from nltk.tokenize import RegexpTokenizer
re_capt = RegexpTokenizer('[가-힣]\w+')
raw_texts = re_capt.tokenize(texts_org)
raw_texts[:10]

['존경하는', '독일', '국민', '여러분', '고국에', '계신', '국민', '여러분', '하울젠', '쾨르버재단']

In [22]:
texts = ''
for txt in raw_texts:
    texts += txt + " "
texts[:200]

'존경하는 독일 국민 여러분 고국에 계신 국민 여러분 하울젠 쾨르버재단 이사님과 모드로 동독 총리님을 비롯한 내외 귀빈 여러분 먼저 냉전과 분단을 넘어 통일을 이루고 힘으로 유럽통합과 국제평화를 선도하고 있는 독일과 독일 국민에게 무한한 경의를 표합니다 오늘 자리를 마련해 주신 독일 정부와 쾨르버 재단에도 감사드립니다 아울러 얼마 별세하신 헬무트 총리의 가족'

*You need JRE to run the following block*

In [23]:
%%time
# 베를린 선언문에 Tag 속성 추가하기
from konlpy.tag import Okt  # a.k.a. Twitter
okt = Okt()
tagged_words = okt.pos(texts, stem=True)

CPU times: user 13 s, sys: 633 ms, total: 13.6 s
Wall time: 5.54 s


<br></br>
## **3.3 Bi-Gram 을 대상으로 한 PMI**
최상위 우도값 10개를 추출한다

In [24]:
from nltk import collocations

finder = collocations.BigramCollocationFinder.from_words(tagged_words)
finder

<nltk.collocations.BigramCollocationFinder at 0x10df365c0>

In [25]:
measures = collocations.BigramAssocMeasures()
finder.nbest(measures.pmi, 10)   # top 10

[(('가스', 'Noun'), ('관', 'Noun')),
 (('가운데', 'Noun'), ('현재', 'Noun')),
 (('감사', 'Noun'), ('드리다', 'Verb')),
 (('견', 'Noun'), ('지하', 'Noun')),
 (('겹', 'Noun'), ('치다', 'Verb')),
 (('공감', 'Noun'), ('대', 'Suffix')),
 (('관', 'Noun'), ('연결', 'Noun')),
 (('관련', 'Noun'), ('국', 'Noun')),
 (('교량', 'Noun'), ('국가', 'Noun')),
 (('긴급하다', 'Adjective'), ('신호', 'Noun'))]

<br></br>
## **3.4 Tri-Gram 을 대상으로한 PMI**

In [26]:
finder = collocations.TrigramCollocationFinder.from_words(tagged_words)
finder

<nltk.collocations.TrigramCollocationFinder at 0x10df36cf8>

In [27]:
measures = collocations.TrigramAssocMeasures()
finder.nbest(measures.pmi, 10)

[(('가스', 'Noun'), ('관', 'Noun'), ('연결', 'Noun')),
 (('가운데', 'Noun'), ('현재', 'Noun'), ('생존', 'Noun')),
 (('견', 'Noun'), ('지하', 'Noun'), ('면서', 'Noun')),
 (('닦다', 'Verb'), ('주어', 'Noun'), ('야', 'Josa')),
 (('마다', 'Josa'), ('흔들리다', 'Verb'), ('깨다', 'Verb')),
 (('만여', 'Modifier'), ('평균', 'Noun'), ('연령', 'Noun')),
 (('뿐', 'Noun'), ('만', 'Josa'), ('아니다', 'Adjective')),
 (('산림', 'Noun'), ('병충해', 'Noun'), ('산불', 'Noun')),
 (('세입', 'Noun'), ('니', 'Noun'), ('다', 'Josa')),
 (('슈', 'Noun'), ('타트', 'Noun'), ('하우스', 'Noun'))]

<br></br>
# **4 TF-IDF**
Term Frequency-Inverse Document Frequency

<br></br>
## **4.1 영문 데이터 전처리**
트럼프 취임사 연설문

In [28]:
f = open('./data/trump.txt', 'r')
texts_org = f.read()
f.close()

from nltk import word_tokenize
texts = word_tokenize(texts_org)
texts[:5]

['Chief', 'Justice', 'Roberts', ',', 'President']

In [29]:
from nltk.corpus import stopwords
stopword_eng = stopwords.words('english')

import string
punct = string.punctuation
punct = [punct[i] for i in range(len(punct))]
punct = punct + stopword_eng + ['\n'] 
len(punct)

212

In [30]:
texts = [txt.lower()    for txt in texts   if txt.lower() not in punct]
document = ''
for txt in texts:
    document += txt + ' '

<br></br>
## **4.2 tf idf**
연설문내 단어들의 빈도를 재조정

In [31]:
# ! pip3 install scipy

In [32]:
%%time
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec   = TfidfVectorizer()
transformed = tfidf_vec.fit_transform(raw_documents = [document])
index_value = {i[1]:i[0] for i in tfidf_vec.vocabulary_.items()}

transformed 

CPU times: user 8.03 ms, sys: 3.13 ms, total: 11.2 ms
Wall time: 10.4 ms


In [33]:
fully_indexed = []

import numpy as np
transformed = np.array(transformed.todense())

for row in transformed:
    fully_indexed.append({index_value[column]:value for (column,value) in enumerate(row)})

In [34]:
import pandas as pd
tfidf = pd.Series(fully_indexed[0]).sort_values(ascending=False)
tfidf[:15]

  return f(*args, **kwds)
  return f(*args, **kwds)


america     0.423619
american    0.232990
people      0.211809
country     0.190628
nation      0.190628
one         0.169447
every       0.148266
never       0.127086
world       0.127086
back        0.127086
new         0.127086
great       0.127086
make        0.105905
god         0.105905
today       0.105905
dtype: float64

In [35]:
tfidf['great']

0.12708556268223822