# 책 깃헙
https://github.com/totalgood/nlpia
# 챕터2 소스 ( ? )
https://github.com/totalgood/nlpia/blob/master/src/nlpia/book/examples/ch02.md

# NLP token 관련 용어
* 자소, 문자소 (grapheme)
> text를 구성하는 가장 작은 단위

* 형태소(morpheme)
> 일정한 의미가 있는 가장 작은 말(word)의 단위

* n-gram
> 숙어. 단어의 쌍(word의 pair) , 2-gram(bigram) , 3-gram(trigram)

* 어간추출(stemming)
> 한단어의 여러변형을 동일한 군(group) 으로 묶는 것.

* 말뭉치(corpus)
```
NLP의 특정한 목적을 위해 언어의 표본을 추출한 집합	
자연언어를 대개 형태소 분석하여 추출.	
확률/통계적 기법과 시계열적인 접근으로 전체를 파악.
인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우
```

* 우리말 말뭉치 

0. KoNLPy(말뭉치 링크 모음)
1. 세종 말뭉치 자동 다운로드
2. 카이스트 말뭉치
3. Hantec 2.0
4. 한국일보(HKIB)
5. 연세말뭉치
6. ETRI
7. 세종






In [101]:
""" NLPIA Chapter 2 Section 2.1 Code Listings and Snippets """
import pandas as pd


In [102]:
sentence = "Thomas Jefferson began building Monticello at the age of twenty-six."
sentence.split()

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 'twenty-six.']

# 단어 수치 백터 ( word numerical vector )

In [103]:
# As you can see, this simple Python function already does a decent job tokenizing the example sentence.
# A couple more vanilla python statements and you can create numerical vector representations for each word.
sorted(dict([(token, 1) for token in sentence.split()]).items())


[('Jefferson', 1),
 ('Monticello', 1),
 ('Thomas', 1),
 ('age', 1),
 ('at', 1),
 ('began', 1),
 ('building', 1),
 ('of', 1),
 ('the', 1),
 ('twenty-six.', 1)]

In [104]:
sentence = "Thomas Jefferson began building Monticello at the age of 26."
series1 = pd.Series(dict([(token, 1) for token in sentence.split()]))
df = pd.DataFrame(series1, columns=['sent']).T
df


Unnamed: 0,Thomas,Jefferson,began,building,Monticello,at,the,age,of,26.
sent,1,1,1,1,1,1,1,1,1,1


In [105]:
sentences = "Construction was done mostly by local masons and carpenters.\n" \
             "He moved into the South Pavilion in 1770.\n" \
             "Turning Monticello into a neoclassical masterpiece was Jefferson's obsession."

corpus = {'sent0': df.T['sent'].to_dict()}

for i, sent in enumerate(sentences.split('\n')):
     corpus['sent{}'.format(i + 1)] = dict((tok, 1) for tok in sent.split())
# print('corpus',corpus)

df2 = pd.DataFrame(corpus, dtype=int).fillna(0)
# df2
df2.head(10)  # show the first 10 tokens in our vocabulary for this 4-document corpus


Unnamed: 0,sent0,sent1,sent2,sent3
Thomas,1.0,0.0,0.0,0.0
Jefferson,1.0,0.0,0.0,0.0
began,1.0,0.0,0.0,0.0
building,1.0,0.0,0.0,0.0
Monticello,1.0,0.0,0.0,1.0
at,1.0,0.0,0.0,0.0
the,1.0,0.0,1.0,0.0
age,1.0,0.0,0.0,0.0
of,1.0,0.0,0.0,0.0
26.,1.0,0.0,0.0,0.0


# 문장의 유사도 측정
> 말뭉치 벡터에 대한 내적하여 계산

In [106]:
df2.sent0.dot(df2.sent1)

0.0

In [107]:
df2.sent0.dot(df2.sent2)

1.0

In [108]:
df2.sent0.dot(df2.sent3)

1.0

# onehot_vectors

1. text의 단어를 나타내는 수치 벡터

* 한성분만 빼고 모두 값이 0이다.
* one-hot : 값이 1인 성분 하나만  hot ( = on , positive )하다는 의미.



2. one-hot vector의 sequence
* 원문 텍스트로 다시 변환이 가능.
* 수치적인 자료 구조( 2차원 수치 배열)
* 원문을 녹음 한 것과 비슷.





In [109]:
import numpy as np
sentence = "Thomas Jefferson began building Monticello at the age of 26."
token_sequence = str.split(sentence)
vocab = sorted(set(token_sequence))
', '.join(vocab)
num_token = len(token_sequence)
vocab_size = len(vocab)
onehot_vectors = np.zeros((num_token,vocab_size), int)
for i, word in enumerate(token_sequence):
  onehot_vectors[i,vocab.index(word)] = 1
' '.join(vocab)


'26. Jefferson Monticello Thomas age at began building of the'

In [110]:
onehot_vectors

array([[0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [111]:
pd.DataFrame(onehot_vectors,columns=vocab)

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,0,0,0,1,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,1,0,0,0
3,0,0,0,0,0,0,0,1,0,0
4,0,0,1,0,0,0,0,0,0,0
5,0,0,0,0,0,1,0,0,0,0
6,0,0,0,0,0,0,0,0,0,1
7,0,0,0,0,1,0,0,0,0,0
8,0,0,0,0,0,0,0,0,1,0
9,1,0,0,0,0,0,0,0,0,0


In [112]:
df = pd.DataFrame(onehot_vectors,columns=vocab)
df[df==0] = ''
df

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,,,,1.0,,,,,,
1,,1.0,,,,,,,,
2,,,,,,,1.0,,,
3,,,,,,,,1.0,,
4,,,1.0,,,,,,,
5,,,,,,1.0,,,,
6,,,,,,,,,,1.0
7,,,,,1.0,,,,,
8,,,,,,,,,1.0,
9,1.0,,,,,,,,,


In [113]:
sentence_bow = {}
for token in sentence.split():
  sentence_bow[token]=1
sorted(sentence_bow.items())


[('26.', 1),
 ('Jefferson', 1),
 ('Monticello', 1),
 ('Thomas', 1),
 ('age', 1),
 ('at', 1),
 ('began', 1),
 ('building', 1),
 ('of', 1),
 ('the', 1)]

# 정규 표현식을 이용한 토큰화 

- 대괄호 "[" "]"  = 문자부류 = charactor class
> 주어진 텍스트가 부합해야 할 문자들의 집합

- 대괄호 다음의 "+" 기호
> 주어진 문자부류가 하나 이상 일치 해야 함.

- \s 
> 공백문자 부류를 의미
> r'[\s]' = r'[ \t\n\r\f\v]'

- 문자 부류에서 문자 범위 지정
> r'[a-z]'
> r'[0-9]'
> r'[_a-zA-Z]'

- 왼쪽대괄호 다음의 하이픈 "-"
> 하이픈 - 문자 자체를 의미   r'[\-]'와 동일 한 의미

- 소괄호 "(" ")" = 문자열그룹
> r'[-\s.,;!?]+' 는 r'([-\s.,;!?])+' 와 동일하다.

In [114]:
import re
sentence = "Thomas Jefferson began building Monticello at the age of 26."
tokens = re.split(r'[-\s.,;!?]+',sentence)
tokens

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '']

In [115]:
pattern = re.compile(r'[-\s.,;!?]+')
tokens = pattern.split(sentence)
print (tokens)
[x for x in tokens if x and x not in '- \t\n.,;!?']


['Thomas', 'Jefferson', 'began', 'building', 'Monticello', 'at', 'the', 'age', 'of', '26', '']


['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26']

In [116]:
list(filter(lambda x: x if x and x not in '- \t\n.,;!?' else None , tokens))

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26']

In [117]:
!pip install regex



In [118]:
!pip install nltk





# NLTK 패키지

In [119]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
sentence = "Thomas Jefferson began building Monticello at the age of 26."
tokenizer.tokenize(sentence)


['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '.']

## NLTK 패키지의 TreebankWordTokenizer
1. 펜 트리뱅크 토큰화(Penn Treebank tokenization)에 기초
2. 영단어 에 대한 다양한 규칙을 가짐.
3. 소숫점 있는 수치도 처리
4. 축약형 단어 규칙 => 어간추출에 도움이 되는 기능



In [120]:
from nltk.tokenize import TreebankWordTokenizer

sentence = "The faster Harry got to the store, the faster Harry, the faster, would get home."
tokenizer = TreebankWordTokenizer()
token_sequence = tokenizer.tokenize(sentence.lower())
token_sequence

['the',
 'faster',
 'harry',
 'got',
 'to',
 'the',
 'store',
 ',',
 'the',
 'faster',
 'harry',
 ',',
 'the',
 'faster',
 ',',
 'would',
 'get',
 'home',
 '.']

# Casual_tokenize
1. sns(트윗 , 페북)에서 얻은 비형식적 text에 대한 tokenizer
2. 문법과 철자의 관례가 매우 당향한 텍스트 처리.
3. 사용자 이름을 제거하고  반복되는 문자를 줄이는데 유용.

In [121]:
from nltk.tokenize.casual import casual_tokenize
message = """RT @TJMonticello Btest day everrrrrrrr at Monticello. Aswesommmmmmmmeeeeeee day :*)"""
casual_tokenize(message)

['RT',
 '@TJMonticello',
 'Btest',
 'day',
 'everrrrrrrr',
 'at',
 'Monticello',
 '.',
 'Aswesommmmmmmmeeeeeee',
 'day',
 ':*)']

In [122]:
casual_tokenize(message, reduce_len=True, strip_handles=True)

['RT',
 'Btest',
 'day',
 'everrr',
 'at',
 'Monticello',
 '.',
 'Aswesommmeee',
 'day',
 ':*)']

# n-gram (= n개의 문자열 ) 을 이용한 어휘 확장

* 문장의 문자열에서 추출한 최대 n개의 문자요소로 이루어진 sequence(순열)
* 문자요소 = 문장을 구성 하는 문자 / 음절 / 단어 

## n-gram의 필요성
1. 문장의 단어 순서에 담긴 의미를 좀더 많이 유지
2. NLP파이프라인을 통해 자료와 함께 그 문맥 정보를 전달 할 수 있는 수단 중의 하나 이다. ( 인접단어를 묶는다면 )
3. n-gram 모든 요소(토큰)을 결합하면 원본 문장을 만들 수 있다.
4. 희소 n-gram은 보통 생략한다. 
> n-gram이 극히 드물게 나타난다는 것은 다른 단어와 상관관계가 없다는 의미이다.
5. 너무 자주 나오는 n-gram도 보통 무시한다. 
> 말뭉치(corpus) 문서중 25이상 등장하는 토큰이나 n-gram
> 불용어 , stop-word





In [123]:
from nltk.tokenize import RegexpTokenizer
sentence = "Thomas Jefferson began building Monticello at the age of 26."

tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
tokens = tokenizer.tokenize(sentence)
tokens = [x for x in tokens if x and x not in '- \t\n.,;!?']
tokens


['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26']

In [124]:
from nltk.util import ngrams
list(ngrams(tokens,2))

[('Thomas', 'Jefferson'),
 ('Jefferson', 'began'),
 ('began', 'building'),
 ('building', 'Monticello'),
 ('Monticello', 'at'),
 ('at', 'the'),
 ('the', 'age'),
 ('age', 'of'),
 ('of', '26')]

In [125]:
list(ngrams(tokens,3))

[('Thomas', 'Jefferson', 'began'),
 ('Jefferson', 'began', 'building'),
 ('began', 'building', 'Monticello'),
 ('building', 'Monticello', 'at'),
 ('Monticello', 'at', 'the'),
 ('at', 'the', 'age'),
 ('the', 'age', 'of'),
 ('age', 'of', '26')]

In [126]:
two_grams = list(ngrams(tokens,2))
[" ".join(x) for x in two_grams]

['Thomas Jefferson',
 'Jefferson began',
 'began building',
 'building Monticello',
 'Monticello at',
 'at the',
 'the age',
 'age of',
 'of 26']

# 불용어 ( stop word )
0. 예를 들어 수화, 쪽지로 메세지를 간략히 전달 할 때 항상 생략하는 단어들.

>영어 = a,  the, and ,or ,of , on

>한글 = "자주,종종,가끔,많이"

2. NLP에서는 계산량을 줄이기 위해 제외하기도 한다. 
3. 그러나 중요한 관계의 정보를 누락 할 수 있어 제외에 의한 이득이 적다.
> 문서 빈도 필터(3장)을 이용하면 의미없는 단어 또는 n-gram 제외가 용이하다.
4. 관례적으로 불용어가 유용하려면 n=4정도는 되어야 한다.
5. scikit-learn(318)과 NLTK(153->179)의 불용어 갯수는 서로 다른데 이는 불용어 생략에 의해 검색 엔진의 재현율이 떨어지는 문제를 얼마나 고려했냐의 문제이다.

## 한국 불용어 
* https://bab2min.tistory.com/544

* https://leo-bb.tistory.com/5



In [127]:
# NLTK 불용어 목록
import nltk
nltk.download('stopwords')
stop_words = nltk.corpus.stopwords.words('english')
len(stop_words)

# 참고자료 : 한글 stopwords 
# https://www.ranks.nl/stopwords/korean


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


179

In [128]:
stop_words[:7]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours']

In [129]:
[sw for sw in stop_words if len(sw) == 1]
# 한글자 stop word는 축약형 단어를 처리 할 때 필요하다.

['i', 'a', 's', 't', 'd', 'm', 'o', 'y']

In [130]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS as sklearn_stop_words
len(sklearn_stop_words)

318

In [131]:
len(stop_words)

179

In [132]:
stop_words = set(stop_words) ## book error
u = len(stop_words.union(sklearn_stop_words))
u


378

In [133]:
i = len(stop_words.intersection(sklearn_stop_words))
i

119

In [134]:
(u / i) *100
# NTLK와 scikit-learn에 모두 포함 된 stop word는 1/3밖에 안된다.
# 이런 차이는 왜 생겼고 어떤 차이가 만드느냐?

317.6470588235294

# 어휘 정규화 ( normalization )
1. 어휘를 줄이는 다른 또다른 기법
> 결국 차원을 줄여 overfitting을 방지.
2. 비슷한 토큰을 하나로 퉁치는 기법
3. 대소문자 합치기( case normalization )
4. 어간 추출 ( stemming ) = 형태소 분석
5. 표제어 추출 ( lemmatization , 레머드제이션 )

## 대소문자 합치기
* 대소문자를 합치는 것이 좋은가?
* 개체명(대명사)인식이 중요 프로젝트 과제라면 대소문자 합치기 과정은 스킵해야 함.
* camel case의 경우 스킵하는 규칙도 필요.
> FedEx
* 어째든 이제는 이런 과정을 생략하는 것이 이득이 크다.
> 정규화는 재현율을 높여주나 정밀도를 낮추기 때문이다.
> 현대 검색 엔진에서는 검색단어에 따옴표'를 붙혀 기능을 on/off 할 수 있다.

## 어간 추출  stemming

* 접미사 동사변형등을 제거하는 과정. ex) 복수형 s에 대한 처리
* 역시 검색 엔전의 정밀도( 반대말=false-positive 거짓양성 )를 크게 감소시킴.
* 대표적 어간추출기 : porter stemmer , snowball stemmer.





In [135]:
def stem(phrase):
  return ' '.join([re.findall('^(.*ss|.*?)(s)?$',word)[0][0].strip("'") for word in phrase.lower().split()])
stem('houses')

'house'

In [136]:
stem("Docter House's calls")

'docter house call'

In [137]:
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
' '.join([stemmer.stem(w).strip("'") for w in "dish washer's washed dishes".split()])


'dish washer wash dish'

In [138]:
#줄리아 멘차베스 : 포터 어간추출기 파이썬 버젼.
#https://github.com/jedijulia/porter-stemmer/blob/master/stemmer.py
# 포터는 이 300줄을 짜기 위해 평생의 상당 부분을 보냄.


# 표제어 추출 ( lemmatization )
1. 단어를 그 바탕ㅇ에 담은 어근(root) 수준으로 분석하여 정규화 하는 것.
2. 뿌리는 같지만 다른 철자 변형도 같은 언어로 간주 하는 것.
3. chat, chatter, chatty , chatting을 동일하게 취급.
> 스푸핑(spoofing)
> : 이러한 단점을 이용해 엉뚱한 검색의 답을 제시하는 것.

4. DB에 의존하여 판단한다.
5. 품사 태그를 단어에 부여하여 단점극복을 극복한다.
6. 어간 추출 앞에 표제어 추출기를 먼저 배치하여 효율을 극대화 했다.
> 검색의 차원을 줄이면서 재현율을 높였다.






In [139]:
!python -m nltk.downloader all # book error
import nltk
nltk.download('wordnet')


[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Package biocreative_ppi is already up-to-date!
[nltk_data]    | Downloading package brown to /root/nltk_data...
[nltk_data]    |   Package brown is already up-to-date!
[nltk_data]    | Downloading package brown_tei to /root/nltk_data...
[nltk_data]    |   Package brown_tei is already up-to-date!
[nltk_data]    | Downloading package cess_cat to /root/nltk_data...
[nltk_data]    |   Package cess_cat is already up-to-date!
[nltk_data]    | Downloading package cess_esp to /root/nltk_data...
[nltk_data]    |   Package cess_esp is already up-to-date!
[nltk_data]    | Downloading packag

True

In [140]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize("better")


'better'

In [141]:
lemmatizer.lemmatize("better", pos="a")

'good'

In [142]:
lemmatizer.lemmatize("good","a")

'good'

In [143]:
lemmatizer.lemmatize("goods",pos="a")

'goods'

In [144]:
lemmatizer.lemmatize("goods",pos="n")

'good'

In [145]:
lemmatizer.lemmatize("goodness",pos="n")


'goodness'

In [146]:
stemmer.stem("goodness")

'good'

# 어간 추출기 VS 표제어 추출기

1. 필요한 코드와 자료 잡합의 복잡도가 낮다면 일반적으로 어간 추출이 더 빠르다.
2. 어간 추출기는 의미의 손실이 더 크다. 
3. 또한 단어의 중의성이 높아지게 만든다.
> 다 때가 있다.(때타홀 광고)

# 검색기반 챗봇
1. 엄격한 검색을 먼저 수행.
2. 기타 정규화 적용후 검색.
3. 유명 검색 엔진은 이러한 400개의 독립적 알고리즘을 적용하여 검색한다.

# 결론
스탠퍼드 대학교에서는 이런 어간 / 표제어 추출 교과 과정을 뺐다. 딥러닝 기술 앞에는 아무 쓸모 없기 때문이다.

# 감정 분석 ( sentiment analysis )
 NLP파이프라인은 텍스트의 긍정 / 부정 / 기타감정을 수치로 표현 할 수 있다.
 또한 뭔가 좋은 말을 할 수 없다면 아예 말을 하지 않을 수도 있다.

 ## 감정 분석 방법 2가지
 * 사람이 규칙을 만들어 낸다.
 * 컴퓨터가 기존 자료를 분석하여 스스로 학습하게 만든다.


# VADER 
* 사람이 직접 작성한 규칙 기반 감정 분서기.
* 정의된 토큰 : 7500개
* 빈칸이 포함된 토큰은 3개 ( n-gram )

In [147]:
!pip install vaderSentiment



In [148]:
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
sa = SentimentIntensityAnalyzer()
sa.lexicon
# VADER의 정의된 토큰은 7500개

{'$:': -1.5,
 '%)': -0.4,
 '%-)': -1.5,
 '&-:': -0.4,
 '&:': -0.7,
 "( '}{' )": 1.6,
 '(%': -0.9,
 "('-:": 2.2,
 "(':": 2.3,
 '((-:': 2.1,
 '(*': 1.1,
 '(-%': -0.7,
 '(-*': 1.3,
 '(-:': 1.6,
 '(-:0': 2.8,
 '(-:<': -0.4,
 '(-:o': 1.5,
 '(-:O': 1.5,
 '(-:{': -0.1,
 '(-:|>*': 1.9,
 '(-;': 1.3,
 '(-;|': 2.1,
 '(8': 2.6,
 '(:': 2.2,
 '(:0': 2.4,
 '(:<': -0.2,
 '(:o': 2.5,
 '(:O': 2.5,
 '(;': 1.1,
 '(;<': 0.3,
 '(=': 2.2,
 '(?:': 2.1,
 '(^:': 1.5,
 '(^;': 1.5,
 '(^;0': 2.0,
 '(^;o': 1.9,
 '(o:': 1.6,
 ")':": -2.0,
 ")-':": -2.1,
 ')-:': -2.1,
 ')-:<': -2.2,
 ')-:{': -2.1,
 '):': -1.8,
 '):<': -1.9,
 '):{': -2.3,
 ');<': -2.6,
 '*)': 0.6,
 '*-)': 0.3,
 '*-:': 2.1,
 '*-;': 2.4,
 '*:': 1.9,
 '*<|:-)': 1.6,
 '*\\0/*': 2.3,
 '*^:': 1.6,
 ',-:': 1.2,
 "---'-;-{@": 2.3,
 '--<--<@': 2.2,
 '.-:': -1.2,
 '..###-:': -1.7,
 '..###:': -1.9,
 '/-:': -1.3,
 '/:': -1.3,
 '/:<': -1.4,
 '/=': -0.9,
 '/^:': -1.0,
 '/o:': -1.4,
 '0-8': 0.1,
 '0-|': -1.2,
 '0:)': 1.9,
 '0:-)': 1.4,
 '0:-3': 1.5,
 '0:03': 1.9,
 '

In [149]:
[ (tok, score) for tok, score in sa.lexicon.items() if " " in tok]
# VADER에서  빈칸이 포함된 토큰은 3개 ( n-gram )

[("( '}{' )", 1.6),
 ("can't stand", -2.0),
 ('fed up', -1.8),
 ('screwed up', -1.5)]

# VADER 감정 점수
감정의 세기(intensity) = compound
* pos :긍정 
* neg :부정
* neu :중립

In [150]:
sa.polarity_scores(text="Python is very readable and it's great for NLP.")

{'compound': 0.6249, 'neg': 0.0, 'neu': 0.661, 'pos': 0.339}

## VADER는 not과 같은 부정어에 대해 상당히 잘 처리한다.

In [151]:
sa.polarity_scores(text="Python is not a bad choice for most applications.")


{'compound': 0.431, 'neg': 0.0, 'neu': 0.737, 'pos': 0.263}

In [152]:
sa.polarity_scores(text="You're such a bad-mouth!")

{'compound': 0.0, 'neg': 0.0, 'neu': 1.0, 'pos': 0.0}

In [153]:
sa.polarity_scores(text="There're some people who like to run somebody down to draw interest.")

{'compound': 0.6705, 'neg': 0.0, 'neu': 0.645, 'pos': 0.355}

In [154]:
sa.polarity_scores(text="The witch uttered maledictions against her captors")

{'compound': -0.3612, 'neg': 0.294, 'neu': 0.706, 'pos': 0.0}

In [155]:
sa.polarity_scores(text="The witch uttered maledictions against her captors ^_^ ")

{'compound': -0.3612, 'neg': 0.263, 'neu': 0.737, 'pos': 0.0}

In [156]:
sa.polarity_scores(text="The witch uttered maledictions against her captors :(")

{'compound': -0.6597, 'neg': 0.474, 'neu': 0.526, 'pos': 0.0}

In [157]:
corpus = ["Absolutely perfect! Love it! :-) :-) :-)",
 "Horrible! Completely useless. :(",
 "It was OK. Some good and some bad things."]
for doc in corpus:
  scores = sa.polarity_scores(doc)
  print('{:+}: {}'.format(scores['compound'], doc))


+0.9428: Absolutely perfect! Love it! :-) :-) :-)
-0.8768: Horrible! Completely useless. :(
-0.1531: It was OK. Some good and some bad things.


# 단순 베이즈 모형
>  문서집합(입력)에서 목표변수(출력변수)를 예측하는 키워드(입력)를 찾기 위함 이다.

In [158]:
!pip install nlpia



In [159]:
from nlpia.data.loaders import get_data  # noqa
movies = get_data('hutto_movies')
movies.head().round(2)


  if (series == np.arange(len(series))).all():
  (series.index == np.arange(len(series))).all() and


Unnamed: 0_level_0,sentiment,text
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2.27,The Rock is destined to be the 21st Century's ...
2,3.53,The gorgeously elaborate continuation of ''The...
3,-0.6,Effective but too tepid biopic
4,1.47,If you sometimes like to go to the movies to h...
5,1.73,"Emerges as something rare, an issue movie that..."


In [160]:
movies.describe().round(2)
# 자료수 10605개
# 평가 수치 min~max : -3.88 ~ 3.94

Unnamed: 0,sentiment
count,10605.0
mean,0.0
std,1.92
min,-3.88
25%,-1.77
50%,-0.08
75%,1.83
max,3.94


In [161]:
import pandas as pd  # noqa
pd.set_option('display.width', 75) # 출력 데이타를 보기좋게 조정
from nltk.tokenize import casual_tokenize  # 비속어에 대한 처리를 잘 한다.
from collections import Counter  # noqa
print('movies.text length =', len(movies.text))
bags_of_words = []
for text in movies.text:
    bags_of_words.append(Counter(casual_tokenize(text)))

df_bows = pd.DataFrame.from_records(bags_of_words)
df_bows = df_bows.fillna(0).astype(int) # NA를 int형 0으로 바꾸어 메모리 절약.
df_bows.shape
# 데이타수 : 10605 , 토큰수 : 20765
# 대소문자 정규화 / 불용어처리 / 어간추출 / 표제어 추출을 하지 않았다.

movies.text length = 10605


(10605, 20756)

### 코드 설명

* print(text)
```
The Rock is destined to be the 21st Century's new ''Conan'' and that he's going to make a splash even greater than Arnold Schwarzenegger, Jean Claud Van Damme or Steven Segal.
```

*     print(casual_tokenize(text))
```
['The', 'Rock', 'is', 'destined', 'to', 'be', 'the', '21st', "Century's", 'new', "'", "'", 'Conan', "'", "'", 'and', 'that', "he's", 'going', 'to', 'make', 'a', 'splash', 'even', 'greater', 'than', 'Arnold', 'Schwarzenegger', ',', 'Jean', 'Claud', 'Van', 'Damme', 'or', 'Steven', 'Segal', '.']
```

*     print(Counter(casual_tokenize(text)))
```json
Counter({"'": 4, 'to': 2, 'The': 1, 'Rock': 1, 'is': 1, 'destined': 1, 'be': 1, 'the': 1, '21st': 1, "Century's": 1, 'new': 1, 'Conan': 1, 'and': 1, 'that': 1, "he's": 1, 'going': 1, 'make': 1, 'a': 1, 'splash': 1, 'even': 1, 'greater': 1, 'than': 1, 'Arnold': 1, 'Schwarzenegger': 1, ',': 1, 'Jean': 1, 'Claud': 1, 'Van': 1, 'Damme': 1, 'or': 1, 'Steven': 1, 'Segal': 1, '.': 1})

```


In [162]:
df_bows.head()

Unnamed: 0,The,Rock,is,destined,to,be,the,21st,Century's,new,',Conan,and,that,he's,going,make,a,splash,even,greater,than,Arnold,Schwarzenegger,",",Jean,Claud,Van,Damme,or,Steven,Segal,.,gorgeously,elaborate,continuation,of,Lord,Rings,trilogy,...,Overwrought,snooze,Feeble,salaciously,Disjointed,humbuggery,Eh,unrealistic,nrelentingly,Painfully,Grating,Dramatically,Predictably,Arty,Incoherence,reigns,assed,Abysmally,Bland,ame,drudgery,snubbing,Mildly,Terrible,Degenerates,hogwash,Crummy,Wishy,Inconsequential,Insufferably,Ill,slummer,Rashomon,dipsticks,Bearable,Staggeringly,’,ve,muttering,dissing
0,1,1,1,1,2,1,1,1,1,1,4,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,2,0,1,0,0,0,1,0,0,0,4,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4,1,1,1,4,1,1,1,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,0,0,1,0,4,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [163]:
list(bags_of_words[0].keys())

['The',
 'Rock',
 'is',
 'destined',
 'to',
 'be',
 'the',
 '21st',
 "Century's",
 'new',
 "'",
 'Conan',
 'and',
 'that',
 "he's",
 'going',
 'make',
 'a',
 'splash',
 'even',
 'greater',
 'than',
 'Arnold',
 'Schwarzenegger',
 ',',
 'Jean',
 'Claud',
 'Van',
 'Damme',
 'or',
 'Steven',
 'Segal',
 '.']

In [165]:
show_fields_list = list(bags_of_words[0].keys())
df_bows.head()[show_fields_list]

Unnamed: 0,The,Rock,is,destined,to,be,the,21st,Century's,new,',Conan,and,that,he's,going,make,a,splash,even,greater,than,Arnold,Schwarzenegger,",",Jean,Claud,Van,Damme,or,Steven,Segal,.
0,1,1,1,1,2,1,1,1,1,1,4,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
1,2,0,1,0,0,0,1,0,0,0,4,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,4
2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,0,0,1,0,4,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1
4,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1


In [166]:
from sklearn.naive_bayes import MultinomialNB  # 사이킷런 다항분포 나이브베이즈
nb = MultinomialNB()

# 나이브베이즈는 분류기(classifier)이므로 부동소숫점을 이산자료형(정수,문자,bool)으로 변환.
nb = nb.fit(df_bows, movies.sentiment > 0) 
# movies.sentiment > 0
#   => 평가 수치 min~max : -3.88 ~ 3.94 에 대해 긍정/부정으로 목표값 세팅
# type(df_bows) = 'pandas.core.frame.DataFrame'
# type(movies.sentiment) = 'pandas.core.series.Series'

movies['predicted_sentiment'] = nb.predict(df_bows) * 8 - 4 
# 나이브베이즈 모델로 예측을 해본다. 
#값을 -4~4로 보정했다.

movies['error'] = (movies.predicted_sentiment - movies.sentiment).abs()
# 정답과 예측값을 비교하여 에러인지 표시.


* 평균절대오차 ( mean absolute error = MAE)
>  예측값과 정답에 대한 오차의 절대값들의 평균
>
>  만약 무작위로 선택후 긍정/부정을 아무렇게나 판단 했을때의 MAE = 4 이다.

In [177]:
round(movies.error.mean(),2)

2.39

In [168]:
# 2.4
movies['sentiment_ispositive'] = (movies.sentiment > 0).astype(int)
movies['predicted_ispos'] = (movies.predicted_sentiment > 0).astype(int)
movies['sentiment predicted_sentiment sentiment_ispositive predicted_ispos'
       .split()].head(18)


Unnamed: 0_level_0,sentiment,predicted_sentiment,sentiment_ispositive,predicted_ispos
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2.266667,4,1,1
2,3.533333,4,1,1
3,-0.6,-4,0,0
4,1.466667,4,1,1
5,1.733333,4,1,1
6,2.533333,4,1,1
7,2.466667,4,1,1
8,1.266667,-4,1,0
9,1.933333,4,1,1
10,1.733333,4,1,1


In [170]:
(movies.predicted_ispos == movies.sentiment_ispositive).sum() / len(movies) # book spell error
# 만약 영화에 대해 긍정적 추천 평가가 93%이상이면 정확 하다고 볼 수 있다.

0.9344648750589345

# 영화평 감정평가 모델을 이용해 상품평 감정평가 하기.

In [172]:
products = get_data('hutto_products')


  if (series == np.arange(len(series))).all():
  (series.index == np.arange(len(series))).all() and


In [187]:
bags_of_words = []
for text in products.text:
    bags_of_words.append(Counter(casual_tokenize(text)))
df_product_bows = pd.DataFrame.from_records(bags_of_words)
df_product_bows = df_product_bows.fillna(0).astype(int)
df_all_bows = df_bows.append(df_product_bows)
# 영화평에 상품평 토큰 필드를 모두 합친다.

df_all_bows.columns.values


array(['The', 'Rock', 'is', ..., 'voids', 'baghdad', 'harddisk'],
      dtype=object)

In [179]:
df_all_bows.columns
# 영화평 + 상품평의 단어수 : 23302

Index(['The', 'Rock', 'is', 'destined', 'to', 'be', 'the', '21st',
       'Century's', 'new',
       ...
       'sligtly', 'owner', '81', 'defectively', 'warrranty', 'expire',
       'expired', 'voids', 'baghdad', 'harddisk'],
      dtype='object', length=23302)

In [188]:
df_product_bows = df_all_bows.iloc[len(movies):][df_bows.columns]
df_product_bows.shape
# 영화평의 단어와 중복되는 상품평의 단어수 : 20756


(3546, 20756)

In [189]:
df_product_bows = df_product_bows.fillna(0).astype(int)
df_bows.shape


(10605, 20756)

In [195]:

products['ispos'] = (products.sentiment > 0).astype(int) # 정답 ( 목표값 )
products['pred'] = nb.predict(df_product_bows.values).astype(int) # 나이브베이즈 예측값 
df_product_bows.values

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [196]:
products.head(20)

Unnamed: 0,id,sentiment,text,ispos,pred
0,1_1,-0.9,troubleshooting ad-2500 and ad-2600 no picture...,0,0
1,1_2,-0.15,"repost from january 13, 2004 with a better fit...",0,0
2,1_3,-0.2,does your apex dvd player only play dvd audio ...,0,0
3,1_4,-0.1,or does it play audio and video but scrolling ...,0,0
4,1_5,-0.5,before you try to return the player or waste h...,0,0
5,1_6,-0.95,no picture: hopefully you still have the remo...,0,1
6,1_7,-0.1,"if you tossed it out the window, you need to f...",0,0
7,1_8,0.1,"using the remote control, press the i/p button...",1,0
8,1_9,0.2,the i/p button switches the tv display between...,1,0
9,1_10,-0.05,"if this doesnt bring back the picture, try pre...",0,0


In [197]:
(products.pred == products.ispos).sum() / len(products)
#  영화평에 대한 나이브베이즈 예측 확률은 0.9344648750589345 이였다.

0.5572476029328821