# 책 깃헙
https://github.com/totalgood/nlpia
# 챕터2 소스 ( ? )
https://github.com/totalgood/nlpia/blob/master/src/nlpia/book/examples/ch02.md

# NLP token 관련 용어
* 자소, 문자소 (grapheme)
> text를 구성하는 가장 작은 단위

* 형태소(morpheme)
> 일정한 의미가 있는 가장 작은 말(word)의 단위

* n-gram
> 숙어. 단어의 쌍(word의 pair) , 2-gram(bigram) , 3-gram(trigram)

* 어간추출(stemming)
> 한단어의 여러변형을 동일한 군(group) 으로 묶는 것.

* 말뭉치(corpus)
```
NLP의 특정한 목적을 위해 언어의 표본을 추출한 집합	
자연언어를 대개 형태소 분석하여 추출.	
확률/통계적 기법과 시계열적인 접근으로 전체를 파악.
인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우
```

* 우리말 말뭉치 

0. KoNLPy(말뭉치 링크 모음)
1. 세종 말뭉치 자동 다운로드
2. 카이스트 말뭉치
3. Hantec 2.0
4. 한국일보(HKIB)
5. 연세말뭉치
6. ETRI
7. 세종






In [1]:
""" NLPIA Chapter 2 Section 2.1 Code Listings and Snippets """
import pandas as pd


In [2]:
sentence = "Thomas Jefferson began building Monticello at the age of twenty-six."
sentence.split()

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 'twenty-six.']

# 단어 수치 백터 ( word numerical vector )

In [3]:
# As you can see, this simple Python function already does a decent job tokenizing the example sentence.
# A couple more vanilla python statements and you can create numerical vector representations for each word.
sorted(dict([(token, 1) for token in sentence.split()]).items())


[('Jefferson', 1),
 ('Monticello', 1),
 ('Thomas', 1),
 ('age', 1),
 ('at', 1),
 ('began', 1),
 ('building', 1),
 ('of', 1),
 ('the', 1),
 ('twenty-six.', 1)]

In [4]:
sentence = "Thomas Jefferson began building Monticello at the age of 26."
series1 = pd.Series(dict([(token, 1) for token in sentence.split()]))
df = pd.DataFrame(series1, columns=['sent']).T
df


Unnamed: 0,Thomas,Jefferson,began,building,Monticello,at,the,age,of,26.
sent,1,1,1,1,1,1,1,1,1,1


In [5]:
sentences = "Construction was done mostly by local masons and carpenters.\n" \
             "He moved into the South Pavilion in 1770.\n" \
             "Turning Monticello into a neoclassical masterpiece was Jefferson's obsession."

corpus = {'sent0': df.T['sent'].to_dict()}

for i, sent in enumerate(sentences.split('\n')):
     corpus['sent{}'.format(i + 1)] = dict((tok, 1) for tok in sent.split())
# print('corpus',corpus)

df2 = pd.DataFrame(corpus, dtype=int).fillna(0)
# df2
df2.head(10)  # show the first 10 tokens in our vocabulary for this 4-document corpus


Unnamed: 0,sent0,sent1,sent2,sent3
Thomas,1.0,0.0,0.0,0.0
Jefferson,1.0,0.0,0.0,0.0
began,1.0,0.0,0.0,0.0
building,1.0,0.0,0.0,0.0
Monticello,1.0,0.0,0.0,1.0
at,1.0,0.0,0.0,0.0
the,1.0,0.0,1.0,0.0
age,1.0,0.0,0.0,0.0
of,1.0,0.0,0.0,0.0
26.,1.0,0.0,0.0,0.0


# 문장의 유사도 측정
> 말뭉치 벡터에 대한 내적하여 계산

In [6]:
df2.sent0.dot(df2.sent1)

0.0

In [7]:
df2.sent0.dot(df2.sent2)

1.0

In [8]:
df2.sent0.dot(df2.sent3)

1.0

# onehot_vectors

1. text의 단어를 나타내는 수치 벡터

* 한성분만 빼고 모두 값이 0이다.
* one-hot : 값이 1인 성분 하나만  hot ( = on , positive )하다는 의미.



2. one-hot vector의 sequence
* 원문 텍스트로 다시 변환이 가능.
* 수치적인 자료 구조( 2차원 수치 배열)
* 원문을 녹음 한 것과 비슷.





In [9]:
import numpy as np
sentence = "Thomas Jefferson began building Monticello at the age of 26."
token_sequence = str.split(sentence)
vocab = sorted(set(token_sequence))
', '.join(vocab)
num_token = len(token_sequence)
vocab_size = len(vocab)
onehot_vectors = np.zeros((num_token,vocab_size), int)
for i, word in enumerate(token_sequence):
  onehot_vectors[i,vocab.index(word)] = 1
' '.join(vocab)


'26. Jefferson Monticello Thomas age at began building of the'

In [10]:
onehot_vectors

array([[0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [11]:
pd.DataFrame(onehot_vectors,columns=vocab)

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,0,0,0,1,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,1,0,0,0
3,0,0,0,0,0,0,0,1,0,0
4,0,0,1,0,0,0,0,0,0,0
5,0,0,0,0,0,1,0,0,0,0
6,0,0,0,0,0,0,0,0,0,1
7,0,0,0,0,1,0,0,0,0,0
8,0,0,0,0,0,0,0,0,1,0
9,1,0,0,0,0,0,0,0,0,0


In [12]:
df = pd.DataFrame(onehot_vectors,columns=vocab)
df[df==0] = ''
df

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,,,,1.0,,,,,,
1,,1.0,,,,,,,,
2,,,,,,,1.0,,,
3,,,,,,,,1.0,,
4,,,1.0,,,,,,,
5,,,,,,1.0,,,,
6,,,,,,,,,,1.0
7,,,,,1.0,,,,,
8,,,,,,,,,1.0,
9,1.0,,,,,,,,,


In [13]:
sentence_bow = {}
for token in sentence.split():
  sentence_bow[token]=1
sorted(sentence_bow.items())


[('26.', 1),
 ('Jefferson', 1),
 ('Monticello', 1),
 ('Thomas', 1),
 ('age', 1),
 ('at', 1),
 ('began', 1),
 ('building', 1),
 ('of', 1),
 ('the', 1)]

# 정규 표현식을 이용한 토큰화 

- 대괄호 "[" "]"  = 문자부류 = charactor class
> 주어진 텍스트가 부합해야 할 문자들의 집합

- 대괄호 다음의 "+" 기호
> 주어진 문자부류가 하나 이상 일치 해야 함.

- \s 
> 공백문자 부류를 의미
> r'[\s]' = r'[ \t\n\r\f\v]'

- 문자 부류에서 문자 범위 지정
> r'[a-z]'
> r'[0-9]'
> r'[_a-zA-Z]'

- 왼쪽대괄호 다음의 하이픈 "-"
> 하이픈 - 문자 자체를 의미   r'[\-]'와 동일 한 의미

- 소괄호 "(" ")" = 문자열그룹
> r'[-\s.,;!?]+' 는 r'([-\s.,;!?])+' 와 동일하다.

In [14]:
import re
sentence = "Thomas Jefferson began building Monticello at the age of 26."
tokens = re.split(r'[-\s.,;!?]+',sentence)
tokens

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '']

In [15]:
pattern = re.compile(r'[-\s.,;!?]+')
tokens = pattern.split(sentence)
print (tokens)
[x for x in tokens if x and x not in '- \t\n.,;!?']


['Thomas', 'Jefferson', 'began', 'building', 'Monticello', 'at', 'the', 'age', 'of', '26', '']


['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26']

In [16]:
list(filter(lambda x: x if x and x not in '- \t\n.,;!?' else None , tokens))

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26']

In [17]:
!pip install regex



In [18]:
!pip install nltk





# NLTK 패키지

In [23]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
sentence = "Thomas Jefferson began building Monticello at the age of 26."
tokenizer.tokenize(sentence)


['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '.']

## NLTK 패키지의 TreebankWordTokenizer
1. 펜 트리뱅크 토큰화(Penn Treebank tokenization)에 기초
2. 영단어 에 대한 다양한 규칙을 가짐.
3. 소숫점 있는 수치도 처리
4. 축약형 단어 규칙 => 어간추출에 도움이 되는 기능



In [20]:
from nltk.tokenize import TreebankWordTokenizer

sentence = "The faster Harry got to the store, the faster Harry, the faster, would get home."
tokenizer = TreebankWordTokenizer()
token_sequence = tokenizer.tokenize(sentence.lower())
token_sequence

['the',
 'faster',
 'harry',
 'got',
 'to',
 'the',
 'store',
 ',',
 'the',
 'faster',
 'harry',
 ',',
 'the',
 'faster',
 ',',
 'would',
 'get',
 'home',
 '.']

# Casual_tokenize
1. sns(트윗 , 페북)에서 얻은 비형식적 text에 대한 tokenizer
2. 문법과 철자의 관례가 매우 당향한 텍스트 처리.
3. 사용자 이름을 제거하고  반복되는 문자를 줄이는데 유용.

In [21]:
from nltk.tokenize.casual import casual_tokenize
message = """RT @TJMonticello Btest day everrrrrrrr at Monticello. Aswesommmmmmmmeeeeeee day :*)"""
casual_tokenize(message)

['RT',
 '@TJMonticello',
 'Btest',
 'day',
 'everrrrrrrr',
 'at',
 'Monticello',
 '.',
 'Aswesommmmmmmmeeeeeee',
 'day',
 ':*)']

In [22]:
casual_tokenize(message, reduce_len=True, strip_handles=True)

['RT',
 'Btest',
 'day',
 'everrr',
 'at',
 'Monticello',
 '.',
 'Aswesommmeee',
 'day',
 ':*)']

# n-gram (= n개의 문자열 ) 을 이용한 어휘 확장

* 문장의 문자열에서 추출한 최대 n개의 문자요소로 이루어진 sequence(순열)
* 문자요소 = 문장을 구성 하는 문자 / 음절 / 단어 

## n-gram의 필요성
1. 문장의 단어 순서에 담긴 의미를 좀더 많이 유지
2. NLP파이프라인을 통해 자료와 함께 그 문맥 정보를 전달 할 수 있는 수단 중의 하나 이다. ( 인접단어를 묶는다면 )
3. n-gram 모든 요소(토큰)을 결합하면 원본 문장을 만들 수 있다.
4. 희소 n-gram은 보통 생략한다. 
> n-gram이 극히 드물게 나타난다는 것은 다른 단어와 상관관계가 없다는 의미이다.
5. 너무 자주 나오는 n-gram도 보통 무시한다. 
> 말뭉치(corpus) 문서중 25이상 등장하는 토큰이나 n-gram
> 불용어 , stop-word





In [27]:
from nltk.tokenize import RegexpTokenizer
sentence = "Thomas Jefferson began building Monticello at the age of 26."

tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
tokens = tokenizer.tokenize(sentence)
tokens = [x for x in tokens if x and x not in '- \t\n.,;!?']
tokens


['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26']

In [28]:
from nltk.util import ngrams
list(ngrams(tokens,2))

[('Thomas', 'Jefferson'),
 ('Jefferson', 'began'),
 ('began', 'building'),
 ('building', 'Monticello'),
 ('Monticello', 'at'),
 ('at', 'the'),
 ('the', 'age'),
 ('age', 'of'),
 ('of', '26')]

In [29]:
list(ngrams(tokens,3))

[('Thomas', 'Jefferson', 'began'),
 ('Jefferson', 'began', 'building'),
 ('began', 'building', 'Monticello'),
 ('building', 'Monticello', 'at'),
 ('Monticello', 'at', 'the'),
 ('at', 'the', 'age'),
 ('the', 'age', 'of'),
 ('age', 'of', '26')]

In [30]:
two_grams = list(ngrams(tokens,2))
[" ".join(x) for x in two_grams]

['Thomas Jefferson',
 'Jefferson began',
 'began building',
 'building Monticello',
 'Monticello at',
 'at the',
 'the age',
 'age of',
 'of 26']

# 불용어 ( stop word )
1. a,  the, and ,or ,of , on
2. 
