# Tokenization
NLTK와 Keras를 이용한 Tokenization 실습

## 1. NLTK 컴포넌트 다운로드

In [40]:
# import nltk
# nltk.download('punkt')

## 2. Word Tokenization with NLTK, Keras

In [55]:
from nltk import word_tokenize
from nltk import WordPunctTokenizer
from keras.preprocessing.text import text_to_word_sequence
import tensorflow as tf


### 01) NLTK 기본 토크나이제이션 도구 <br>
어퍼스트로피 (')를 기존의 단어에 붙여서 구분하되, 의미별로 구분 <br>
don't => [do, n't] (==[do, not]) <br>
 

In [63]:
words = "Don't be fooled by the dark sounding name, Is Mr. Jone's Orphanage as cheery as cheery goes for a pastry shop?"
tokenized = word_tokenize(words)
tokenized

['Do',
 "n't",
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 ',',
 'Is',
 'Mr.',
 'Jone',
 "'s",
 'Orphanage',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop',
 '?']

### 02) NLTK Punct 토크나이제이션 도구 <br>
어퍼스트로피 (')를 하나의 token 으로 따로 구분
 

In [64]:
punct_tokenized = WordPunctTokenizer().tokenize(words)
punct_tokenized

['Don',
 "'",
 't',
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 ',',
 'Is',
 'Mr',
 '.',
 'Jone',
 "'",
 's',
 'Orphanage',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop',
 '?']

### 03) Keras 토크나이제이션 도구 <br>
1. 구두점, 물음표 등 제거
2. 어퍼스토로피 (')는 기존 단어에 붙여서 구분
3. 자동으로 lower case 로 구분
 

In [60]:
with tf.device('cpu'):
     keras_tokenized = text_to_word_sequence(words)

keras_tokenized
     

["don't",
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 'is',
 'mr',
 "jone's",
 'orphanage',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop']

### 04) 구두점이나 특수 문자를 단순 제외해서는 안 된다. <br>
갖고있는 코퍼스에서 단어들을 걸러낼 때, 구두점이나 특수 문자를 단순히 제외하는 것은 옳지 않습니다. <br>
코퍼스에 대한 정제 작업을 진행하다보면, 구두점조차도 하나의 토큰으로 분류하기도 합니다. <br>
가장 기본적인 예를 들어보자면, 온점(.)과 같은 경우는 문장의 경계를 알 수 있는데 도움이 되므로 단어를 뽑아낼 때, <br>
온점(.)을 제외하지 않을 수 있습니다.<br>
<br>
또 다른 예를 들어보면, 단어 자체에서 구두점을 갖고 있는 경우도 있는데,<br> 
m.p.h나 Ph.D나 AT&T 같은 경우가 있습니다. <br>
또 특수 문자의 달러()나 슬래시(/)로 예를 들어보면, $45.55와 같은 가격을 의미 하기도 하고, <br>
01/02/06은 날짜를 의미하기도 합니다. 보통 이런 경우 45.55를 하나로 취급해야하지, <br>
45와 55로 따로 분류하고 싶지는 않을 것입니다.<br>
<br>
숫자 사이에 컴마(,)가 들어가는 경우도 있습니다. <br>
가령 보통 수치를 표현할 때는 123,456,789와 같이 세 자리 단위로 컴마가 들어갑니다.<br>

### 05) 줄임말과 단어 내에 띄어쓰기가 있는 경우.<br>
토큰화 작업에서 종종 영어권 언어의 아포스트로피(')는 압축된 단어를 다시 펼치는 역할을 하기도 합니다. <br>
예를 들어 what're는 what are의 줄임말이며, we're는 we are의 줄임말입니다. 위의 예에서 re를 접어(clitic)이라고 합니다. <br>
즉, 단어가 줄임말로 쓰일 때 생기는 형태를 말합니다. 가령 I am을 줄인 I'm이 있을 때, m을 접어라고 합니다.<br>
<br>
New York이라는 단어나 rock 'n' roll이라는 단어를 봅시다. <br>
이 단어들은 하나의 단어이지만 중간에 띄어쓰기가 존재합니다. <br>
사용 용도에 따라서, 하나의 단어 사이에 띄어쓰기가 있는 경우에도 하나의 토큰으로 봐야하는 경우도 있을 수 있으므로, <br>
토큰화 작업은 저러한 단어를 하나로 인식할 수 있는 능력도 가져야합니다.<br>

### 06) Penn TreeBank Tokenization

영어권 표준 토크나이제이션 방식중 하나이다. <br>

1. 하이푼으로 구성된 단어는 하나로 유지한다.
2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다. (does, n't)

In [45]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
words = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
tokenized = tokenizer.tokenize(words)
tokenized

['Starting',
 'a',
 'home-based',
 'restaurant',
 'may',
 'be',
 'an',
 'ideal.',
 'it',
 'does',
 "n't",
 'have',
 'a',
 'food',
 'chain',
 'or',
 'restaurant',
 'of',
 'their',
 'own',
 '.']

## 3. Sentence Tokenization

In [46]:
from nltk import sent_tokenize
text="His barber kept his word. " \
     "But keeping such a huge secret to himself was driving him crazy. " \
     "Finally, the barber went up a mountain and almost to the edge of a cliff. " \
     "He dug a hole in the midst of some reeds. " \
     "He looked about, to mae sure no one was near."
sent_tokenize(text)

['His barber kept his word.',
 'But keeping such a huge secret to himself was driving him crazy.',
 'Finally, the barber went up a mountain and almost to the edge of a cliff.',
 'He dug a hole in the midst of some reeds.',
 'He looked about, to mae sure no one was near.']

위 코드는 text에 저장된 여러 개의 문장들로부터 문장을 구분하는 코드이다. <br>
출력 결과를 보면 성공적으로 모든 문장을 구분해내었음을 볼 수 있다. <Br>
그렇다면, 이번에는 언급했던 문장 중간에 온점이 여러번 등장하는 경우에 대해서도 실습한다. <br>

In [47]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
sent_tokenize(text)

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']

NLTK는 단순히 온점을 구분자로 하여 문장을 구분하지 않았기 때문에, <br>
Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식하는 것을 볼 수 있다. <br>
어떠한 머신러닝 기법을 사용해서 구분하는듯 하다 <br>

## 4. Korean Word Tokenization

In [78]:
from konlpy.tag import Kkma
from konlpy.tag import Okt
from konlpy.tag import Hannanum
from konlpy.tag import Komoran
from konlpy.tag import Mecab
# 메캅은 특수 딕셔너리 다운 필요함 + konlpy 윈도우에서는 사용불가

text = "안녕하세요. 지금 자연어처리를 공부하고 있는데요. 너무 어렵네요."

In [66]:
# Kaist 에서 1999년부터 개발한 한나눔 태거
Hannanum().morphs(text)

['안녕',
 '하',
 '세',
 '요',
 '.',
 '지금',
 '자연어처리',
 '를',
 '공부',
 '하고',
 '있',
 '는데',
 '요',
 '.',
 '너무',
 '어렵',
 '네',
 '요',
 '.']

In [67]:
# Shineware가 2013년부터 개발한 코모란 태거
Komoran().morphs(text)

['안녕하세요',
 '.',
 '지금',
 '자연어',
 '처리',
 '를',
 '공부',
 '하',
 '고',
 '있',
 '는데요',
 '.',
 '너무',
 '어렵',
 '네요',
 '.']

In [68]:
# 서울대에서 만든 꼬꼬마 태거
Kkma().morphs(text)

['안녕',
 '하',
 '세요',
 '.',
 '지금',
 '자연어',
 '처리',
 '를',
 '공부',
 '하',
 '고',
 '있',
 '는데요',
 '.',
 '너무',
 '어렵',
 '네요',
 '.']

In [None]:
# Will Hohyon Ryu씨가 개발한 트위터 태거 (== Okt 태거)
Okt().morphs(text)

In [53]:
stop_word = [
]

josa = [
    '이구나', '이네', '이야',
    '은', '는', '이', '가', '을', '를',
    '로', '으로', '이야', '야', '냐', '니'
]

def kor_tokenize(sentence):
    tokenizer = Okt()
    word_bag = []
    pos = tokenizer.pos(sentence)
    for word, tag in pos:
        if word in stop_word:
            continue
        elif (tag == 'Josa' and word in josa) or tag == 'Punctuation':
            continue
        else:
            word_bag.append(word)
    result = ' '.join(word_bag)
    return result

kor_tokenize(text)

'안녕하세요 지금 자연어 처리 공부 하고 있는데요 너무 어렵네요'

## 5. Korean Sentence Tokenization

kss 라이브러리를 사용할 수 있다.

In [54]:
# import kss
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
# kss.split_sentences(text)
# ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']

## 6. Binary Classification for Point (abbreviations or boundary)

 약어사전 : https://public.oed.com/how-to-use-the-oed/abbreviations/ <br>
 레퍼런스 : https://tech.grammarly.com/blog/posts/How-to-Split-Sentences.html <br>
 

## 7. 한국어에서의 토큰화의 어려움.
1) 한국어는 교착어이다. <br>
Hell Josa :  그가', '그에게', '그를', '그와', '그는' <br>
한국어는 어절이 독립적인 단어로 구성되는 것이 아니라 <br>
조사 등의 무언가가 붙어있는 경우가 많아서 이를 전부 분리해줘야 한다. <br>

2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다. <br>
많은 경우에 띄어쓰기가 틀렸거나, 지켜지지 않는 코퍼스가 많다. <br>
띄어쓰기가 없던 한국어에 띄어쓰기가 보편화된 것도 근대(1933년, 한글맞춤법통일안)의 일입니다. <br>

## 8. 한국어는 어떨까?

1) 한국어의 품사 (5언 9품사) <br>

1. 체언 : 명사s (명사, 대명사, 수사) <br>
문장에서 주어나 목적어가 되는 낱말 <br>

2. 용언 : 동사s (동사, 형용사) <br>
동사 : 움직임을 설명 - 움직이다, 가다, 앉다, 서다, 웃다 <br>
형용사 : 상태를 설명 - 예쁘다, 귀엽다, 못생겼다<br>

3. 수식언 : 부사s (관형사, 부사) <br>
관형사 : 영어에서의 형용사와 유사(~는 , 체언 수식) : 예쁜, 이, 그, 저, 새, 헌 <br>
부사 : 영어에서의 부사와 유사(용언, 문장전체 수식) : 빠르게, 예쁘게

4. 관계언 : 조사
5. 독립언 : 감탄사

<Br>

2) 한국어의 형태소 <br>

1. 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소.  <Br>
그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.

2. 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다. <br>

ex) 에디가 딥러닝 책을 읽었다.<br>
자립 형태소 : 에디, 딥러닝책 <Br>
의존 형태소 : -가, -을, 읽-, -었, -다 <br>

## 9. Pos Tagging with NLTK

In [74]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
import nltk

# nltk.download('averaged_perceptron_tagger')

text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized = word_tokenize(text)
pos_tag(tokenized)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

## 10. Pos Tagging with Konlpy
morphs 대신, pos()를 사용하면 품사 태깅이 가능함 <br>

1. 속도 비교 <br>
꼬꼬마 분석기가 갯수가 늘어날 수록 압도적으로 시간이 많이 소요되는 것을 볼 수 있다.
![img1](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=http%3A%2F%2Fcfile6.uf.tistory.com%2Fimage%2F997F3E455C0D3A592A887A)
![img1-2](http://konlpy.org/en/latest/_images/time.png)

2. 꼬꼬마 제외 비교 <br>
메캅 > 카히(konlpy아님) > 코모란 > OKT > 한나눔 순서이다.
![img2](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=http%3A%2F%2Fcfile24.uf.tistory.com%2Fimage%2F995F3A3A5C0D3B8105C8BE)

Loading time: Class loading time, including dictionary loads. <br>
1. Kkma: 5.6988 secs
2. Komoran: 5.4866 secs
3. Hannanum: 0.6591 secs
4. Okt (previous Twitter): 1.4870 secs
5. Mecab: 0.0007 secs

Execution time: Time for executing the pos method for each class, with 100K characters.
1. Kkma: 35.7163 secs
2. Komoran: 25.6008 secs
3. Hannanum: 8.8251 secs
4. Okt (previous Twitter): 2.4714 secs
5. Mecab: 0.2838 secs
<br><br>

3. 품질비교 <br>

In [80]:
kkma = Kkma()
hnn = Hannanum()
okt = Okt()
kmr = Komoran()

In [82]:
text1 = "너무기대안하고갔나재밌게봤다"
print('kkma : ' , kkma.morphs(text1))
print('hnn' , hnn.morphs(text1))
print('okt' , okt.morphs(text1))
print('kmr' , kmr.morphs(text1))

kkma :  ['너무', '기대', '안', '하', '고', '가', '었', '나', '재밌', '게', '보', '았', '다']
hnn ['너무기대안하고갔나재밌게봤다']
okt ['너', '무기', '대안', '하고', '갔나', '재밌게', '봤다']
kmr ['너무', '기대', '안', '하', '고', '가', '았', '나', '재밌', '게', '보', '았', '다']


In [None]:
text2 = "굉장히잘만든수작지루할틈이없음"
print('kkma : ' , kkma.morphs(text2))
print('hnn' , hnn.morphs(text2))
print('okt' , okt.morphs(text2))
print('kmr' , kmr.morphs(text2))

In [86]:
text3 = "아버지가방에들어가신다"
print('kkma : ' , kkma.morphs(text3))
print('hnn' , hnn.morphs(text3))
print('okt' , okt.morphs(text3))
print('kmr' , kmr.morphs(text3))

kkma :  ['아버지', '가방', '에', '들어가', '시', 'ㄴ다']
hnn ['아버지가방에들어가', '이', '시ㄴ다']
okt ['아버지', '가방', '에', '들어가신다']
kmr ['아버지', '가방', '에', '들어가', '시', 'ㄴ다']


In [88]:
text4 = "ㄱㅐ같은영화 뭐가무섭다는건지ㅋㅋ"
print('kkma : ' , kkma.morphs(text4))
print('hnn' , hnn.morphs(text4))
print('okt' , okt.morphs(text4))
print('kmr' , kmr.morphs(text4))

kkma :  ['ㄱ', 'ㅐ', '같', '은', '영화', '뭐', '가', '무섭', '다는', '것', '이', 'ㄴ지', 'ㅋㅋ']
hnn ['ㄱㅐ같은영화', '뭐가무섭다는건짘ㅋ']
okt ['ㄱㅐ', '같은', '영화', '뭐', '가', '무섭다는', '건지', 'ㅋㅋ']
kmr ['개', '같', '은', '영화', '뭐가무섭다는건지ㅋㅋ']


In [89]:
text5 = "ㄴㅓ무합니다이무슨..유치찬란..오글거려못보겠네요"
print('kkma : ' , kkma.morphs(text5))
print('hnn' , hnn.morphs(text5))
print('okt' , okt.morphs(text5))
print('kmr' , kmr.morphs(text5))


kkma :  ['ㄴㅓ무합니다이무슨', '..', '유치찬란', '..', '오글거리', '어', '못', '보', '겠', '네요']
hnn ['ㄴㅓ무합니다이무슨', '..', '유치찬란', '..', '오글거려못보', '이', '겠네요']
okt ['ㄴㅓ', '무', '합니다', '이', '무슨', '..', '유치', '찬란', '..', '오글거려못', '보겠네요']
kmr ['너무', '하', 'ㅂ니다', '이', '무스', 'ㄴ', '..', '유치', '찬란', '..', '오', '글', '걸', '려', '못', '보', '겠', '네요']


In [90]:
text6 = "개봉했을때부터 지금까지 마음이답답하거나 힘들때 이영화 보고있어요 그때마다 심적인 위로를 받을수있는영화같아요 장면 하나하나가 너무예쁘고 마음에 남아서 진한 여운까지 주는영화 감사합니다"
print('kkma : ' , kkma.morphs(text6))
print('hnn' , hnn.morphs(text6))
print('okt' , okt.morphs(text6))
print('kmr' , kmr.morphs(text6))

kkma :  ['개봉', '하', '었', '을', '때', '부터', '지금', '까지', '마음', '이', '답답', '하', '거나', '힘들', 'ㄹ', '때', '이', '영화', '보', '고', '있', '어요', '그때', '마다', '심적', '이', 'ㄴ', '위로', '를', '받', '을', '수', '있', '는', '영화', '같', '아요', '장면', '하나하나', '가', '너무', '예쁘', '고', '마음', '에', '남', '아서', '진하', 'ㄴ', '여운', '까', '지', '주', '는', '영화', '감사', '하', 'ㅂ니다']
hnn ['개봉', '하', '었을', '때', '부터', '지금', '까지', '마음이답답하거', '나', '힘들', 'ㄹ', '때', '이영화', '보', '고', '있', '어', '요', '그때', '마다', '심', '적', '이', 'ㄴ', '위로', '를', '받을수있는영화같아요', '장면', '하나하나', '가', '너무예쁘', '이', '고', '마음', '에', '남', '아', '지', 'ㄴ', '한', '여운', '까지', '주는영화', '감사', '하', 'ㅂ니다']
okt ['개봉', '했을', '때', '부터', '지금', '까지', '마음', '이', '답답하거나', '힘들', '때', '이영화', '보고있어요', '그때', '마다', '심', '적', '인', '위로', '를', '받을수있는', '영화', '같아요', '장면', '하나', '하나', '가', '너무', '예쁘고', '마음', '에', '남아', '서', '진한', '여운', '까지', '주는', '영화', '감사합니다']
kmr ['개봉', '하', '았', '을', '때', '부터', '지금', '까지', '마음', '이', '답답', '하', '거나', '힘', '들', '때', '이영화', '보', '고', '있', '어요', '그때', '마다', '심', '적', '이', 'ㄴ'