## 토큰화(Tokenization)

### 용어정리

`코퍼스(copus)`: 말뭉치. 텍스트 표본. 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합.  
`토큰(token)`: 의미있는 단위를 token이라 한다.  

`단어(word)`: 자립하여 쓰일 수 있거나, 따로 떨어져서 문법적 기능을 가지는, 언어의 최소 기본 단위.  
`형태소(morpheme)`: 의미를 가지는 요소로서는 더 이상 분석할 수 없는 가장 작은 말의 단위.  
`어절` : 한국어에서 문장을 구성하고 있는 도막도막의 성분으로서 발음의 기본이 되는 단위.  
`접어(clitics)`: separated by special characters such as hyphens or apostrophes (like 's in "it's" for "it has" or "it is").

### 단어 토큰화(Word Tokenization)

토큰의 기준을 단어로 한 tokenization. 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주된다.

`입력`: Time is an illusion. Lunchtime double so!  

`출력` : "Time", "is", "an", "illustion", "Lunchtime", "double", "so"

###  토큰화 중 생기는 선택의 순간 - apostrophe(') 처리

입력 : Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.

In [5]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


word_tokenize: `Don't를 Do와 n't`로 분리, 반면에 `Jone's는 Jone과 's`로 분리

In [6]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


WordPunctTokenizer: `Don't를 Don과 '와 t`로 분리, `Jone's를 Jone과 '와 s`로 분리 (구두점을 별도로 분류하는 특징을 갖고 있다.)

In [10]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


케라스의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거한다.  
하지만 `don't`나 `jone's`와 같은 경우 apostrophe 보존 (왜?)

### 따라서

1) 구두점이나 특수 문자를 단순 제외해서는 안 된다. ex) `Ph.D`나 `AT&T`(특수문자를 포함하는 단어) `$45.55` (가격) `01/02/06`(날짜)  

2) 줄임말과 단어 내에 띄어쓰기가 있는 경우. ex)`New York`, `rock 'n' roll`

3) 표준 토큰화 규칙을 따른다.   
규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.   
규칙 2. `doesn't`와 같이 아포스트로피로 접어(clitic)가 함께하는 단어는 분리해준다.

In [13]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


`home-based`는 하나의 토큰으로 취급 (규칙1)  
`dosen't`의 경우 `does`와 `n't`는 분리 (규칙2)  

### 문장 토큰화(Sentence Tokenization)

목표: 주어진 코퍼스로부터 문장 단위로 분류

문제: 물음표(?), 마침표(.), 느낌표(!)가 명확한 구분자(boundary) 역할을 할 수 있나?

EX1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 yscoder3893@gmail.com로 결과 좀 보내줘. 그러고 나서 점심 먹으러 가자.  
EX2) Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year.

마침표(.)는 문장을 나누는 구분자 역할을 할 수 없다!

`입력`: His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near.

In [14]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


일반적인 문장.

In [18]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


한 문장 안에 마침표(.)가 있는 문장.

**이진 분류기(Binary Classifier)**  
예외 사항을 발생시키는 마침표의 처리를 위해서 입력에 따라 두 개의 클래스로 분류  
1. 마침표(.)가 단어의 일부분일 경우. 즉, 마침표가 약어(abbreivation)로 쓰이는 경우
2. 마침표(.)가 정말로 문장의 구분자(boundary)일 경우

In [33]:
# 한국어에 대한 문장 토큰화 도구
# pip install kss

In [34]:
import kss
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


한국어가 어려운 이유를 간략하게 적자면   
1) 띄어쓰기가 잘 지켜지지 않음.   
2) 교착어(어절이 독립적인 단어가 아니라 조사 등을 형태소 단위로 전부 분리해야한다.)  

### 품사 태깅(Part-of-speech tagging)

각 단어가 어떤 품사로 쓰였는지를 구분하는 작업  

ex) fly: 날다(동사),파리(명사)  
ex) 못: 망치 친구(명사), 못+하다(부사)  

In [35]:
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [36]:
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

NLTK로 영어 문장 품사태깅

In [48]:
# 한국어 자연어 처리 패키지
# pip install konlpy

 KoNLPy(코엔엘파이)를 통해서 사용할 수 있는 형태소 분석기로  
 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있다.

In [39]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [41]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [42]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


Okt (전 Twitter)를 활용한 morphs(형태소 추출), pos(품사 태깅) nouns(명사 추출)

In [43]:
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [44]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [45]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


Kkma(꼬꼬마) 형태소 분석기를 활용한 morphs(형태소 추출), pos(품사 태깅) nouns(명사 추출)

### Reference

>딥 러닝을 이용한 자연어 처리 입문 https://wikidocs.net/21694  
위키백과 https://ko.wikipedia.org/wiki/%EB%A7%90%EB%AD%89%EC%B9%98