# 토큰화(Tokenization)

In [17]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence


## 단어 토큰화(Word Tokenization)

In [None]:
target_text: str = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

print('단어 토큰화1 :', word_tokenize(target_text))

# WordPunctTokenizer는 구두점을 별도로 분류한다.
print('단어 토큰화2 :', WordPunctTokenizer().tokenize(target_text))

# text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 구두점을 제거한다.
print('단어 토큰화3 :', text_to_word_sequence(target_text))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']
단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']
단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 토큰화에서 고려해야할 사항
1. 구두점이나 특수 문자를 단순 제외해서는 안 된다.
- 코퍼스를 정제하다 보면 구두점을 하나의 토큰으로 분류하기도 한다.
- 단어 자체에 구두점을 갖는 경우가 있다.(m.p.h, Ph.D, AT&T, 01/02/06)

2. 줄임말과 단어 내에 띄어쓰기가 있는 경우
- 영어에서 apospory는 업축된 단어를 다시 펼치는 역할을 하기도 한다. (what're what are)
- 하나의 단어에 띄어쓰기가 존재하기도 한다.(New York, rock 'n' roll)

3. 표준 토큰화 살펴보기
Penn Treebank Tokenization
- 규칙 1. 하이픈으로 구성된 단어는 하나로 유지한다.
- 규칙 2. doesn't와 같이 아포스트로피로 접어가 함께하는 단어는 분리한다.

In [15]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('TreebankWordTokenizer :', tokenizer.tokenize(text))

TreebankWordTokenizer : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 문장 토큰화(Sentence Tokenization)
- 코퍼스내에서 문장 단위로 구분하는 작업(문장 분류(sentence segmentation))
- 문장단위를 ?, ., !를 기준으로 나누는 것은 위험하다. 마침표는 문장 중간에도 들어갈 수 있다.(IP 192.168.56.31, aaa@gmail.com)
- 사용하는 코퍼스의 언어와 특수문자 사용 방법에 따라 직접 규칙을 정해볼 수 있다.

In [18]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('sent_tokenize :', sent_tokenize(text))



sent_tokenize : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [19]:
# 문장 중간에 마침표가 들어가는 경우
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('sent_tokenize :', sent_tokenize(text))

sent_tokenize : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [21]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 Ph.D 너무 어렵습니다. 이제 해보면 알걸요?'
print('kss :', kss.split_sentences(text))

kss : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 Ph.D 너무 어렵습니다.', '이제 해보면 알걸요?']


## 한국어에서의 토큰화의 어려움
- 한국어는 띄어쓰기의 단위가 어절인데 어절 토큰화는 한국어 NLP에서 지양되고 있다.
- 어절 토큰화는 단어 토큰화와 같지 않다.
- 한국어는 교착어(조사, 어미 등을 붙여서 말을 만드는 언어)다.

1. 교착어의 특성
- 