# 단어 토큰화(Word Tokenization) - 영어

## NLTK 라이브러리 활용

```python
import nlkt

nltk.download()
```
위 코드를 입력하면 **NLTK Downloader**가 실행된다.<br>
Models 중 **punkt**를 install 해주어야 아래 코드들이 정상적으로 동작한다.

# 1. word_tokenize 함수

In [1]:
from nltk.tokenize import word_tokenize

In [23]:
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [24]:
print(word_tokenize(text))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


### word_tokenize 함수를 활용했을 때 결과
<br>Don't -> Do + n't<br>
Jone's -> Jone + 's

# 2. WordPunctTokenizer

In [8]:
from nltk.tokenize import WordPunctTokenizer

In [25]:
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [26]:
print(WordPunctTokenizer().tokenize(text))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


### WordPunctTokenizer 함수를 활용했을 때 결과

구두점을 별도로 분류하는 특징을 가지고 있음<br>
Don't -> Don + ' + t<br>
Jone's -> Jone + ' + s

# 3. text_to_word_sequence 함수

In [16]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [17]:
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [27]:
print(text_to_word_sequence(text))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


### keras의 text_to_word_sequence함수를 활용했을 때 결과
기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거함
위의 두 함수와는 다르게 don't나 jone's 같은 경우에 '(apostrophe) 보존

# 4. Penn Treebank Tokenization
apostrophe을 구분하는 방법이 각각 함수들 마다 달랐다.<br>
표준으로 쓰이고 있는 토큰화 방법 중 하나인 Penn Treebank Tokenization의 규칙은<br>
1. 하이푼으로 구성된 단어는 하나로 유지한다.
2. doesn't 같이 apostrophe로 접어가 함께하는 단어는 분리해준다.

In [19]:
from nltk.tokenize import TreebankWordTokenizer

In [20]:
tokenizer=TreebankWordTokenizer()

In [21]:
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

In [22]:
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


위 규칙에 따라<br>
home-based 유지<br>
doesn't -> does + n't