In [19]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

### nltk vs tensorflow.keras
nltk: seperating "'" into individual word
- ex: 'Don', "'", 't' 

tensorflow.keras: make every word lower case, Not seperating "'"
- ex: 'don't"

In [36]:
# 특수문자 앞 뒤로 자름
tmp = "Don't be fooled by the dark-sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
result1 = word_tokenize(tmp, language="english")
print(result1)

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark-sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [37]:
# 특수문자를 하나의 객체로 인식
result = WordPunctTokenizer().tokenize(tmp)
print(result)

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', '-', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [38]:
# 특수문자 -, *등을 제거, '<-의 경우 한번에 붙여서 나옴
result = text_to_word_sequence(tmp)
print(result)

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 표준 토큰화 예제

### Penn Treebank Tokenization
- 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
    - dark-sounding
- 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.
    - 'does' & "n't"

In [32]:
# 표준 토큰화 예제
from nltk.tokenize import TreebankWordTokenizer

In [33]:
tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(tmp))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark-sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


## 문장 토큰화 예제
- 문장 토큰화: 어떻게 문장을 자를것인가...?
    - nltk는 단순히 마침표(.)로 문장을 끝내지 않음.

In [41]:
from nltk.tokenize import sent_tokenize
text = "I'm actively looking for Ph.D. Students who are looking foward to get into post-doctoral degree. and you statisfy all the requirements!"
print(sent_tokenize(text))

["I'm actively looking for Ph.D. Students who are looking foward to get into post-doctoral degree.", 'and you statisfy all the requirements!']
