# Tokenization

## 01) 토큰화 (Tokenization)

자연어 처리에서 정제되지 않은 corpus 는 Tokenization -> Cleaning -> Normalzation 의 단계를 거치게 됨.
보통 의미있는 단위를 토큰으로 정의한다.
토큰화에 대한 발생 할 수 있는 여러가지 상황과 토큰화의 개념을 이해한다. NLTK, KoNLPY 를 통해 실습 진행하며 토큰화 수행

## 02) 단어 토큰화 (Word Tokenization)

토큰의 기준을 단어로 하는 경우 단어 토큰화 라고 함.
다만 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주된다.

한국어는 영어와 달리 띄어쓰기로만 토큰화가 되지 않기 때문에 어렵다.

## 토큰화 중 생기는 선택의 순간

토큰화를 하다보면 예상치 못한 순간이 생김. 예를 들어 영어의 아포스트로피(') 이다.
이런 문제를 해결하기 위해 NLTK 에서 영어 코퍼스를 토큰화 하기 위한 도구를 제공한다.

In [10]:
import nltk
from nltk.tokenize import word_tokenize

str = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

nltk.download('punkt')

wt_tokenized = word_tokenize(str)
print(wt_tokenized)

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


[nltk_data] Downloading package punkt to C:\Users\boba-
[nltk_data]     research\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


word_tokenize 는 구두점을 포함한 토큰으로 구분한다.

In [11]:
from nltk.tokenize import WordPunctTokenizer

wpt_tokenized = WordPunctTokenizer().tokenize(str)
print(wpt_tokenized)

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


WordPunctTokenizer 은 구두점을 별도로 분리한다.

In [12]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

tf_tokenized = text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.")
print(tf_tokenized)

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


tensorflow 에서는 구두점은 제거하지만 아포스트로피는 보존한다.

## 토큰화에서 고려 할 사항

1. 구두점이나 특수문자를 단순 제거하면 안 됨
    * 마침표가 문장을 구분하는 역할을 함.
    * Ph.D 처럼 단어 자체에 . 들어감
    * $ 는 자체로 돈의 의미
    * 123,456 숫자 표기
2. 줄임말과 단어 내에 띄어쓰기가 있는 경우
    * 아포스트로피를 이용한 단어 내 띄어쓰기


## Penn Treebank Tokenization

규칙기반 토큰화

In [13]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 문장 토큰화

이 또한 구두점 문제

In [15]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']
['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


kss 모듈을 이용하면 한국어 문장 토큰화가 가능하다.