# Preprocessing - Tokenization

- 자연어 처리에서 corpus data가 필요에 맞게 전처리가 되지 않은 상태라면 해당 데이터를 사용하고자하는 용도에 맞게 토큰화를 진행해야됩니다.

## Word Tokenization

- 구두점이나 특수 문자를 단순 제외해서는 안된다. corpus에 대한 정제 작업을 진행하다보면, 구두점도 하나의 token으로 분류 하기도하고 단어 자체에 구두점을 갖고 있는 경우도 있습니다.
- 줄임말과 단어 내에 띄어쓰기가 있는 경우, 아포스트로피는 압축된 단어를 다시 펼치는 역할을 하기도 합니다. 예를 들어 we're 같은 경우 re를 접어(clitic)이라고도 합니다. 토큰화 작업에서는 이러한 단어를 하나로 인식할 수 있는 능력도 가져야 합니다.

### Spacy

In [1]:
import spacy
spacy_en = spacy.load('en_core_web_sm')

In [2]:
en_text = 'My name is Hong Jong Hyun'

In [3]:
def tokenization(en_text):
    return [tok.text for tok in spacy_en.tokenizer(en_text)]

In [4]:
print(tokenization(en_text))

['My', 'name', 'is', 'Hong', 'Jong', 'Hyun']


### NLTK

In [5]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/jody/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [6]:
from nltk.tokenize import word_tokenize
print(word_tokenize(en_text))

['My', 'name', 'is', 'Hong', 'Jong', 'Hyun']


### Split

In [7]:
print(en_text.split())

['My', 'name', 'is', 'Hong', 'Jong', 'Hyun']


### BertTokenizer, nltk tokenizer, spacy

In [8]:
from transformers import BertTokenizer
from nltk.tokenize import (word_tokenize, 
                           WordPunctTokenizer, 
                           TreebankWordTokenizer)

In [9]:
tokenizer = BertTokenizer.from_pretrained('bert-large-cased')

Downloading:   0%|          | 0.00/208k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/762 [00:00<?, ?B/s]

In [10]:
text1 = "I'll be back as soon as possible."

print(word_tokenize(text1))
print(WordPunctTokenizer().tokenize(text1))
print(TreebankWordTokenizer().tokenize(text1))
print(tokenizer.tokenize(text1))
print(tokenization(text1))

['I', "'ll", 'be', 'back', 'as', 'soon', 'as', 'possible', '.']
['I', "'", 'll', 'be', 'back', 'as', 'soon', 'as', 'possible', '.']
['I', "'ll", 'be', 'back', 'as', 'soon', 'as', 'possible', '.']
['I', "'", 'll', 'be', 'back', 'as', 'soon', 'as', 'possible', '.']
['I', "'ll", 'be', 'back', 'as', 'soon', 'as', 'possible', '.']


In [11]:
text2 = 'I love red-eyed.'

print(word_tokenize(text2))
print(WordPunctTokenizer().tokenize(text2))
print(TreebankWordTokenizer().tokenize(text2))
print(tokenizer.tokenize(text2))
print(tokenization(text2))

['I', 'love', 'red-eyed', '.']
['I', 'love', 'red', '-', 'eyed', '.']
['I', 'love', 'red-eyed', '.']
['I', 'love', 'red', '-', 'eyed', '.']
['I', 'love', 'red', '-', 'eyed', '.']


In [12]:
text3 = 'I wanna banna.'

print(word_tokenize(text3))
print(WordPunctTokenizer().tokenize(text3))
print(TreebankWordTokenizer().tokenize(text3))
print(tokenizer.tokenize(text3))
print(tokenization(text3))

['I', 'wan', 'na', 'banna', '.']
['I', 'wanna', 'banna', '.']
['I', 'wan', 'na', 'banna', '.']
['I', 'wanna', 'ban', '##na', '.']
['I', 'wanna', 'banna', '.']


- 여러 tokenizer를 사용해본 결과 아포스트로피를 처리하는 방법이 달랐다. 그리고 합성어를 처리하는 방법 또한 각 tokenizer마다 달랐다.

## Sentence Tokenization

- corpus내에 문장 단위로 구분하는 작업을 의미합니다. 문장 단위로 구분할수 있는 방법은 쉽게 (.),이나 (!)로 잘라낼 수 있지만 항상 그렇지는 않습니다. 이러한 것들은 문장의 끝이 아니더라도 등장할 수 있기 때문입니다.

In [14]:
from nltk.tokenize import sent_tokenize

In [15]:
sent_text1 = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."

In [16]:
print(sent_tokenize(sent_text1))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


#### 한국어

In [19]:
from kss import split_sentences

In [20]:
sent_text2 = '안녕하세요. 저는 홍종현입니다. 제 나이는 27살입니다. 잘부탁드립니다.'

In [21]:
split_sentences(sent_text2)

[Korean Sentence Splitter]: Initializing Pynori...


['안녕하세요.', '저는 홍종현입니다.', '제 나이는 27살입니다.', '잘부탁드립니다.']