## 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)이라고 한다. 토큰화의 개념을 이해하고, NLTK, KoNLPY를 통해 실습해보자.  

### 1. 단어 토큰화(Word Tokenization)

토큰의 기준을 단어로 하면, 단어 토큰화(Word tokenization)라고 한다.  
토큰화 작업은, 구두점이나 특수문자를 전부 제거한다고 해서 해결되지 않는다.

### 2. 토큰화 중 생기는 선택의 순간

아포스트로피 '를 어떻게 처리할 것인가?  

In [2]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [5]:
import nltk
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [6]:
print('단어 토큰화1 : ', word_tokenize("Don't be fooled by the dark souding name, Mr. Jone's Orphanage is as cheery as goes for a pastry shop."))

단어 토큰화1 :  ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'souding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'goes', 'for', 'a', 'pastry', 'shop', '.']


word_tokenize는 Don't를 Do와 n't로 분리했고,  
Jone's는 Jone과 's로 분리한 것을 알 수 있다.  

wordPunctTokenizer는 어떨까?

In [7]:
print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기 때문에, 앞서 확인했던 word_tokenize와 달리 Don't를 Don과 '와 t로 분리하였으며, Jone's는 Jone과 ', s로 분리한 것을 알 수 있다.  

케라스 또한 토큰화 도구로서 text_to_word_sequence를 지원한다.

In [8]:
print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


케라스의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거합니다. 하지만 don't나 jone's와 같은 경우 아포스트로피는 보존하는 것을 볼 수 있습니다.

### 3. 토큰화에서 고려해야할 사항

토큰화 작업을 단순히 corpus에서 구두점을 제외하고 잘라내는 작업이라고 볼 수는 없다. 섬세한 알고리즘이 필요하다.

#### 1) 구두점이나 특수 문자를 단순 제외해서는 안 된다.

마침표.와 같은 경우는 문장의 경계를 알 수 있으므로, 예외로 칠 수도 있다.

혹은 Ph.D, AT&T 등이나, 특수 문자의 달러나 날짜 표기의 슬래시, 숫자 표기에 세자리 단위마다 컴마가 들어가는 경우도 있다.

#### 2) 줄임말과 단어 내에 띄어쓰기가 있는 경우.
영어권 언어의 아포스트로피는 압축된 단어를 펼치는 역할을 하기도 한다.

#### 3) 표준 토큰화 예제
Penn Treebank Tokenization의 규칙에 대해서 소개하고, 토큰화의 결과를 확인해보자.

규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리한다.

해당 표준에 아래의 문장을 입력으로 넣어보자.

"Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

In [10]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('TreebankWordTokenizer :',tokenizer.tokenize(text))

TreebankWordTokenizer : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 4. 문장 토큰화(Sentence Tokenization)

이번에는 토큰의 단위가 문장(sentence)일 경우를 보자.  
다른 말로는 senten segmentation이라고 한다.  

단순히, 마침표가 등장했다고 문장의 끝이라고 볼 수는 없겠다. 예는 다음과 같다.

EX1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 aaa@gmail.com로 결과 좀 보내줘. 그 후 점심 먹으러 가자.  

EX2) Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year.  

사용하는 코퍼스가 어떤 국적의 언어인지, 또는 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라서 직접 규칙을 정의할 수 있다.  

NLTK의 sent_tokenize를 사용해보자.

In [11]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [12]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


Ph.D.를 성공적으로 인식해서 구분하는 것을 알 수 있다.  

다음은 박상길님이 개발한, 한국어의 KSS를 설치해보자.

In [None]:
!pip install kss

Collecting kss
  Downloading kss-6.0.4.tar.gz (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting emoji==1.2.0 (from kss)
  Downloading emoji-1.2.0-py3-none-any.whl.metadata (4.3 kB)
Collecting pecab (from kss)
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.4/26.4 MB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting jamo (from kss)
  Downloading jamo-0.4.1-py3-none-any.whl.metadata (2.3 kB)
Collecting hangul-jamo (from kss)
  Downloading hangul_jamo-1.0.1-py3-none-any.whl.metadata (899 bytes)
Collecting tossi (from kss)
  Downloading tossi-0.3.1.tar.gz (11 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting distance (from kss)
  Downloading Distance-0.1.3.tar.gz (180 kB)
[2K     [90m━━━━━━━━━━━━━━━━━

In [None]:
import kss