# 토큰화(Tokenization)

자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리 되지 않으면, 해당 데이터를 사용하고자
1) 토큰화
2) 정제
3) 정규화
작업을 시행하게 된다.

## 단어 토큰화(Word Tokenization)

토큰의 기준을 단어(Word)일 경우, 단어  토큰화(Word Tokenization)이라 한다.
여기서 단어는 단어외에도 단어구, 의미를 갖는 문자열로 간주되기도 한다.

- 구두점: 마침표(.), 콤마(,), 물음표(?), 세미콜론(;), 느낌표(!)

토큰화 작업은 단순히 구두점이나 특수문자를 전부 제거하는 정제 작업을 수행하는 것만으로 해결되지 않는다. 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생한다.

## 토큰화 중 생기는 선택의 순간

토큰화를 하다보면, 예상하지 못한 경우가 있어서 토큰화의 기준을 생각해봐야 하는 경우가 발생한다.
- 해당 데이터를 가지고 어떤 용도로 사용할 것인지에 따라서 그 용도에 영향이 없는 기준으로 정하면 된다.

NLTK는 영어 코퍼스를 토큰화하기 위한 도구를 제공

In [1]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

word_tokenize는 Don't를 Do, n't로 분리하는 것을 확인할 수 있다.

In [2]:
print('단어 토큰화1 :', word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone\'s Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


WordPuncTokenizer는 구두점을 별도로 분류하는 특징을 가지고 있기 때문에,
Don't를 Don 과 't로 분리했다.

In [3]:
print('단어 토큰화2 :', WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone\s Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', '\\', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거한다.

In [4]:
print('단어 토큰화3 :', text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone\'s Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 토큰화에서 고려해야할 사항

토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업으로 간주할 수 없다. 이러한 일은 보다 섬세한 알고리즘이 필요하다.

### 구두점이나 특수 문자를 단순 제외해서는 안된다.
갖고있는 코퍼스에서 단어들을 덜러낼 때, 구두점이나 특수 문자를 단순히 제외하는 것은 옳지 않다. 코퍼스에 대한 정제 작어을 진행하다보면 구두점조차도 하나의 토큰으로 분류하기도 한다.

예) 마침표(.)와 같은 경우는 문자의 경계를 알 수 있는데 도움이 되므로 단어를 뽑아낼 때, 마침표(.)를 제외하지 않을 수 있다.

### 줄임말과 단어 내에 띄어쓰기가 있는 경우.
토큰화 작업에서 종종 영어권 언어의 아포스트로피(')는 압축된 단어를 다시 펼치는 역할을 하기도 한다.

예) what're는 what are의 줄임말

단어가 줄임말로 쓰일 때 생기는 형태를 말한다.

또한 New York이라는 단어를 보면 하나의 단어지만 중간에 뛰어쓰기가 존재한다. 사용 용도에 따라서, 하나의 단어 사이에 띄어쓰기가 있는 경우에도 하나의 토큰으로 봐야하는 경우도 있을 수 있다.

토큰화 작업은 저러한 단어를 하나로 인식할 수 있는 능력도 필요하다.

### 표준 토큰화 예제

Penn Treebank Tokenization의 규칙
1) 하이푼으로 구성된 단어는 하나로 유지
2) doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

In [35]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text))

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 문장 토큰화(Sentence Tokenization)

토큰의 단위가 문장일 경우, 이 작업은 갖고있는 코퍼스 내에서 문장 단위로 구분하는 작업으로 문장 분류라고 부르기도 한다.
보통 갖고 있는 코퍼스가 정제되지 않은 상태라면, 코퍼스는 문장 단위로 구분되어 있지 않아서 이를 사용하고자 하는 용도에 맞게 문장 토큰화가 필요할 수 있다.

사용하는 코퍼스가 어떤 국적의 언어인지, 또는 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라서 직접 규칙들을 정의해볼 수 있다.
100% 정확도를 얻는 일은 쉬운일이 아니지만, 갖고 있는 코퍼스 데이터에 오타나, 문장의 구성이 엉망이라면 정해놓은 규칙이 소용이 없을 수 있기 때문이다.

NLTK를 통해 문장 토큰화 실습

In [5]:
from nltk.tokenize import sent_tokenize

In [6]:
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."

In [7]:
print('문장 토큰화1 :', sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [8]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."

In [9]:
print('문장 토큰화2: ', sent_tokenize(text))

문장 토큰화2:  ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에, Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식하는 것을 확인할 수 있다.

KSS(Korean Sentence Splitter) 설치

In [10]:
pip install kss

Note: you may need to restart the kernel to use updated packages.


In [18]:
import kss
import nltk

In [19]:
test = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'

In [20]:
print('한국어 문장 토큰화 :',kss.split_sentences(test))

한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


## 한국어에서의 토큰화의 어려움

한국어는 영어와는 달리 띄어쓰기만으로 토큰화를 하기에 부족하다.
한국어의 경우, 띄어쓰기 단위가 되는 단위를 '어절'이라 하는데 어절 토큰화는 한국어 NPL에서 지양되고 있다.
어절 토큰화와 단어 토큰화는 같지 않기 때문이다. 그 이유는 한국어가 영어와는 다른 형태를 가지는 언어인 교착어라는 점이기 때문이다.

### 교착어의 특성
- 교착어: 조사, 어미 등을 붙여서 말을 만드는 언어

형태소 : 뜻을 가진 작은 말으 ㅣ단위
- 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
- 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간을 말한다.

### 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

## 품사 태깅(Part-of-speech tagging)
단어는 표기는 같지만 품사에 따라서 단어의 의미가 달라지기도한다.
예) 영어 'fly'는 동사로 '날다'이지만 명사로 '파리'라는 의미를 가지고 있다.
예) 한국어 '못'이라는 단어는 명사로서는 망치를 이용해 목재를 고정하는 물건을 의미하지만 부사로서는 '못'은 동작 동사를 할 수 없다는 의미로 쓰인다.

결국 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 보는 것이 주요 지표가 될 수도 있다. 그에 따라 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓기도 한다.

## NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

In [27]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

In [36]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


Penn Treebank POG Tags에서 PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유명사, NNS는 복수형 명사, CC는 접속사, DT는 관사를 의미한다.

한국어 자연어 처리를 위해서는 Konlpy라는 파이썬 패키지를 사용할 수 있다.
Okt, Mecap, Komoran, Hannanum, KKma가 있다.

In [32]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

In [33]:
okt = Okt()
kkma = Kkma()

In [34]:
print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


Okt 형태소 메소드
1) morphs : 형태소 추출
2) pos : 품사 태깅(Part-of-speech tagging)
3) nouns : 명사 추출

In [37]:
print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']
