# Tokenization

- corpus 데이터가 전처리가 되지 않은 상태라면 
- 데이터를 용도에 맞게 토큰화, 정제, 정규화 (tokenize, cleaning, normalization) 화 합니다

# Word Tokenization

- token 기준을 word로 하는 경우 단어 토큰화
- 단어구, 의미를 문자열들도 단어로 간주 되기도 합니다

### 토큰화 작업은 구두점 or 특수 문자를 지우는 cleaning 작업으로 해결 되지 않습니다
- 구두점, 특수 문자를 제거 하면 토큰이 의미를 잃어 버릴때도 있음
- 띄어쓰기 단위로 자르면 토큰이 분리 되는 영어와 달리 한국어는 구분이 어려움

# Tokenize 선택의 순간!
- Don't 와 jone's 토큰화 문제 

In [4]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [6]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [7]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [8]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


# 토큰화에서 고려해야할 사항
> 단순히 공백 기준으로 잘라내는 작업이 아니다 
1. 구두점 특수문자
    - $45 , 12/21/13, 45.55
  
2. 줄임말 과 단어 내에 띄어쓰기 존재
    - we're , rock 'n' roll 
    
- 경우에 따라 위와 같은 토큰들도 하나로 봐줘야 한다

### 표준 토큰화 예제
-  Penn Treebank Tokenization

규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.

규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

In [5]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 문장 토큰화 

- 토큰 단위가 문장 일떄 토큰화를 어떻게 할지 
- 코퍼스 내에 문장 단위로 구분하는 작업 : sentence segmentation 

- 보통 마침표 ? ! 등으로 문장의 끝을 판단하는데 
- 이것 또한 상황에 따라서 문제가 될 경우가 많음

In [10]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))


['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [11]:
from nltk.tokenize import sent_tokenize
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- nltk 는 단순히 마침표로 구분자로 문장을 구분하지 않았음로 ph.D를 잘 파악 한다 

## 한국어 문장 토큰화 kss 

In [15]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


# Binary Classifier

예외 사항을 발생시키는 마침표의 처리를 위해서 입력에 따라 두 개의 클래스로 분류하는 이진 분류기(binary classifier)를 사용한다 
1. 마침표가 단어 일부분일 경우 즉 abbreivation 으로 쓸 경우 
2. 문장의 구분자 (boundary)일 경우 

- pattern 으로 인식한 함수 일수도, 머신러닝으로 이진 분류를 할수도 있다
- 이진 분류기 구현에서는 약어 사전(abbrevivation dict)이 유용하게 쓰임 

# WHY 한국어는 토큰화가 어려운가 ?
- (영어) 줄임말에 대한 예외처리만 한다면, 띄어쓰기(whitespace) 기준으로 띄어쓰기 토큰화를 수행해도 토큰화가 잘 작동
- (한국어) 한국어는 영어와 달리 띄어쓰기만으로 토큰화가 어렵다, 한국어의 경우 띄어쓰기 단위가 '어절' 인데
- 어절 토큰화는 한국어 NLP 에서 지양되고 있음, 어절 토큰화와 단어 토큰화가 다르기 떄문
- 한국어가 영어롸 다른 형태를 가진 교착어에서 기인됨 (교착어란 조사, 어미를 붙여서 말을 만드는 언어ㅡ)

## 1) 한국어는 교착어이다.


- 영어와는 달리 한국어에는 조사라는 것이 존재합니다.
-  그(he/him)라는 주어나 목적어가 들어간 문장이 있다고 합시다. 이 경우, 그라는 단어 하나에도
- '그가', '그에게', '그를', '그와', '그는'과 같이 다양한 조사가 '그'라는 글자 뒤에 띄어쓰기 없이 바로 붙게됩니다

- 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이 되면 자연어 처리가 힘들고 번거로워지는 경우가 많습니다.
- 대부분의 한국어 NLP에서 조사는 분리해줄 필요

- 한국어는 어절이 독립적인 단어로 구성되는 것이 아니라 조사 등의 무언가가 붙어있는 경우가 많아서 이를 전부 분리해줘야 한다는 의미

- 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
- 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.

- 문장 : 에디가 딥러닝책을 읽었다
- 자립 형태소 : 에디, 딥러닝책
- 의존 형태소 : -가, -을, 읽-, -었, -다

---
> 한국어에서 영어에서의 단어 토큰화와 유사한 형태를 얻으려면 어절 토큰화가 아니라 형태소 토큰화를 수행헤야 한다 

## 2)한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

## 품사 태깅 (Part-of-speech tagging)

- 단어의 표기는 같지만 품사에 따라 단어의 의미가 달라지기도 한다 
- fly : 날다 , 파리 
- 못 : 고정하는 물건, 못 먹는다에 못...

- 단어의 의미를 제대로 파악하기 위해 해당 단어가 어떤 품사인지도 주요 지표가 될수 있다

In [19]:
from nltk.tokenize import word_tokenize
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [20]:
from nltk.tag import pos_tag
tokenized_sentence = word_tokenize(text)
print(pos_tag(tokenized_sentence))

[('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


Penn Treebank POG Tags에서 PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사를 의미합니다.



In [22]:
from konlpy.tag import Okt  

# 형태소 추출
okt = Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))


['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [25]:
# 품사 태깅(Part of sppech taggin)
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [26]:
# 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


In [27]:
from konlpy.tag import Kkma  
kkma = Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [28]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


- okt 형태소 분석기와 결과가 다른것을 볼수 있다
- 각 형태소 분석기는 성능과 결과가 다르게 나오기에 
- 형태소 분석기 선택에 중요!!

In [29]:
# https://wikidocs.net/21698