# 1. 단어 토큰화(Word Tokenization)
word는 단어 외에도 단어구, 의미를 갖는 문자열로도 간주   
구두점(punctuation)을 지운 뒤 whitespace를 기준으로 잘라냄   
(구두점은 마침표(.), 컴마(,), 세미콜론(;), 느낌표(!) 같은 기호)   

한국어는 띄어쓰기만으로 단어 토큰을 구분하기 어려움   
토큰화는 cleaning만으로 해결되지 않으며, 구두점과 특수문자 제거시 토큰이 의미를 잃는 경우도 존재

# 2. 토큰화 중 생기는 선택의 순간
예상치 못한 경우로 토큰화의 기준을 생각해야 하는 경우 발생   
데이터를 어떤 용도로 사용할 건지, 그에 영향이 없는 기준으로 선택

In [1]:
# NLTK에서의 어퍼스트로피 처리
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphange is as cheery as cheery goes for a pastry shop."))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphange', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [2]:
# WordPunctTokenizer에서의 어퍼스트로피 처리
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphange is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphange', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
# keras로 어퍼스토로피 처리
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphange is as cheery as cheery goes for a pastry shop."))
# don't나 jone's의 같은 어퍼스트로피 보존 

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphange', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


# 3. 토큰화에서 고려해야할 사항
토큰화는 단순히 corpus에서 punctuation을 제외하고 whitespace로 잘라내는 작업만은 아님   

> **1) 구두점이나 특수 문자를 단순 제외해서는 안 됨**   
> 문장의 경계를 나타내는 마침표(.) 같은 경우 제외하지 않을 수 있음   
> 단어 내에 구두점을 가진 경우(ph.D, AT&T 등), $과 /의 경우, 숫자 사이 콤마의 경우

> **2) 줄임말과 단어 내에 띄어쓰기의 경우**   
> 어퍼스트로피로 문장의 접어(clitic)가 생긴 경우, 기존 문장은 띄어쓰기를 포함함

> **3) 표준 토큰화 예제**   
> **Penn Treebank Tokenization**
> 1. 하이픈으로 구성된 단어는 하나로 유지한다.
> 2. doesn't와 같이 어퍼스토로피로 접혀있던 단어는 분리한다.

In [4]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal, it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal', ',', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


# 4. 문장 토큰화(Sentence Tokenization)
문장 분류(sentence segmentation), corpus 내에서 문장 단위로 구분하는 작업   
정제 안 된 corpus는 문장 단위로 구분되지 않았을 가능성 존재   

!나 ?는 구분자(boundary) 역할을 하나 마침표는 문장의 끝이 아니더라도 등장 가능   
그렇기에 사용하는 corpus가 어떤 국적의 언어인지에 따라 직접 규칙들을 정의

In [5]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [6]:
# 문장 중간에 마침표가 여러 번 등장하는 경우
from nltk.tokenize import sent_tokenize
text = "I am actively looking for ph.D. students. and you are a ph.D student."
print(sent_tokenize(text))
# NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않음

['I am actively looking for ph.D. students.', 'and you are a ph.D student.']


한국어 문장 토큰화 도구 KSS(Korean Sentence Splitter)

In [7]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담 아니에요. 이제 해보면 알 걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담 아니에요.', '이제 해보면 알 걸요?']


# 5. 이진 분류기(Binary Classifier)
예외를 발생시키는 마침표 처리를 위해 입력에 따라 두 개의 클래스로 분류하는 binary classifier 사용   
1. 마침표(.)가 단어의 일부분, 즉 약어(abbreivation)로 쓰이는 경우
2. 마침표(.)가 문장의 boundary일 경우   

마침표가 어떤 클래스에 속하는지 결정하기 위해 어떤 마침표가 주로 약어로 쓰이는지 알아야 함   
이때 이진 분류기 구현에서 약어 사전 이용   
문장 토큰화를 수행하는 오픈소스로는 NLTK, OpenNLP, Stanford CoreNLP, splitta, LingPipe 등

# 6. 한국에서의 토큰화 어려움
영어는 합성어나 줄임말에 대한 예외처리만 하면 whitespace를 기준삼는 토큰화를 수행해도 잘 작동   
하지만 한국어는 띄어쓰기만으로는 토큰화를 하기 부족함   

띄어쓰기 단위인 어절로 하는 토큰화는 한국어 NLP에서 지양됨, 어절 토큰화는 단어 토큰화와 다름   
한국어는 영어와 달리 **교착어**(조사와 어미를 붙여 말을 만드는 언어)임

> **1) 한국어는 교착어이다.**   
> 영어는 he/him, 한국어는 그가/그에게/그를/그와/그는    
> 자연어 처리를 하다보면 한 단어에 조사들이 많아 번거로움, 대부분의 한국어 NLP에서 조사는 분리   


> **한국어 토큰화는 형태소(morpheme) 토큰화를 수행**   
> 1. **자립 형태소**: 접사, 어미, 조사와 상관없이 자립해 사용하는 형태소, 그 자체로 단어임   
> 예) 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 
> 2. **의존 형태소**: 다른 형태소와 결합해 사용하는 형태소   
> 예) 접사, 어미, 조사, 어간

> **2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.**   
띄어쓰기가 틀렸거나 지켜지지 않는 corpus가 많음   
한국어는 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있음   
한국어(모아쓰기 방식)와 영어(풀어쓰기 방식)라는 특성의 차이에 기인

# 7. 품사 태깅(Part-of-speech Tagging)
단어의 표기는 같더라도 품사에 따라 의미가 달라지기도 함   
단어의 의미를 제대로 파악하기 위해 해당 단어가 어떤 품사로 쓰였는지 판단

# 8. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습
NLTK에서 영어 corpus의 품사 태깅을 하고자 Penn Treebank POS Tags 사용

In [8]:
from nltk.tokenize import word_tokenize
text = "I am actively looking for ph.D. students. and you are a ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'ph.D.', 'student', '.']


**Penn Treebank POG Tags**   
PRP: 인칭 대명사,   
VBP: 동사,   
RB: 부사,   
VBG: 현재 부사,   
IN: 전치사,   
NNP: 고유 명사,   
NNS: 복수형 명사,   
CC: 접속사,   
DT: 관사

In [9]:
from nltk.tag import pos_tag
x = word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('ph.D.', 'JJ'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('ph.D.', 'JJ'),
 ('student', 'NN'),
 ('.', '.')]

KoNLPy에서 사용하는 형태소 분석기로 Okt(Open Korea Text), Mecab, Komoran, 한나눔(Hannanum), 꼬꼬마(Kkma) 사용   

**KoNLPy 형태소 분석기 공통 메소드**   
1. morphs: 형태소 추출
2. pos: 품사 태깅
3. nouns: 명사 추출

In [10]:
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [11]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [12]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


각 형태소 분석기의 성능과 결과가 다르기에, 용도에 따라 어떤 형태소 분석기가 적절한지 판단하고 선택 

In [13]:
from konlpy.tag import Kkma
kkma = Kkma()
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [14]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [15]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']
