# 토큰화 (Tokenization)
단어 토큰화(Word Tokenization)
===
 - 토큰의 기준을 단어로 하는 경우, 단어 토큰화라고 한다. 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주된다.
 - 구두점과 같은 문자는 제외시키는 간단한 단어 토큰화 작업을 보여준다. 구두점이란, 마침표, 컴마, 물음표, 세미콜론, 느낌표 등과 같은 기호
 - Time is an illusion. Lunchtime double so!
 - "Time", "is", "an", "illustion", "Lunchtime", "double", "so"
 - 단어 토큰이 구분되는 영어와 달리, '한국어'는 띄어쓰기만으로는 토큰을 구분하기 힘들다.

토큰화 중 생기는 선택의 순간
===
 - Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.
 - 윗 문장에서 Don't와 Jone's는 어떻게 토큰화를 할건지?
 - NLTK는 영어 코퍼스 토큰화하기 위한 도구들을 제공한다.
 - 그 중 word_tokenize 와 WordPunctTokenizer를 사용해서 확인해보겠다.

In [3]:
%pip install nltk

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'C:\Users\jsshi\anaconda3\python.exe -m pip install --upgrade pip' command.


In [14]:
from nltk.tokenize import word_tokenize  
from nltk.tokenize import WordPunctTokenizer  
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [19]:
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [20]:
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [21]:
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


토큰화에서 고려해야할 사항
===
 - 구두점이나 특수문자를 단순 제외해서는 안된다. ex) 숫자사이에 ,들어갈 수 도있고, /는 01/20/21 날짜를 나타낼수도있고, .은 ph.D 표현 경우 등등
 - 줄임말과 단어 내에 띄어쓰기가 있는 경우 조심해야한다. What're -> what are, I'm -> i am 등등
 - 다음은 표준 토큰화의 예제

In [22]:
# Penn Treebank Tokenization 
#규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
#규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [23]:
#문장 단위 토큰화
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [24]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [26]:
%pip install kss

Collecting kss
  Downloading kss-2.5.1-py3-none-any.whl (65 kB)
Installing collected packages: kss
Successfully installed kss-2.5.1
Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'C:\Users\jsshi\anaconda3\python.exe -m pip install --upgrade pip' command.


In [28]:
import kss
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


이진 분류기 (Binary Classifier)
===
 - 문장 토큰화에서의 예외 사항을 발생시키는 마침표의 처리를 위해서 입력에 따라 두 개의 클래스로 분류하는 이진 분류기를 사용하기도 한다.
 - 1. 마침표가 단어의 일부분일 경우. 즉, 마침표가 약어(abbreivation)로 쓰이는 경우
 - 2. 마침표(.)가 정말로 문장의 구분자(boundary)일 경우를 의미할 것입니다.

한국어에서의 토큰화의 어려움
===
 * 한국어는 교착어이다. 
 ==
 - 한국어 토큰화에서는 [형태소]란 개념을 반드시 이해야한다. 형태소는 가장 작은 말의 단위를 뜻한다.
 - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
 - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.
 - 에디가 딥러닝 책을 읽었다 -> 자립 형태소 : 에디, 딥러닝책 / 의존 형태소 : -가, -을, 읽-, -었, -다
 - 한국어에서 영어에서의 단어 토큰화와 유사한 형태를 얻으려면 어절 토큰화가 아니라 형태소 토큰화를 수행해야 한다.
 
 * 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.
 ==
 - 잘 안지켜지는 문장이 많아서 자연어 처리가 어려워진다.
 

NLTK와 KONLPy를 이용한 영어, 한국어 토큰화 실습
===
 - NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원한다.
 - NLTK에서는 Penn Treebank POS Tags라는 기준을 사용한다.

In [30]:
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [33]:
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

In [39]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

In [42]:
from konlpy.tag import Okt  
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

TypeError: pos() missing 1 required positional argument: 'phrase'

In [43]:
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

In [44]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

NameError: name 'kkma' is not defined

In [45]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

NameError: name 'kkma' is not defined