# 토큰화(Tokenization)

+ 본과정에서는 토큰화(Tokenization)에 대해 배워보겠습니다.
+ 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)
+ 즉, 문장을 주면 문장 단위나 어절 단위나 형태소 단위로 나누게 되는것을 말하며 
+ 나누어진 토큰을 컴퓨터가 이해할수 있게 정수로 매핑해야 함

### 학습목차
1. 단어 토큰화 : nltk word_tokenize 함수 활용
2. 문장 토큰화 : nltk sent_tokenize 함수 활용
3. NLTK 이용하여 영어 토큰화 및 품사 태깅
4. KoNLPy를 이용하여 한국어 토큰화 및 품사 태깅
 + OKT 형태소 분석기
 + 꼬꼬마 형태소 분석기(Kkma)

----------------

## 1. 단어 토큰화(Word Tokenization)
##### 입력: Time is an illusion. Lunchtime double so!
##### 출력 : "Time", "is", "an", "illustion", "Lunchtime", "double", "so"

#### NLTK는 영어 코퍼스를 토큰화하기 위한 도구들을 제공 : word_tokenize와 WordPunctTokenizer

In [1]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [2]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


## 2. 문장 토큰화(Sentence Tokenization)

In [3]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


## 3. NLTK 이용하여 영어 토큰화 및 품사 태깅 

In [4]:
from nltk.tokenize import word_tokenize
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [5]:
import nltk
nltk.download('averaged_perceptron_tagger')

from nltk.tag import pos_tag
x = word_tokenize(text)
pos_tag(x)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

## 4. KoNLPy를 이용하여 한국어 토큰화 및 품사 태깅
+ KoNLPy: 파이썬 한국어 NLP : https://konlpy.org/ko/latest/index.html
+ 한글 형태소 분류기 : Hananum, Kkma, Komoran, Mecab, Okt

In [6]:
# 한글어를 토큰화나 형태소 분리하기 위해 konlpy 설치 필요
!pip install konlpy



### OKT 형태소 분석기

In [7]:
# okt 임포트
from konlpy.tag import Okt  
okt = Okt()  

In [8]:
# morphs : 형태소 추출
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [9]:
# pos : 품사 태깅(Part-of-speech tagging)
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [10]:
# nouns : 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


### 꼬꼬마 형태소 분석기(Kkma)

In [11]:
# kkma 임포트
from konlpy.tag import Kkma  
kkma = Kkma()  

In [12]:
# morphs : 형태소 추출
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [13]:
# pos : 품사 태깅(Part-of-speech tagging)
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [14]:
# nouns : 명사 추출
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

['코딩', '당신', '연휴', '여행']


## 배운 내용 정리
1. 문장을 주로 어절이나 형태소 단위(단어)로 나누는것을 "토큰화" 라고 한다.
2. 영어 토큰화는 ntlk 라이브러리의 word_tokenize 사용한다.
3. 한글 토큰화는 KoNLPy 라이브러리의 OKT, KKMA 사용한다.
4. 필요할때 라이브러리 가져다가 사용해서 토큰화하면 된다.