## Tokenization
- Tokenization: 문장을 나누는 단위
- 영어는 띄어쓰기로 단어가 구분되지만 한국어는 그렇지 않음


#### word_tokenize: 단어 토큰화

In [25]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [26]:
# Don't -> Do, n't
# Jone's -> Jone, 's

print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [9]:
# Don't -> Don, ', t
# Jone's -> Jone, ' , s

print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
# Don't -> don't
# Jone's -> jone's

print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

# "don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', 
# "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 
# 'for', 'a', 'pastry', 'shop'

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


#### 표준 토큰화

In [None]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text))

# 'Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',
# ', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 
# 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.'

트리뱅크 워드토크나이저 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


#### sentence_tokenization
- .,?,!로 문장을 분리하면 될거같지만 '.'같은 경우에는 ip주소 등 다양하게 사용됨

In [None]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

# 문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge 
# secret to himself was driving him crazy.', 'Finally, the barber went up 
# a mountain and almost to the edge of a cliff.', 'He dug a hole in the 
# midst of some reeds.', 'He looked about, to make sure no one was near.']

text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

# 문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you
#  are a Ph.D student.']

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']
문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


#### kss: 한국어 토크나이저

In [None]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'

print('한국어 문장 토큰화 :',kss.split_sentences(text))

# 한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', 
# '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 
# 알걸요?']


[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://cleancode-ws.tistory.com/97
- konlpy.tag.Mecab: https://uwgdqo.tistory.com/363



한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


#### 한국어의 특징
- 영어에서는 he/his/him 으로 구분되지만 한국어는 그가/그에게/그를/그와 같이 다양한 조사가 붙어 띄어쓰기 없이 의미를 바꿈
- 형태소: 뜻을 가진 가장 작은 말의 단위
    - 자립 형태소: 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사
    - 의존 형태소: 다른 형태소와 결합하여 사용되는 형태소(접사, 어미, 조사, 어간)
    - ex)
        - 문장: 에디가 책을 읽었다.
        - 에디가/책을/읽었다.
        - 자립 형태소: 에디, 책
        - 의존 형태소: -가, -을, 읽-, -었, -다
- 한국어는 띄어쓰기가 잘 지켜지지 않는다.(비공식에서) 이유는 띄어쓰기를 하지 않아도 이해가 쉽기 때문

#### 품사 태깅(Part-of-speech tagging)
- 동음이의어
    - 영어 fly: 날다/파리
    - 한글 못: nail/not
- 품사 태깅: 단어가 어떤 뜻으로 쓰였는지 구분하는 작업

#### NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

In [16]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

In [None]:
text = " I am actively looking for PH.D students. and you are a PH.D. student"
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)

# 단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'PH.D', 
# 'students', '.', 'and', 'you', 'are', 'a', 'PH.D.', 'student']

print('품사 태깅 :',pos_tag(tokenized_sentence))

# 품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), 
# ('looking', 'VBG'), ('for', 'IN'), ('PH.D', 'NNP'), ('students', 'NNS'),
#  ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'),
#  ('PH.D.', 'NNP'), ('student', 'NN')]

# NN:명사, PRP:인칭대명사, VBP:동사, RB:부사, VBG:현재부사, IN:전치사, NNP:고유명사, NNS:복수형명사, CC:접속사, DT:관사

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'PH.D', 'students', '.', 'and', 'you', 'are', 'a', 'PH.D.', 'student']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('PH.D', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('PH.D.', 'NNP'), ('student', 'NN')]


#### KoNLPy(코엔엘파이): 한국어 자연어 처리 패키지
- Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(KKma)

In [20]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

In [None]:
okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
# OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는',
#  '여행', '을', '가봐요']

print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
# OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), 
# ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 
# 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]

print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
# OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [None]:
print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
# 꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', 
# '에', '는', '여행', '을', '가보', '아요']

print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
# 꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'),
#  ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 
# 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), 
# ('아요', 'EFN')]

print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
# 꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']
