<a href="https://colab.research.google.com/github/Eui-seong/Eui-seong/blob/main/Tokenization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. 단어 토큰화(Word Tokenization)**
* 토큰화 : 코퍼스에서 토큰 단위로 나누는 작업

* 토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화라고 한다.
* 여기서 단어(word)는 단어 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 함.

In [2]:
# punkt is the required package for tokenization. 
# Hence you may download it using nltk download manager or download it programmatically using nltk.download('punkt').
# 아마 컴퓨터에서는 패키지 설치하며 자동으로 설치되었는듯.

import nltk
nltk.download('punkt')  
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


# **2. 토큰화 중 생기는 선택의 순간**

In [None]:
# word_tokenize 
# Don't : Do + n't / Jone's : Jone + 's 

print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
# WordPunctTokenizer
# 구두점을 별도로 분류하는 특징을 갖고 있다.
# Don't : Don + ' + t / Jone's : Jone + ' + s 

print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
# text_to_word_sequence
# 기본적으로 모든 알파벳을 소문자로 바꾸면서 구두점 제거 
# don't나 jone's 같은 경우 아포스트로피는 보존된다.

print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


# **3. 토큰화에서 고려해야할 사항**


* 구두점이나 특수 문자를 단순 제외해서는 안 된다.
* 줄임말과 단어 내에 띄어쓰기가 있는 경우.

In [None]:
# 트리뱅크 워드토크나이저
# 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
# 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다. 

from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. \
it doesn't have a food chain or restaurant of their own."
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text))

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


# **4. 문장 토큰화(Sentence Tokenization)**


* 토큰의 단위가 문장
* 문장 분류(sentence segmentation)라고도 부른다.
* 마침표(.)는 !,? 에 비해서 명확한 구분자(boundary) 역할을 하지 못한다.





EX1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 aaa@gmail.com로 결과 좀 보내줘. 그 후 점심 먹으러 가자.

EX2) Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year. 

In [3]:
# sent_tokenize : NLTK에 있는 모듈로 영어 문장을 토큰화함

from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself \
was driving him crazy. Finally,the barber went up a mountain and almost to \
the edge of a cliff. He dug a hole in the midst of some reeds. He looked \
about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally,the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [4]:
# 문장 중간에 마침표가 다수 등장하는 경우
# 단순히 마침표를 구분자로 문장을 구분하지 않았음을 확인할 수 있다.

text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [None]:
# kss : 한국어 문장 토큰화 도구 
!pip install kss

In [7]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 \
어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

[Korean Sentence Splitter]: Initializing Pynori...


한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


# **5. 한국어에서의 토큰화의 어려움**

* 영어는 New York 과 같은 합성어나 he's 와 같이 줄임말에 대한 예외처리만 한다면, 띄어쓰기(whitespace)를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다. 대부분의 경우에서 단어 단위로 띄어쓰기가 이루어지기 때문에 띄어쓰기 토큰화와 단어 토큰화가 거의 같다.
* 하지만 한국어는 영어와 달리 띄어쓰기만으로는 토큰화를 하기에 부족하다. 한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데 어절 토큰화는 한국어 NLP에서 지양되고 있다. 어절 토큰화와 단어 토큰화는 같지 않기 때문이다. 그 근본적인 이유는 한국어가 영어와는 다른 형태를 가지는 언어인 **교착어**라는 점에서 기인한다. 교착어란 조사, 어미 등을 붙여서 말을 만드는 언어를 말한다.

### **5-1. 교착어의 특성**
* 한국어 토큰화에서는 **형태소(morpheme)** 란 개념을 반드시 이해해야 한다.
* 형태소 : 뜻을 가진 가장 작은 말의 단위를 말한다.
* **자립 형태소** : 접사,어미,조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다.체언(명사,대명사,수사),수식언(관형사,부사),감탄사 등이있다.
* **의존 형태소** : 다른 형태소와 결합하여 사용되는 형태소. 접사,어미,조사,어간을 말한다.

**|  결국 한국어에서 영어의 단어 토큰화와 유사한 형태를 얻으로면 어절 토큰화가 아닌, 형태소 토큰화를 수행해야 한다.**

### **5-2. 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.**
* 사용하는 한국어 코퍼스가 많은 경우에 띄어쓰기가 틀렸거나 지켜지지 않는 코퍼스가 많다.
* 한국어는 영어권 언어와 비교하여 띄어쓰기가 어렵고 잘 지켜지지 않는 경향이 있다.
* 이에 대한 이유는 기본적으로 한국어의 경우 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있는 언어라는 점이다.

**| 결론적으로 한국어는 수많은 코퍼스에서 띄어쓰기가 무시되는 경우가 많아 자연어 처리가 어려워졌다.**

# **6. 품사 태깅(Part-of-speech tagging)**

* 품사 태깅 : 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓는 작업

* 단어는 표기는 같지만 품사에 따라서 단어의 의미가 달라지기도 한다.
* 예를 들어 '못'이라는 단어는 명사로는 망치를 사용해서 목재 따위를 고정하는 물건이지만,  부사로서의 '못'은 어떠한 행위를 할 수 없다는 의미이다.
* 따라서 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 보는 것이 주요 지표가 될 수도 있다.


# **7. NLTK와 koNLPy를 이용한 영어, 한국어 토큰화 실습**

In [9]:
# Penn Treebank POS Tags : NLTK의 품사 태깅 기준.
# The perceptron part-of-speech tagger implements part-of-speech tagging 
# using the averaged, structured perceptron algorithm.

# PRP : 인칭 대명사
# VBP : 동사
# RB : 부사
# VBG : 현재분사
# IN : 전치사
# NNP : 고유명사
# NNS : 복수형 명사
# CC : 접속사
# DT : 관사

nltk.download('averaged_perceptron_tagger')
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text="I am actively looking for Ph.D. students. and you are a Ph.D. studnet."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :', tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'studnet', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('studnet', 'NN'), ('.', '.')]


In [13]:
! pip install KoNLPy

Collecting KoNLPy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 652 kB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 73.9 MB/s 
Installing collected packages: JPype1, KoNLPy
Successfully installed JPype1-1.3.0 KoNLPy-0.6.0


In [15]:
# KoNLPy(코엔엘파이) 파이썬 패키지의 형태소 분석기
# Okt(Open Korea Text)
# 메캅(Mecab)
# 코모란(Komoran)
# 한나눔 (Hannanum)
# 꼬꼬마(Kkma)

from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [16]:
print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']
