# Tokenization 개념

참고 링크 : https://wikidocs.net/21698 (정독)

주어진 텍스트에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의.

일반적으로 토큰의 단위는 크게는 '문장' 작게는 '단어'.

**토큰화는 일반적으로 직접 수행하는게 아닌, 이미 구현되어져 있는 패키지에 의존하는 것이 훨씬 좋음.**

토큰화가 어떤 의미인지 영어와 한국어에 대해서 실습.

---

#Word Tokenization

단어 단위로 토큰화를 수행하는 것을 단어 토큰화(Word Tokenization)라고 함.

## 영어 : Word Tokenization

영어로 토큰화를 할 때는 일반적으로 NLTK라는 패키지를 사용. NTLK는 영어 자연어 처리를 위한 패키지. 
Colab에서는 NLTK가 이미 설치되어져 있으므로 import nltk로 바로 사용.

NLTK에서는 다양한 영어 토크나이저(토큰화를 수행하는 도구)를 제공. 
**토큰화 결과는 토크나이저마다 규칙이 조금씩 다름. 어떤 토크나이저를 사용할 지 정답은 없음.**

어떤 토크나이저를 사용할지 선택.

### **NLTK의 토크나이저 1. word_tokenize**

In [None]:
import nltk

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

아래의 문장을 보면 Don't와 Jone's에는 아포스트로피(')가 들어있음.

In [None]:
sentence = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

**아포스트로피가 들어간 상황에서 Don't와 Jone's는 어떻게 토큰화할 수 있을까?**



In [None]:
from nltk.tokenize import word_tokenize  
print(word_tokenize(sentence))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


Don't를 Do와 n't로 분리하였으며, Jone's는 Jone과 's로 분리

---

### **NLTK의 토크나이저 2. WordPunctTokenizer**


In [None]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize(sentence))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


Don't를 Don과 '와 t로 분리하였으며, Jone's를 Jone과 '와 s로 분리

**다시 말하지만 뭐가 더 좋은지 정답은 없음. 사실 토크나이저마다 각자 규칙이 다르기 때문에 사용하고자 하는 목적에 따라 토크나이저를 선택하는 것이 중요.**

---

 ### **NLTK의 토크나이저 3. TreebankWordTokenizer**

Penn Treebank Tokenizer의 규칙

규칙 1. 하이푼으로 구성된 단어는 하나로 유지.  
규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리.  

In [None]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


지금까지 주어진 문자열로부터 NLTK가 제공하는 토크나이저 3개를 사용하여 단어 토큰화를 수행.  

결과가 전부 다름

---

### **띄어쓰기를 기준으로 하는 단어 토큰화 (잘 되는 것 같아도 가급적 No!)**

**사실 영어는 띄어쓰기를 기준으로 단어 토큰화를 한다고 하더라도 꽤 잘 되는 편.**  
하지만 그럼에도 띄어쓰기를 기준으로 단어 토큰화를 하는 것은 하지 않는 것이 좋음.
그 이유는?

In [None]:
en_text = "A Dog Run back corner near spare bedrooms"

우선 앞서 배운 NLTK로 토큰화.

In [None]:
from nltk.tokenize import word_tokenize
print(word_tokenize(en_text))

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms']


잘 동작.

이번에는 NLTK가 아닌 그냥 띄어쓰기 단위로 토큰화.  
파이썬은 주어진 문자열에 .split()을 하면 띄어쓰기를 기준으로 전부 원소를 잘라서 리스트 형태로 리턴.

In [None]:
print(en_text.split())

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms']


보이시나요? 이게 바로 띄어쓰기를 기준으로 단어 토큰화를 수행한 결과.  

사실 영어는 NLTK라는 패키지를 사용하면 좀 더 섬세한 토큰화를 하기는 하지만, 띄어쓰기를 하는 것만으로도 거의 토큰화가 잘 되는 편. 하지만 그럼에도 띄어쓰기를 기준으로 하는 것을 지양(하지마세요)하라는 것은 이유가 있음.  

예를 들어 영어 문장에 특수 문자를 추가.

In [None]:
en_text = "A Dog Run back corner near spare bedrooms... bedrooms!!"

NLTK로 토큰화.

In [None]:
from nltk.tokenize import word_tokenize
print(word_tokenize(en_text))

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms', '...', 'bedrooms', '!', '!']


보시면 특수문자들도 알아서 다 띄워서 bedrooms이 정상적으로 분리. 하지만 띄어쓰기 단위로 토큰화를 한다면?

In [None]:
print(en_text.split())

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms...', 'bedrooms!!']


bedrooms와 ...가 붙어서 bedrooms...가 나오고,  
bedrooms와 !!!가 붙어서 bedrooms!!!가 나옴.  

파이썬이 보기에 이들은 전부 다른 단어로 인식.

In [None]:
if 'bedrooms' == 'bedrooms...':
  print('이 둘은 같습니다.')
else:
  print('이 둘은 다릅니다.')

이 둘은 다릅니다.


In [None]:
'bedrooms...' == 'bedrooms!!'

False

NLTK가 훨씬 섬세하게 동작한다는 것을 알 수 있음.

---

## 한국어 : Word Tokenization(KoNLPy)

### 띄어쓰기를 기준으로 하는 단어 토큰화 (그냥 No!)

사실 영어의 경우에는 띄어쓰기 단위로 토큰화를 해도 단어들 간 구분이 꽤나 명확한 편. 하지만 한국어의 경우에는 토큰화 작업이 훨씬 까다로움. 그 이유는 **한국어는 조사, 접사 등으로 인해 단순 띄어쓰기 단위로 나누면 같은 단어가 다른 단어로 인식되는 경우가 너무 너무 너무 많기 때문.**

한국어는 띄어쓰기로 토큰화하는 것은 명확한 실험 목적이 없다면 거의 쓰지 않는 것이 좋음. 예시를 통해서 이해.

In [None]:
kor_text = "사과의 놀라운 효능이라는 글을 봤어. 그래서 오늘 사과를 먹으려고 했는데 사과가 썩어서 슈퍼에 가서 사과랑 오렌지 사왔어"
print(kor_text.split())

['사과의', '놀라운', '효능이라는', '글을', '봤어.', '그래서', '오늘', '사과를', '먹으려고', '했는데', '사과가', '썩어서', '슈퍼에', '가서', '사과랑', '오렌지', '사왔어']


위의 예제에서는 '사과'란 단어가 총 4번 등장했는데  
모두 '의', '를', '가', '랑' 등이 붙어있어 이를 제거해주지 않으면 기계는 전부 다른 단어로 인식.

In [None]:
'사과' == '사과의'

False

In [None]:
'사과의' == '사과를'

False

In [None]:
'사과를' == '사과가'

False

In [None]:
'사과가' == '사과랑'

False

---

### 형태소 분석기

단어 토큰화를 위해서 영어에 NLTK가 있다면 한국어에는 형태소 분석기 패키지인 KoNLPy(코엔엘파이)가 존재.  
KoNLPy는 Colab에 설치되어져 있지 않으므로 별도로 설치.

In [None]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 4.4 MB/s 
[?25hCollecting colorama
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 50.7 MB/s 
Collecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 5.1 MB/s 
Installing collected packages: JPype1, colorama, beautifulsoup4, konlpy
  Attempting uninstall: beautifulsoup4
    Found existing installation: beautifulsoup4 4.6.3
    Uninstalling beautifulsoup4-4.6.3:
      Successfully uninstalled beautifulsoup4-4.6.3
Successfully installed JPype1-1.3.0 beautifulsoup4-4.6.0 colorama-0.4.4 konlpy-0.5.2


NLTK도 내부적으로 여러 토크나이저가 있던 것처럼 KoNLPy 또한 다양한 형태소 분석기를 가지고 있지만, Mecab이라는 형태소 분석기는 특이하게도 별도 설치 필요.

In [None]:
# Colab에 Mecab 설치
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 91, done.[K
remote: Total 91 (delta 0), reused 0 (delta 0), pack-reused 91[K
Unpacking objects: 100% (91/91), done.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2022-01-02 02:08:45--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 104.192.141.1, 2406:da00:ff00::22cd:e0db, 2406:da00:ff00::6b17:d1f5, ...
Connecting to bitbucket.org (bitbucket.org)|104.192.141.1|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?Signature=EhQfXe2fyp6J6EcOvZLAv%2FEUNU0%3D&Expires=1641090940&AWSAccessKeyId=AKIA6KOSE3BNA7WTAGHW&versionId=null&response-co

In [None]:
from konlpy.tag import *

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
mecab = Mecab()

위 형태소 분석기들은 공통적으로 아래의 함수를 제공.  
nouns : 명사 추출  
morphs : 형태소 추출  
pos : 품사 부착

### 형태소 분석기 Okt

In [None]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']
['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


### 형태소 분석기 꼬꼬마

In [None]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']
['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


### 형태소 분석기 코모란

In [None]:
print(komoran.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(komoran.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(komoran.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코', '당신', '연휴', '여행']
['열심히', '코', '딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가', '아', '보', '아요']
[('열심히', 'MAG'), ('코', 'NNG'), ('딩', 'MAG'), ('하', 'XSV'), ('ㄴ', 'ETM'), ('당신', 'NNP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKB'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가', 'VV'), ('아', 'EC'), ('보', 'VX'), ('아요', 'EC')]


### 형태소 분석기 한나눔

In [None]:
print(hannanum.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(hannanum.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(hannanum.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']
['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에는', '여행', '을', '가', '아', '보', '아']
[('열심히', 'M'), ('코딩', 'N'), ('하', 'X'), ('ㄴ', 'E'), ('당신', 'N'), (',', 'S'), ('연휴', 'N'), ('에는', 'J'), ('여행', 'N'), ('을', 'J'), ('가', 'P'), ('아', 'E'), ('보', 'P'), ('아', 'E')]


### 형태소 분석기 Mecab

In [None]:
print(mecab.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(mecab.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(mecab.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']
['열심히', '코딩', '한', '당신', ',', '연휴', '에', '는', '여행', '을', '가', '봐요']
[('열심히', 'MAG'), ('코딩', 'NNG'), ('한', 'XSA+ETM'), ('당신', 'NP'), (',', 'SC'), ('연휴', 'NNG'), ('에', 'JKB'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가', 'VV'), ('봐요', 'EC+VX+EC')]


**각 형태소 분석기는 성능과 결과가 다르게 나오기 때문에**, 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 됨. 예를 들어서 속도를 중시한다면 메캅을 사용할 수 있음.



참고 : https://iostream.tistory.com/144 (형태소 분석기 성능 비교)