# 토큰화(Tokenization)
- 정제되지 않은 수집된 데이터(말뭉치, 코퍼스)에서 토큰(token)이라는 단위로 나누는 작업

# 1. 단어 토큰화(Word Tokenization)
- 단어 토큰화의 단위는 단어, 단어구, 의미를 갖는 문자열
- 예)Time is an illusion. Lunchtime dobule so!<br>
  ->(토큰화) 출력: "Time", "is", "an", "illustion", "Lunchtime", "double", "so"<br>
- 단쉰히 띄어쓰기, 구두점, 특수문자를 전부 제거하는 정제작업으로 해결되지 않음.
- 띄어쓰기 단위로 자르면 영어는 구분되지만
- ****한글은 띄어쓰기만으로 단어 토큰 구분이 어려움

# 2.토근화 중 생기는 선택의 순간
- <b>어포스트로피(')</b> 분류 문제
- 예)Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.
- NLTK는 영어 코퍼스를 토큰화하기 위한 도구를 제공
- 그 중 word_tokenize와 WordPunctTokenizer를 사용하여 처리 방법 확인
- Keras에서는 text_to_word_sequence를 제공

In [3]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\fxk\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [4]:
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [7]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [9]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


# 3.토큰화에서 고려해야할 사항
- 구두점이나 특수문자를 단순 제외해서는 안됨<br>
 1) m.p.h나 Ph.D나 AT&T<br>
 2) 특수 문자의 달러()나 슬래시(/)로 예를 들어보면, $45.55와 같은 가격을 의미하며 01/02/06은 날짜를 의미<br>
 3) 45.55 또는 123,456,789 세 자리 단위의 컴마<br>
- 줄임말과 단어 내에 띄어쓰기가 있는 경우<br>
 1) what're는 what are의 줄임말이며, we're는 we are의 줄임말<br>
 2) New York이라는 단어나 rock 'n' roll이라는 단어<br>
- 표준 토큰화 예제<br>
 1) 토큰화 방법 중 하나인 Penn Treebank Tokenization의 규칙 확인(하기 코드)<br>
   (1) 하이푼으로 구성된 단어는 하나로 유지<br>
   (2) doesn't와 같이 어포스트로피로 '접어'가 함께하는 단어는 분리<br>

In [10]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


규칙1과 규칙2에 따라서 home-based는 하나의 토큰으로 취급하고 있으며, dosen't의 경우 does와 n't는 분리

# 4. 문장 토큰화(Sentence Tokenization)
- 문장단위 토큰: 문장 분류<br>
- 흔히들 "?", ".", "!"가 오면 끝이 아닐까하지만 그렇지 않은 경우도 많음<br>
- 예) "IP 192.168.56.31", "Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year." 든가<br>
- NLTK에서는 영어 문장 토큰화 지원 - sent_tokenize<br>
- KSS는 한글 문장 토큰화 지원 - pip install kss

In [2]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


In [3]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- sent_tokenize에서는 .온점 처리도 가능

# 5. 이진 분류기(Binary Classifier)
- https://tech.grammarly.com/blog/posts/How-to-Split-Sentences.html

# 6. 품사 태깅(Part of speech tagging)
- "못"이라는 단어는 벽, 목재에 고정하는 물건과, "못 먹다"같이 할 수 없다는 뜻을 가지고 있다.
- 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분해 놓는 작업을 <b>"품사 태깅"</b>이라고 한다.

# 7.NLYK와 KoNLPy를 이용한 영어, 한글 토큰화 실습

In [5]:
from nltk.tokenize import word_tokenize
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [8]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\fxk\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

- PRP는 인칭 대명사
- VBP는 동사
- RB는 부사
- VBG는 현재부사
- IN은 전치사
- NNP는 고유 명사
- NNS는 복수형 명사
- CC는 접속사
- DT는 관사

In [9]:
from nltk.tag import pos_tag
x = word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

# Okt 형태소 분석기
1) morphs : 형태소 추출<br>
2) pos : 품사 태깅(Part-of-speech tagging)<br>
3) nouns : 명사 추출

In [12]:
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [13]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [14]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


# 꼬꼬마 형태소 분석기

한국어 형태소 분석기 성능 비교 : <br>
https://iostream.tistory.com/144
http://www.engear.net/wp/%ED%95%9C%EA%B8%80-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0-%EB%B9%84%EA%B5%90/