# 1. 단어 토큰화(Word Tokenization)

- 토큰의 기준을 단어로 하는 경우
- 단어: 단어 단위, 단어구, 의미를 갖는 문자열(ex.구두점)

- 주의할 점  
  단순히 구두점 및 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생할 수 있음  
  한국어의 경우 띄어쓰기만으로 단어 토큰을 구분하기 어려움

# 2. 토큰화 중 생기는 선택의 순간

- 영어권 언어에서 (')

NLTK 'word_toknize'

In [6]:
import nltk  
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))
word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.")

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


['Do',
 "n't",
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 ',',
 'Mr.',
 'Jone',
 "'s",
 'Orphanage',
 'is',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop',
 '.']

- Don't -> 'Do', 'n't'
- Jone's -> 'Jone', ''s'

NLTK 'wordPunctTokenizer'

In [7]:
import nltk  
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))
WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.")  

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


['Don',
 "'",
 't',
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 ',',
 'Mr',
 '.',
 'Jone',
 "'",
 's',
 'Orphanage',
 'is',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop',
 '.']

- Don't -> 'Don', " ' ", 't'
- Jone's -> 'Jone', " ' ", 's'

# 3. 토큰화에서 고려해야할 사항

1. 구두점이나 특수 문자를 단순 제외해서는 안 된다.
    - 온점(.)의 경우 문장의 경계를 알 수 있기 때문에 제외하지 않을 수 있음
    - m.p.h / Ph.D / AT&T / $45.55 / 19/09/21 / 123,456,789에서 특수문자들(" . ", " & ", " / ", " , ")은 문자들에 의해 토큰화가 되지 않음

2. 줄임말과 단어 내에 띄어쓰기가 있는 경우
 - we're, I'm, New York, rock 'n' roll과 같은 줄임말 혹은 단어 내에 띄어쓰기가 있는 경우 하나로 인식할 수 있어야 함

3. 표준 토큰화 예제
 - 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
 - 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

In [8]:
import nltk
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))
tokenizer.tokenize(text)

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


['Starting',
 'a',
 'home-based',
 'restaurant',
 'may',
 'be',
 'an',
 'ideal.',
 'it',
 'does',
 "n't",
 'have',
 'a',
 'food',
 'chain',
 'or',
 'restaurant',
 'of',
 'their',
 'own',
 '.']

# 4. 문장 토큰화(Sentence Tokenization)

- 문장 분류(sentence segmentation)
- 주의할 점  
  온점은 문장의 끝이 아니더라도 등장할 수 있음  
  사용하는 코퍼스가 어떤 국적의 언어인지, 또는 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라서 직접 규칙들을 정의해볼 수 있음
- 문장 토큰화를 수행하는 오픈소스: NLTK, OpenNLP, 스탠포드 CoreNLP, splitta, LingPipe

- 문장 토큰화 규칙을 짤 때 발생할 수 있는 여러가지 예외사항 
    https://tech.grammarly.com/blog/posts/How-to-Split-Sentences.html

- 영어 문장의 토큰화  
  NLTK 'sent_tokenize'

In [9]:
import nltk
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


In [10]:
import nltk
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


--> NLTK는 단순히 옩ㅁ을 구분자로 하여 문장을 구분하지 않았기 때문에, Ph.D를 문장 내의 단어로 인식하여 성공적으로 인식함

# 5. 이진 분류기(Binary Classifier)

- 문장 토큰화 예외 사항을 발생시키는 온점의 처리를 위해 입력에 따라 두 개의 클래스로 분류하는 분류기

1. 온점(.)이 단어의 일부분일 경우(온점이 약어로 쓰이는 경우) 
2. 온점(.)이 정말로 문장 구분자일 경우

- 어떤 온점이 주로 약어로 쓰이는지 알아야 함 
cf) https://public.oed.com/how-to-use-the-oed/abbreviations/

# 6. 한국어에서의 토큰화의 어려움

- 한국어의 띄어쓰기 단위는 어절이고, 어절 토큰화와 단어 토큰화는 다름
- 한국어 NLP에서 조사는 분리해줘야 함
- 한국어 토큰화는 형태소 토큰화를 수행해야 함
- 한국어는 수많은 코퍼스에서 띄어쓰기가 무시되는 경우가 많음

# 7. 품사 태깅(Part-of-speech tagging)

- 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓는 작업
- 품사에 따라 단어의 의미가 달라지기 때문

# 8. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

# 영어

NLTK

- Penn Treebank POS Tags (NLTK에서 사용하는 품사를 명명하고 태깅하는 기준)


- PRP 인칭 대명사
- VBP 동사
- RB 부사
- VBG 현재부사
- IN 전치사
- NNP 고유 명사
- NNS 복수형 명사
- CC 접속사
- DT 관사

In [11]:
#단어 토큰화
import nltk
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [12]:
#품사 태깅
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

# 한국어

KoNLPy

형태소 분석기
- Okt(Open Korea Text): Twitter라는 이름을 갖고 있었음
- 메캅(Mecab)
- 코모란(Komoran)
- 한나눔(Hannanum)
- 꼬꼬마(Kkma)

- Okt를 이용한 토큰화

1. morphs: 형태소 추출
2. pos: 품사 태깅(Part-of-speech tagging)
3. nouns: 명사 추출

In [2]:
from konlpy.tag import Okt
okt=Okt()
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Program Files\\Java\\jre7\\bin\\client\\jvm.dll'

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']  

In [15]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

NameError: name 'okt' is not defined

[('열심히','Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]  

In [None]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']  

- 꼬꼬마를 이용한 토큰화

In [None]:
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']  

In [None]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히','MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]  


In [None]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']  

한국어 형태소 분석기 성능 비교 
https://iostream.tistory.com/144

끝 190928.ver