# 1. Tokenization - 영어

## 1-1 WordTokenizer vs WordPunctTokenizer
- WordTokenizer
    - word_tokenize는 Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Jone과 's로 분리
- WordPunctTokenizer
    - WordPunctTokenizer는 구두점을 별도로 분류
    - Don't를 Don과 '와 t로 분리하였으며, 이와 마찬가지로 Jone's를 Jone과 '와 s로 분리

In [13]:
import nltk

# WordTokenizer
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

# WordPunctTokenizer
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']
['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


## 1-2 표준 토큰화 예제
- 토큰화 방법 중 하나인 Penn Treebank Tokenization의 규칙
    - 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
    - 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

## 1-3 문장 토큰화(Sentence Tokenization)
- 갖고있는 코퍼스 내에서 문장 단위로 구분하는 작업으로 때로는 문장 분류(sentence segmentation)라고도 부름
- NLTK에서는 영어 문장의 토큰화를 수행하는 sent_tokenize
    - 중간에 . 가 껴있어도 잘됨

In [14]:
# 중간에 . 가 껴있어도 잘됨
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


## 1-4 품사 태깅(part-of-speech tagging) - 영어
- 단어는 표기는 같지만, 품사에 따라서 단어의 의미가 달라짐
- 영어 단어 'fly'는 동사로는 '날다'라는 의미를 갖지만, 명사로는 '파리'라는 의미를 가짐
- NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원 / NLTK는 Penn Treebank POS Tags 기준을 사용

- Penn Treebank POG Tags에서 PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사를 의미

In [16]:
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

<hr>

# 2. Tokenization - 한국어

## 2-1 한국어 토큰화의 어려움
- 한국어의 경우 어절 토큰화와 단어 토큰화가 같지 않기 때문에 한국어 NLP에서 지양되고 있음

### 2-1-1 한국어는 교착어(조사, 어미 등을 붙여서 말을 만드는 언어)
- 한국어 토큰화에서는 형태소(morpheme)란 개념을 반드시 이해
    - 자립 형태소
        - 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 
        - 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
    - 의존 형태소
        - 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간을 말함.
    - 예제
        - 문장 : 에디가 딥러닝책을 읽었다
        - 자립 형태소 : 에디, 딥러닝책
        - 의존 형태소 : -가, -을, 읽-, -었, -다
        
### 2-1-2 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않음
- 띄어쓰기가 어렵고, 또 잘 지켜지지 않는 경향이 있음

## 2-2 한국어 문장 토큰화
- 한국어에 대한 문장 토큰화 도구 -> 박상길님이 개발한 KSS(Korean Sentence Splitter)

In [15]:
# 한국어 문장 토큰화
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요.', '이제 해보면 알걸요?']


## 2-3 품사 태깅(part-of-speech tagging) - 한국어
- 한글 못'은 명사로서는 목재 따위를 고정하는 물건을 의미, 부사로서는 '못'은 '먹는다', '달린다'와 부정 동작 동사에 쓰임
- 자연어 처리를 위해서는 KoNLPy라는 파이썬 패키지를 사용
- KoNLPy를 통해서 사용할 수 있는 형태소 분석기
    - Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 존재
- 한국어 NLP에서 형태소 분석기를 사용한다는 것은 단어 토큰화가 아니라 정확히는 형태소(morpheme) 단위로 형태소 토큰화(morpheme tokenization)를 수행을 뜻함

- 각 형태소 분석기는 성능과 결과가 다르게 나오며, 형태소 분석기의 선택은 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단 후 사용
- 속도를 중시한다면 메캅을 사용

- 한국어 형태소 분석기 성능 비교
    - https://iostream.tistory.com/144
http://www.engear.net/wp/%ED%95%9C%EA%B8%80-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0-%EB%B9%84%EA%B5%90/

- 여러 형태소 분석기로 토큰화를 시도
    - 1) morphs : 형태소 추출
    - 2) pos : 품사 태깅(Part-of-speech tagging)
    - 3) nouns : 명사 추출
    

In [11]:
# Okt 형태소 분석기
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
['코딩', '당신', '연휴', '여행']


In [12]:
# 꼬꼬마 형태소 분석기
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
['코딩', '당신', '연휴', '여행']
