# 딥 러닝을 이용한 자연어 처리 입문
- wikidocs : https://wikidocs.net/book/2155

## 2-01. 토큰화(Tokenization)
- 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업
- 토큰의 기준을 단어(word)로 하는 경우, **단어 토큰화(word tokenization)**라고 한다.

### nltk : word_tokenize, WordPunctTokenizer

In [2]:
!pip install nltk



In [6]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [8]:
from nltk.tokenize import word_tokenize  

print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- **word_tokenize**는 Don't를 Do와 n't로 분리했고 Jone's는 Jone과 's로 분리했다.

In [10]:
from nltk.tokenize import WordPunctTokenizer

print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- **WordPunctTokenizer**는 구두점을 별도로 분류하므로 Don't를 Don, ', t로 분리했고 Jone's는 Jone, ', s로 분리했다.

### tf.keras : text_to_word_sequence

In [11]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- tf.keras는 text_to_word_sequence를 토큰화 도구로 지원한다.
- **text_to_word_sequence**는 모든 알파벳을 소문자로 바꾸고 구두점을 제거한다.
- 어파스트로피는 보존한다.

## 표준 토큰화 예제

### Penn Treebank Tokenization
- 규칙 1. 하이픈으로 구성된 단어는 하나로 유지한다.
- 규칙 2. doesn't와 같이 어파스트로피로 '접어(clitic)'가 함께하는 단어는 분리해 준다.

In [12]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


- 규칙에 따라 home-based는 하나의 토큰으로, doesn't은 does와 n't로 분리되었다.

## 문장 토큰화(Sentence Tokenization)
- 코퍼스 내에서 문장 단위로 구분하는 작업
- **문장 분류(sentence segmentation)**라고도 한다.
- 한국어 문장 토큰화 도구로는 박상길 님이 개발한 **KSS(Korean Sentence Splitter)**가 있다.

### nltk : sent_tokenize

In [13]:
from nltk.tokenize import sent_tokenize

text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."

print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


- text의 여러 문장들로부터 문장을 구분했다.

In [14]:
from nltk.tokenize import sent_tokenize

text="I am actively looking for Ph.D. students. and you are a Ph.D student."

print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


### KSS : kss.split_sentences

In [16]:
!pip install kss

Collecting kss
[?25l  Downloading https://files.pythonhosted.org/packages/ed/ea/3030770642a58a08777dfa324a1b65a2f53f1574de8dd84424851f0c2ec7/kss-2.5.1-py3-none-any.whl (65kB)
[K     |█████                           | 10kB 16.2MB/s eta 0:00:01[K     |██████████                      | 20kB 21.6MB/s eta 0:00:01[K     |███████████████                 | 30kB 13.7MB/s eta 0:00:01[K     |███████████████████▉            | 40kB 10.7MB/s eta 0:00:01[K     |████████████████████████▉       | 51kB 8.2MB/s eta 0:00:01[K     |█████████████████████████████▉  | 61kB 9.4MB/s eta 0:00:01[K     |████████████████████████████████| 71kB 4.1MB/s 
[?25hInstalling collected packages: kss
Successfully installed kss-2.5.1


In [17]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'

print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


## 품사 태깅(POS, Part-of-speech tagging)

### nltk : pos_tag (Penn Treebank POS Tags 기준)

In [18]:
from nltk.tokenize import word_tokenize

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."

print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [20]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [21]:
from nltk.tag import pos_tag

x = word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

- PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사

## 형태소 토큰화(morpheme tokenization)
- 한국어 NLP에서 형태소 분석기를 사용한다는 것은 단어 토큰화가 아니라 정확히는 형태소(morpheme) 단위로 **형태소 토큰화(morpheme tokenization)**를 수행하게 됨을 뜻한다.
- 한국어 NLP를 위해서는 **KoNLPy** 파이썬 패키지를 통해 Okt, Mecab, Komoran, kkma 등의 형태소 분석기 사용이 가능하다.

### Okt : okt
1. morphs : 형태소 추출
2. pos : 품사 태깅(Part-of-speech tagging)
3. nouns : 명사 추출

In [24]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 62.7MB/s 
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/98/88/f817ef1af6f794e8f11313dcd1549de833f4599abcec82746ab5ed086686/JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448kB)
[K     |████████████████████████████████| 450kB 37.6MB/s 
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 9.3MB/s 
[?25hCollecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Installing collected 

In [25]:
from konlpy.tag import Okt

okt=Okt()

print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [26]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [27]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


### kkma(꼬꼬마)
- 앞서 사용한 Okt 형태소 분석기와 결과가 다르다.
- 필요 용도에 따라 형태소 분석기를 선택하면 된다.
- Mecab은 속도 면에서 유리하다.

In [28]:
from konlpy.tag import Kkma  

kkma=Kkma()  

print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [29]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [30]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']
