In [1]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [None]:
import nltk

nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


In [None]:
pip install konlpy

## 단어 토큰화(Word Tokenization)

#### 영어권 언어에서 아포스트로피를(')가 들어가있는 단어는 어떻게 토큰으로 분류해야할까
Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\AJW\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [3]:
# word_tokenize

from nltk.tokenize import word_tokenize
print((word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.")))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [5]:
# WordPunctTokenizer

from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [14]:
# 케라스, text_to_word_sequence

from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

# 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점 제거
# 하지만 don't나 jone's와 같은 경우 아포스트로피는 보존

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 토큰화에서 고려해야할 사항
**토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업이라고 간주할 수 없다**



1) 구두점이나 특수 문자를 단순 제외해서는 안 된다.

2) 줄임말과 단어 내에 띄어쓰기가 있는 경우.

3) 표준 토큰화 예제 - Penn Treebank Tokenization
* 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
* 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

In [16]:
# Penn Treebank Tokenization

from nltk.tokenize import TreebankWordTokenizer

tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 문장 토큰화(Sentence Tokenization)

In [17]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [18]:
# 마침표가 여러번 등장하는 경우

text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

# NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에, 
# Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식하는 것을 볼 수 있다.

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [19]:
# 한국어에 대한 문장 토근화 도구 : KSS(Korean Sentence Splitter)

# pip install kss

import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


## 이진 분류기(Binary Classifier)
문장 토큰화에서의 예외 사항을 발생시키는 마침표의 처리를 위해서 입력에 따라 두 개의 클래스로 분류하는 이진 분류기(binary classifier)를 사용하기도 한다.


물론, 여기서 말하는 두 개의 클래스는

1. 마침표(.)가 단어의 일부분일 경우. 즉, 마침표가 약어(abbreivation)로 쓰이는 경우

2. 마침표(.)가 정말로 문장의 구분자(boundary)일 경우

*이러한 문장 토큰화를 수행하는 오픈 소스: NLTK, OpenNLP, 스탠포드 CoreNLP, splitta, LingPipe*

## 한국어에서의 토큰화의 어려움
* 한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 하기에 부족
* 한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데 어절 토큰화와 단어 토큰화가 같지 않기 때문에 어절 토큰화는 한국어 NLP에서 지양되고 있다.

1) 한국어는 교착어이다.
교착어: 조사, 어미 등을 붙여서 말을 만드는 언어
형태소(morpheme): 뜻을 가진 가장 작은 말의 단위
* 자립 형태소 - 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
* 의존 형태소 - 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.

2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

## 품사 태깅(Part-of-speech tagging)
* 단어는 표기는 같지만, 품사에 따라서 단어의 의미가 달라지기도 한다.
* 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 보는 것이 중요하다.

In [20]:
# NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원
# NLTK에서는 Penn Treebank POS Tags라는 기준을 사용

from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [22]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\AJW\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [23]:
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

# PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, 
# IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

In [None]:
# 한국어 자연어 처리 
# - 형태소 분석기 : Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)

