In [None]:
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt')
# word_tokenize는 don't를 do, n't로 구별, jone's는 jone, 's로 구별
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
from nltk.tokenize import WordPunctTokenizer

# WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기때문에,  Don't를 Don과 '와 t로 분리하였으며, Jone's를 Jone과 '와 s로 분리
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거한다. 하지만 don't나 jone's의 경우 아포스트로피는 그대로
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 표준 토큰화 방법 중 하나인 Penn Treebank Tokenization
**규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.**    
**규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.**

In [1]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
# home-based는 하나의 단어로, doesn't는 does, n't로 분리하였음을 알 수 있다!
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 문장 토큰화(Sentence Tokenization)
단순히 마침표(.)로 문장을 구분짓는다고 가정하면, 문장의 끝이 나오기 전에 이미 마침표가 여러번 등장하는 경우에는 예상치 못한 결과가 나오게 된다.

In [3]:
from nltk.tokenize import sent_tokenize
import nltk

nltk.download('punkt')

text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [4]:
# NLTK는 단순히 마침표를 구분자로 하지 않기 때문에, Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식하였음을 볼 수가 있다.
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [None]:
pip install kss

In [6]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

[Korean Sentence Splitter]: Initializing Kss...


['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요.', '이제 해보면 알걸요?']


## 이진 분류기(Binary Classifier)

**1. 마침표(.)가 단어의 일부분일 경우. 즉, 마침표가 약어(abbreivation)로 쓰이는 경우**  
**2. 마침표(.)가 정말로 문장의 구분자(boundary)일 경우**

> 마침표(.)가 어떤 클래스에 속하는지 결정을 위해서는 어떤 마침표가 주로 약어(abbreviation)으로 쓰이는 지 알아야하기 때문에, 이진 분류기 구현에서 약어 사전(abbreviation dictionary)가 유용

In [9]:
# NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원하고 있다. 
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
import nltk

nltk.download('averaged_perceptron_tagger')

text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

# PRB: 인칭 대명사 
# VBP: 동사
# RB: 부사
# VBG: 현재부사
# IN: 전치사
# NNP: 고유 명사
# NNS: 복수형 명사
# CC: 접속사
# DT: 관사
x=word_tokenize(text)
pos_tag(x)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

In [None]:
# 한국어는 KoNLPy(코엔엘파이) 패키지를 사용할 수 있음. 
## 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있다.
%%bash
apt-get update
apt-get install g++ openjdk-8-jdk python-dev python3-dev
pip3 install JPype1
pip3 install konlpy

In [26]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) # 형태소 추출
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  # 품사 태깅(Part-of-speech tagging)
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  # 명사 추출

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
['코딩', '당신', '연휴', '여행']
