## NLTK에서 아포스트로피를 처리하는 방법

In [1]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


word_tokenize는 Don't를 'Do'와 "n't"로 구분, Jone's는 'Jone'과 "'s"로 구분.

In [2]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 가짐.    
앞서 확인했던 word_tokenize와는 달리 Don't를 'Don'과 "'", 't'로 구분.    
Jone's는 "Jone"과 "'", 's'로 구분

In [3]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


Keras에서도 토큰화 도구로 text_to_word_sequence를 지원.   
기본적으로 모든 알파벳을 소문자로 바꾸면서 온점이나 컴마, 느낌표 등의 구두점을 제거.    
don't나 jone's같은 경우 아포스트로피는 보존.

   
## 표준 토큰화 예제

In [4]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 문장 토큰화

In [5]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


text에 저장된 여러 개의 문장들로부터 문장을 구분하는 코드.    

다음으로 문장 중간에 온점이 여러 번 등장하는 경우

In [6]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


NLTK는 단순히 온점을 구분자로 문장을 구분하지 않기 때문에 Ph.D.를 문장 내의 단어로 인식해 성공적으로 인식함.   

물론, 한국어에 대한 문장 토큰화 도구가 존재함. 한국어에 대한 문장 토큰화 도구가 여럿있지만, 지금은 박상길님이 개발한 KSS(Korean Sentence Splitter)

In [7]:
pip install kss

Collecting kss
  Downloading kss-1.3.1.tar.gz (6.1 kB)
Building wheels for collected packages: kss
  Building wheel for kss (setup.py): started
  Building wheel for kss (setup.py): finished with status 'done'
  Created wheel for kss: filename=kss-1.3.1-cp38-cp38-win_amd64.whl size=35589 sha256=b6593967e31b155ada740e9312b4cd4277573a34e48b5bd28e45e0155d86f17e
  Stored in directory: c:\users\다영\appdata\local\pip\cache\wheels\84\9d\86\2b2fef9e791536a718b27b4e3d9f252df07afaec3d53cb9ce7
Successfully built kss
Installing collected packages: kss
Successfully installed kss-1.3.1
Note: you may need to restart the kernel to use updated packages.


In [8]:
import kss
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


## NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

In [11]:
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


문장에 대해 토큰화

In [10]:
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

품사 태깅

Penn Treebank POG Tags에서
- PRP: 인칭 대명사
- VBP: 동사
- RB: 부사
- VBG: 현재 부사
- IN: 전치사
- NNP: 고유 명사
- NNS: 복수형 명사
- CC: 접속사
- DT: 관사

한국어 자연어 처리를 위한 KoNLPy(코엔엘파이)라는 파이썬 패키지.   
KoNLPy를 통해 사용할 수 있는 형태소 분석기
- Okt(Open Korea Text)
- 메캅(Mecab)
- 코모란(Komoran)
- 한나눔(Hannanum)
- 꼬꼬마(Kkma)

한국어 NLP에서 형태소 분석기를 사용하는 것은 단어 토큰화가 아니라 형태소(morpheme)단위로 형태소 토큰화(morpheme tokenization)을 수행하게 됨.   
Okt와 꼬꼬마를 통해 토큰화 수행 연슴(Okt는 기존에 Twitter라는 이름을 갖고 있었음. 0.5.0부터 이름 변경됨)

morphs: 형태소 추출

In [15]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


pos: 품사 태깅(Part-of-speech tagging)

In [17]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


nouns: 명사 추출

In [19]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


위 예제에서 형태소 추출과 품사 태깅 메소드의 결과를 보면 조사를 기본적으로 분리하고 있음을 알 수 있다.   
따라서 한국어 NLP에서 전처리에 형태소 분석기를 사용하는 것은 유용함.    

다음으로 꼬꼬마 형태소 분석기를 사용하는 예제

In [20]:
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [21]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [22]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


Okt와 Kkma가 다르기 때문에 필요 용도에 따라 분리하는 것이 좋음.
- ex) 속도를 중요시 한다면 메캅을 사용