영어에서 word_tokenize와 WordPunctTokenizer를 사용해서 '를 어떻게 처리하는지

In [5]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

## word_tokenize  
Don't -> Do + n't  
Jone's -> Jone + 's

In [10]:
import nltk             # 책에서는 아래 두 문장이 없지만 이거 안하면 에러 난다
nltk.download('punkt')
print('단어 토큰화 1 :', word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
단어 토큰화 1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


## wordPunctTokenizer
Don't -> Don + ' + t  
Jone's -> Jone + ' + s

In [8]:
print('단어 토큰화 2 :', WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화 2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


## 케라스의 text_to_word_sequence
모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거  
하지만 don't나 jone's 같은 경우 '는 보존

In [11]:
print('단어 토큰화 3 :', text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화 3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## Penn Treebank Tokenization의 규칙
1. 하이푼으로 구성된 단어는 하나로 유지한다.
2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

In [12]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print("트리뱅크 워드토크나이저 :", tokenizer.tokenize(text))

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## NLTK를 이용한 문장 토큰화

In [13]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print("문장 토큰화1 :", sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


NLTK는 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에, 문장 중간에 마침표가 있어도 성공적으로 인식한다.

In [14]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print("문장 토큰화2 :", sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


## 한국어 토큰화는 KSS(Korean Sentence Splitter) 추천

In [15]:
pip install kss

Collecting kss
  Downloading kss-3.3.1.1.tar.gz (42.4 MB)
[K     |████████████████████████████████| 42.4 MB 1.3 MB/s 
[?25hCollecting emoji
  Downloading emoji-1.6.1.tar.gz (170 kB)
[K     |████████████████████████████████| 170 kB 41.8 MB/s 
[?25hBuilding wheels for collected packages: kss, emoji
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-3.3.1.1-py3-none-any.whl size=42449239 sha256=1bb42ea99d1c43b6630808ec24bf89f483d6cd4c5a1b9b58ab12d6315316019c
  Stored in directory: /root/.cache/pip/wheels/6e/9d/1d/52871154eff5273abb86b96f4f984c1cd67c5bde64239b060a
  Building wheel for emoji (setup.py) ... [?25l[?25hdone
  Created wheel for emoji: filename=emoji-1.6.1-py3-none-any.whl size=169314 sha256=675110745d6c9afa09b1d6e8d04ba5be0b81eed73351ea191f6e4182769ed39e
  Stored in directory: /root/.cache/pip/wheels/ea/5f/d3/03d313ddb3c2a1a427bb4690f1621eea60fe6f2a30cc95940f
Successfully built kss emoji
Installing collected packages: emoji, kss

In [16]:
import kss
text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print("한국어 문장 토큰화 :", kss.split_sentences(text))

[Korean Sentence Splitter]: Initializing Pynori...


한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


## NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

In [18]:
# 아래 두 문장은 책에는 없으나 안쓰면 에러뜸
import nltk
nltk.download('averaged_perceptron_tagger')

# NLTK에서는 Penn Treebank POS Tags라는 기준을 사용하여 품사를 태깅
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print("단어 토큰화 :", tokenized_sentence)
print("품사 태깅 :", pos_tag(tokenized_sentence))

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [25]:
# 한국어 자연어 처리를 위해서는 KoNLPy(코엔엘파이)라는 파이썬 패키지를 사용
# 그 중 Okt(Open Korea Text)와 꼬꼬마(KKma) 두개의 형태소 분석기 사용
from konlpy.tag import Okt     # konlpy가 없다고 에러난다
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print("OKT 형태소 분석 :", okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("OKT 품사 태깅 :", okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("OKT 명사 추출 :", okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

ModuleNotFoundError: ignored