In [10]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence
import nltk
# punkt 다운로드
nltk.download('punkt')

# word_tokenize를 이용한 단어 토큰화
print('단어 토큰화1 :', word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))


단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Ahn_YeongHoo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [12]:
# wordPunctTokenizer를 이용한 단어 토큰화
print("단어 토큰화2 : ", WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 :  ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [14]:
# WordPunctTokenizer는 구두점을 별도로 분류하는 특징이 있다.
# 따라서 `와 같은 아포스트로피가 들어간 코퍼스(말뭉치)도 처리
# 케라스도 토큰화 도구로서 text_to_word_sequence를 지원

print('단어 토큰화3: ', text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3:  ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [1]:
# 케라스의 text_to_word_sequence는 모든 알파벳을 소문자로 바꾸고
# 마침표나, 컴마, 느낌표 등의 구두점을 제거한다.
# 아포스트로피(`)는 보존

In [2]:
# 표준 토큰화 Penn Treebank Tokenization
# 하이푼으로 구성된 단어는 하나로 유지.
# doesn`t와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(f"트리뱅크 워드토크나이저:{tokenizer.tokenize(text)}")

트리뱅크 워드토크나이저:['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [3]:
# 영어 문장의 토큰화를 수행하는 sent_tokenize
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(f"문장 토큰화1: {sent_tokenize(text)}")

문장 토큰화1: ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [4]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print(f"문장 토큰화2: {sent_tokenize(text)}")

문장 토큰화2: ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [5]:
# 한국어 문장은 KSS(Korean Sentence Splitter)를 사용
import kss

text = "딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?"
print(f"한국어 문장 토큰화: {kss.split_sentences(text)} ")


[Korean Sentence Splitter]: Initializing Pynori...


한국어 문장 토큰화: ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?'] 


In [6]:
# 형태소란 가장 작은 말의 단위이다.
# 자립 형태소는 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는
# 형태소. 그 자체로 단어가 된다.(명사,대명사,수사,관형사,부사,감탄사)
# 의존 형태소는 다른 형태소와 결합하여 사용되는 형태로
# 접사, 어미, 조사, 어간을 말한다. 

In [10]:
# 품사 태깅(part-of-speech tagging)
# 해당 단어가 어떤 품사로 쓰였는지를 구분하는 행위로
# NLTK 및 KoNLPy를 사용한다.
# NLTK에서의 품사 태깅은 Penn Treebank POS Tags라는 기준 사용
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
import nltk
nltk.download('averaged_perceptron_tagger')
text = "I am actively looking for PH.D. students. and you are a PH.D. student"
tokenized_sentence = word_tokenize(text)
print('단어 토큰화: ', tokenized_sentence)
print('품사 태깅: ', pos_tag(tokenized_sentence))

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Ahn_YeongHoo\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


단어 토큰화:  ['I', 'am', 'actively', 'looking', 'for', 'PH.D.', 'students', '.', 'and', 'you', 'are', 'a', 'PH.D.', 'student']
품사 태깅:  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('PH.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('PH.D.', 'NNP'), ('student', 'NN')]


In [11]:
# PRP- 인칭대명사, VEP - 동사, RB - 부사, VBG - 현재부사
# IN- 전치사, NNP - 고유명사, NNS - 복수형 명사, CC-접속사
# DT- 관사
from konlpy.tag import Okt
from konlpy.tag import Kkma
okt = Okt()
kkma = Kkma()
print('OKT 형태소 분석: ', okt.morphs('열심힌 코딩한 당신, 연휴에는 여행을 가봐요.'))
print('OKT 품사 태깅: ', okt.pos('열심히 코딩한 당신, 연휴에는 여행을 가봐요.'))
print('OKT 명사 추출: ', okt.nouns('열심히 코딩한 당신, 연휴에는 여행을 가봐요.'))


OKT 형태소 분석:  ['열심', '힌', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요', '.']
OKT 품사 태깅:  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb'), ('.', 'Punctuation')]
OKT 명사 추출:  ['코딩', '당신', '연휴', '여행']


In [12]:
print('꼬꼬마 형태소 분석: ', kkma.morphs('열심히 코딩한 당신, 연휴에는 여행을 가봐요.'))
print('꼬꼬마 품사 태깅: ', kkma.pos('열심히 코딩한 당신, 연휴에는 여행을 가봐요.'))
print('꼬꼬마 명사 추출: ', kkma.nouns('열심히 코딩한 당신, 연휴에는 여행을 가봐요.'))

꼬꼬마 형태소 분석:  ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요', '.']
꼬꼬마 품사 태깅:  [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN'), ('.', 'SF')]
꼬꼬마 명사 추출:  ['코딩', '당신', '연휴', '여행']
