위키독스 딥 러닝을 이용한 자연어 처리 입문의 토큰화 튜토리얼입니다.  

링크 : https://wikidocs.net/21698

# 0. Setting

##### 0) 패키지 설치

In [1]:
pip install konlpy

Note: you may need to restart the kernel to use updated packages.


In [2]:
pip install kss

Collecting kss
  Downloading kss-4.5.1.tar.gz (77 kB)
     ---------------------------------------- 77.7/77.7 kB 4.2 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting emoji==1.2.0
  Downloading emoji-1.2.0-py3-none-any.whl (131 kB)
     -------------------------------------- 131.3/131.3 kB 3.9 MB/s eta 0:00:00
Collecting pecab
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
     --------------------------------------- 26.4/26.4 MB 10.9 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting pyarrow
  Downloading pyarrow-12.0.0-cp39-cp39-win_amd64.whl (21.5 MB)
     --------------------------------------- 21.5/21.5 MB 10.9 MB/s eta 0:00:00
Building wheels for collected packages: kss, pecab
  Building wheel for kss (setup.py): started
  Building wheel for kss (setup.py): finished with status 'done'
  Created wheel for kss: filename=kss-4.5.1

##### 0) 라이브러리 불러오기

In [3]:
# (1) 기본 라이브러리
import nltk # !!!

nltk.download('punkt') # !!!
nltk.download('averaged_perceptron_tagger') # !!!

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Bang\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Bang\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

# 1. Tokenizer 모델 선정

##### 1) 라이브러리 불러오기

In [None]:
# (0) 기본 라이브러리
from nltk.tokenize import word_tokenize # !!!
from nltk.tokenize import WordPunctTokenizer # !!!

# (1) 딥러닝 라이브러리
from tensorflow.keras.preprocessing.text import text_to_word_sequence

##### 2) Tokenizer 모델 비교

In [None]:
print('단어 토큰화1 :', word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
print('단어 토큰화2 :', WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
print('단어 토큰화3 :', text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


# 2. 단어 토큰화(Word Tokenization)

토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word tokenization)라고 합니다. 다만, 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 합니다.

In [None]:
# 0) 라이브러리 불러오기
from nltk.tokenize import TreebankWordTokenizer # !!!

# 1) 데이터 불러오기
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

# 2) Tokenizer 모델 선정
tokenizer = TreebankWordTokenizer()

# 3) 결과 출력
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text)) # !!!

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


# 3. 문장 토큰화(Sentence Tokenization)

##### 1) 영어 문장 토큰화

In [None]:
# (0) 라이브러리 불러오기
from nltk.tokenize import sent_tokenize # !!!

# (1) 데이터 불러오기
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."

# (2) 결과 출력
print('문장 토큰화1 :', sent_tokenize(text)) # !!!

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [None]:
# (1) 데이터 불러오기
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."

# (2) 결과 출력
print('문장 토큰화2 :', sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


##### 2) 한국어 문장 토큰화

In [None]:
# (0) 라이브러리 불러오기
import kss # !!!

# (1) 데이터 불러오기
text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'

# (2) 결과 출력
print('한국어 문장 토큰화 :', kss.split_sentences(text)) # !!!

한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


# 4. 영어, 한국어 Tokenization by nltk & konlpy

##### 1) NTLK

(0) 라이브러리 불러오기

In [None]:
from nltk.tokenize import word_tokenize # !!!
from nltk.tag import pos_tag # !!!

(1) 데이터 불러오기

In [None]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."

(2) 단어 토큰화

In [None]:
tokenized_sentence = word_tokenize(text)

(3) 결과 출력 (Tokenization / 품사 태깅)

In [None]:
print('단어 토큰화 :', tokenized_sentence)
print('품사 태깅 :', pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


##### 2) KONLPY

(0) 라이브러리 불러오기

In [4]:
from konlpy.tag import Okt # !!!
from konlpy.tag import Kkma # !!!

(1) Tokenizer 모델 선정

In [5]:
okt = Okt()
kkma = Kkma()

TypeError: startJVM() got an unexpected keyword argument 'classpath'

(2) 결과 출력 (형태소 추출 / 품사 태깅 / 명사 추출)

In [None]:
print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) # !!!
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) # !!!
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  # !!!

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [None]:
print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']
