# text preprocessing
## tokenization

In [1]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [2]:
print("단어 토큰화 : ", word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화 :  ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
print("단어 토큰화 : ", WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화 :  ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [4]:
print("단어 토큰화 : ", text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화 :  ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 위 세가지 토크나이저들간의 차이점
- word_tokenize : 'Don't'의 경우 'Do', 'n't'로 분리됨. Jone's는 Jone과 's로 구분됨. 어간을 최대한 보존하는 방향으로 토큰화 수행
- WordPunctTokenizer : 위와 비슷하지만, '를 따로 토큰화함.
- text_to_word_sequence : 모두 소문자로 바꿈. 하지만 Don't의 경우 don't로 반환. '는 최대한 보존하는 방향으로 토큰화함

## Penn Treebank Tokenization의 규칙
- 하이푼으로 구성된 단어는 하나로 유지
- '로 접어가 함께하는 단어는 분리

In [5]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print("트리뱅크워드토크나이저 : ", tokenizer.tokenize(text))

트리뱅크워드토크나이저 :  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## sentence tokenization

In [6]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
text2 = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print("문장 토큰화 : ", sent_tokenize(text))
print("문장 토큰화2 : ", sent_tokenize(text2))

문장 토큰화 :  ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']
문장 토큰화2 :  ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- nltk의 sent_tokenize는 단순히 마침표를 기준으로만 토큰화를 수행하지 않음
  - Ph.D.를 단어로 인식하여 토큰화 수행

In [7]:
%pip install kss

Note: you may need to restart the kernel to use updated packages.


In [8]:
import kss
text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print("한국어 문장 토큰화 : ", kss.split_sentences(text))

[Kss]: Oh! You have mecab in your environment. Kss will take this as a backend! :D



한국어 문장 토큰화 :  ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


In [9]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)
print("단어 토큰화 : ", tokenized_sentence)
print("품사 태깅 : ", pos_tag(tokenized_sentence))

단어 토큰화 :  ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 :  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


- PRP : 인칭 대명사, VBP : 동사, RB : 부사, VBG : 현재부사, IN : 전치사, NNP : 고유명사, NNS : 복수형 명사, CC : 접속사, DT : 관사

In [10]:
from konlpy.tag import Okt
from konlpy.tag import Kkma
okt = Okt()
kkma = Kkma()
print("Okt 형태소 분석 : ", okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("Okt 품사 태깅 : ", okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("Okt 명사 추출 : ", okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("Kkma 형태소 분석 : ", kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("Kkma 품사 태깅 : ", kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("Kkma 명사 추출 : ", kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

Okt 형태소 분석 :  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
Okt 품사 태깅 :  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
Okt 명사 추출 :  ['코딩', '당신', '연휴', '여행']
Kkma 형태소 분석 :  ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
Kkma 품사 태깅 :  [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
Kkma 명사 추출 :  ['코딩', '당신', '연휴', '여행']
