## Word tokenization

다양한 word tokenization

In [None]:
import nltk   # NLP를 위한 파이썬 패키지
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [None]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence  # keras 기반 토큰화

In [None]:
print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
print('단어 토큰화2 :', WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
print('단어 토큰화3: ', text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3:  ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


TreebankWordTokenizer

In [None]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text))

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### Sentence Tokenizer

NLTK Sentence Tokenizer

In [None]:
from nltk.tokenize import sent_tokenize

In [None]:
text = 'His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near.'
print('문장 토큰화1 :', sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [None]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :', sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


## Korean Tokenization

KSS(Korean Sentence Splitter)

In [None]:
!pip install konlpy



In [None]:
!pip install kss



In [None]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :', kss.split_sentences(text))

한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


형태소 분석이용 : NLTK, KoNLPy를 이용한 토큰화

In [None]:
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


True

In [None]:
from nltk.tokenize import word_tokenize  # 단어 기준으로 토큰화
from nltk.tag import pos_tag             # 형태소 태깅

In [None]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
tokenized_sentence = word_tokenize(text)

In [None]:
print('단어 토큰화 :', tokenized_sentence)
print('품사 태깅 :', pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D', 'NNP'), ('student', 'NN'), ('.', '.')]


OKT, Kkma

In [None]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

In [None]:
okt = Okt()
kkma = Kkma()

In [None]:
print('OKT 형태소 분석 :', okt.morphs("열심히 코딩한 당신, 연휴에는 휴가를 가봐요"))
print('OKT 품사 태깅: ', okt.pos("열심히 코딩한 당신, 연휴에는 휴가를 가봐요"))
print('OKT 명사 추출 :', okt.nouns("열심히 코딩한 당신, 연휴에는 휴가를 가봐요"))

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '휴가', '를', '가봐요']
OKT 품사 태깅:  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('휴가', 'Noun'), ('를', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '휴가']


In [None]:
print('꼬꼬마 형태소 분석 :', kkma.morphs("열심히 코딩한 당신, 연휴에는 휴가를 가봐요"))
print('꼬꼬마 품사 태깅 :', kkma.pos("열심히 코딩한 당신, 연휴에는 휴가를 가봐요"))
print('꼬꼬마 명사 추출 :', kkma.nouns("열심히 코딩한 당신, 연휴에는 휴가를 가봐요"))

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '휴가', '를', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('휴가', 'NNG'), ('를', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '휴가']


# Cleaning(정제) and Normalization(정규화)

### 정규화: 정규 표현식 또는 soynlp.normalizer

In [None]:
from soynlp.normalizer import *

In [None]:
# ㅋㅋㅋ 같은 의미로 파악할 수 있도록
print(repeat_normalize('와ㅋㅋㅋㅋㅋㅋㅋ', num_repeats=2))
print(repeat_normalize('와ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', num_repeats=2))
print(repeat_normalize('와ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', num_repeats=2))

와ㅋㅋ
와ㅋㅋ
와ㅋㅋ


### 맞춤법 검사기(Kor): hanspell.spell.checker
: 맞춤법 및 띄어쓰기 정정 기능 제공

In [None]:
#!pip install hanspell

In [None]:
#from hanspell import spell_checker
#sent = : '맞춤법 틀리면 외 않되?'
#spelled_sent = spell_checker.check(sent)
#hanspell_sent = spelled_sent.checked
#print(hanspell_sent)

### 불용어 Stopwords 제거

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

In [None]:
stop_words_list = stopwords.words('english')

print('불용어 개수 :', len(stop_words_list))
print('불용어 10개 출력 :', stop_words_list[:10])

불용어 개수 : 198
불용어 10개 출력 : ['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an']


In [None]:
example = "Family is not an important thing. It's eveything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example) # 단어 단위로 분리

result = []

# 단어가 불용어에 포함되지 않은 경우만 -> result에 append
for word in word_tokens:
  if word not in stop_words:
    result.append(word)

print('불용어 제거 전 :', word_tokens)
print('불용어 제거 후 :', result)

불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'eveything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'eveything', '.']


In [None]:
okt = Okt()

example = "고리를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(example) # example은 원래 문장

result = [word for word in word_tokens if not word in stop_words] # 불용어에 속하지 않는 단어들만 result에 추가

print('불용어 제거 전 : ', word_tokens)
print('불용어 제거 후 :', result)

불용어 제거 전 :  ['고리', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 : ['고리', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


### 길이가 짧은 단어 제거

In [None]:
import re

In [None]:
text = "I was wondering if anyone out there could enlighten me on this car."

In [None]:
# 길이가 1~2인 단어들을 정규 표현식을 이용해 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.
