In [None]:
import nltk
nltk.download('punkt')

# 토큰화 (Tokenization)

<h3>문장 토큰화 (sentence tokenize)</h3>
<h5>NLTK의 `sent_tokenize`는 사전학습된 모델을 사용해 토큰화 한다. 한글에 대한 사전학습 모델은 없지만 각 문장의 끝에 있는 마침표 등으로 분리되도록 학습이 되어있어 동작이 된다.</h5>

In [None]:
para_eng = "Let's study text mining. How about a cup of coffee while studying?"
para_kor = "텍스트 마이닝 공부를 해봅시다. 공부하면서 커피 한 잔 어떠세요?"

In [None]:
# 주어진 text를 sentence 단위로 tokenize함. 주로 . ! ? 등을 이용

from nltk.tokenize import sent_tokenize
print(sent_tokenize(para_eng))

["Let's study text mining.", 'How about a cup of coffee while studying?']


In [None]:
# 한국어에 대해서도 sentence tokenizer는 잘 동작함

print(sent_tokenize(para_kor))

['텍스트 마이닝 공부를 해봅시다.', '공부하면서 커피 한 잔 어떠세요?']


<h3>단어 토큰화 (word tokenize)</h3>

In [None]:
# 주어진 text를 word 단위로 tokenize

from nltk.tokenize import word_tokenize
print(word_tokenize(para_eng))

['Let', "'s", 'study', 'text', 'mining', '.', 'How', 'about', 'a', 'cup', 'of', 'coffee', 'while', 'studying', '?']


In [None]:
# word_tokenize와 달리 아포스트로피(apostrophe)도 토큰화

from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize(para_eng))

['Let', "'", 's', 'study', 'text', 'mining', '.', 'How', 'about', 'a', 'cup', 'of', 'coffee', 'while', 'studying', '?']


In [None]:
# 형태소로 분리 되는 것이 아닌 공백으로만 분리가 되어 부족

print(word_tokenize(para_kor))

['텍스트', '마이닝', '공부를', '해봅시다', '.', '공부하면서', '커피', '한', '잔', '어떠세요', '?']


<h3>정규표현식을 이용한 토큰화</h3>
<h5>파이썬 라이브러리 re 사용</h5>

In [None]:
import re

In [None]:
# a, b, c 중 해당하는 모든 문자 가져오기

re.findall("[abc]", "How are you, boy?")

['a', 'b']

In [None]:
# 숫자에 해당하는 문자 가져오기 ([0-9]로 줄일 수 있음)

re.findall("[0123456789]", "3a7b5c9d")

['3', '7', '5', '9']

In [None]:
# 알파벳 + 숫자 + _ ([a-zA-Z0-9_]와 같음)

re.findall("[\w]", "3a 7b_ '.^&5c9d")

['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']

In [None]:
# +는 한번 이상의 반복된 부분을 가져옴

re.findall("[_]+", "a_b, c__d, e___f")

['_', '__', '___']

In [None]:
# \w는 공백, 구두점이 포함되어 있지 않아 다음과 같이 단어 구분이 가능

re.findall("[\w]+", "How are you, boy?")

['How', 'are', 'you', 'boy']

In [None]:
# {}는 반복 횟수를 지정하여 검색함 ({2,4}는 2~4회 반복된 문자열 검색)

re.findall("[o]{2,4}", "oh, hoow are yoooou, boooooooy?")

['oo', 'oooo', 'oooo', 'ooo']

NLTK에서 제공하는 `RegexpTokenizer`

In [None]:
from nltk.tokenize import RegexpTokenizer

In [None]:
# \w에 아포스트로피(apostrophe)가 없어 단어가 분리됨

tokenizer = RegexpTokenizer("[\w]+")    # regular expression(정규식)을 이용한 tokenizer
print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', 'can', 't', 'go', 'there']


In [None]:
# \w'로 아포스트로피(apostrophe)를 분리시키지 않을 수 있음

tokenizer = RegexpTokenizer("[\w']+")
print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', "can't", 'go', 'there']


<h3>노이즈와 불용어 제거 (noise & stopword removal)</h3>

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
from nltk.corpus import stopwords

In [None]:
english_stops = set(stopwords.words('english'))     # 중복이 되지 않도록 set으로 변환

text = "Sorry, I couldn't go to movie yesterday."

tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text.lower())  # 대문자 -> 소문자

result = [word for word in tokens if word not in english_stops]     # stopwords를 제외한 단어들만으로 list를 생성
print(result)

['sorry', 'go', 'movie', 'yesterday']


In [None]:
print(english_stops)    # nltk가 제공하는 영어 stopword를 확인

{'you', 'a', 'to', 'he', 'from', 'themselves', 'doesn', "hadn't", 'only', 'now', 'as', 'here', 'an', 'will', "don't", 'ourselves', 'her', "weren't", 'this', 'when', 'for', 'below', "needn't", 'once', 'until', 'after', 'and', 'my', 'between', 't', 'hasn', 'his', 'whom', 'i', 'me', "you're", 'while', 'under', 'out', "isn't", "won't", 'theirs', 've', 'just', 'didn', 'is', 'wouldn', 'each', 'into', 'the', 'are', 'shouldn', 'or', 'at', 'couldn', 'most', 'not', 'aren', 'on', 'such', 'can', 'our', 'them', 'before', 'ours', 'll', "it's", 'their', "aren't", 'which', "that'll", 'same', 'very', 'was', 'but', 'any', 'hers', 'if', 'have', 'that', 'needn', "mightn't", 'so', 'its', "shan't", 'been', 'in', 'those', 'should', 'other', 'hadn', 'of', 'over', "she's", 'doing', 'being', 'haven', 'by', 'where', 'does', 'again', 'too', 'she', "shouldn't", 'it', 'him', 'wasn', 'there', 'further', "wouldn't", 'few', 'who', 'they', 'we', 'yourselves', 'itself', 'ma', 'mightn', 'because', 'with', 'd', 'weren', '

In [None]:
# 자신만의 stopwords를 만들고 이용가능
# 한글처리에서도 사용할 수 있음

my_stopword = ['i', 'go', 'to']     # stopword를 리스트로 정의
result = [word for word in tokens if word not in my_stopword] 
print(result)

['sorry', "couldn't", 'movie', 'yesterday']
