In [1]:
import nltk
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package webtext to /root/nltk_data...
[nltk_data]   Unzipping corpora/webtext.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [2]:
# 문장 단위 토큰화.
para = "Hello everyone. It's good to see you. Let's start our text mining class!"

from nltk.tokenize import sent_tokenize # 문장 단위로 토큰화 ! . ? 등을 이용

print(sent_tokenize(para))


['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


In [3]:
# 만약 프랑스어 같은 걸로 하고 싶다면 punkt 사용.

"""
import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/french.pickle')
print(tokenizer.tokenize(paragraph_french))
"""
# 한국어도 잘 작동할 것임. . ! ? 등을 이용했기에.

para_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트 마이닝 클래스를 시작해봅시다!"

print(sent_tokenize(para_kor))
# 별 다른 문제 없이 작동함을 볼 수 있음.

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 텍스트 마이닝 클래스를 시작해봅시다!']


In [4]:
# 단어 토큰화.

from nltk.tokenize import word_tokenize

# 주어진 텍스트를 word 단위로 토크나이즈 함.
print(word_tokenize(para))

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


In [5]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(para)) # 토크나이저가 서로 다른 알고리즘을 사용하기에 이는, 자신의 필요성에 맞게 선택할 필요가 있음.

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'text', 'mining', 'class', '!']


In [6]:
print(word_tokenize(para_kor)) # 한국어에서는 의미 단위로 처리되지 않음. 이는 영어는 공백 단위로 분리되지만, 한국어는 아니기 때문. 새로운 단어 분할이 필요함.

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트', '마이닝', '클래스를', '시작해봅시다', '!']


In [7]:
# 정규 표현식을 이용한 토큰화.
import re
re.findall("[abc]", "How are you, boy?") # 문자를 찾고 싶다면.

['a', 'b']

In [8]:
re.findall("[0123456789]", "3a7b5c9d") # 숫자를 찾고 싶다면.

['3', '7', '5', '9']

In [9]:
re.findall("[\w]", "3a 7b_ '.^&5c9d") # [a-zA-z0-9_]는 [\w]로 표현 가능.

['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']

In [11]:
re.findall("[a_]+", "aa_b, ac__d, e__f") # +는 한번 이상 반복한 거

['aa_', 'a', '__', '__']

In [12]:
re.findall("[\w]+", "How are you, boy?") # 공백이나 쉼표가 포함되지 않음. 공백이나 쉼표 등으로 구분되는 단어들을 찾아낼 수 있음.

['How', 'are', 'you', 'boy']

In [14]:
re.findall("[a_]{2,4}", "aa_b, a_c__d, e__f") # {2,4}는 +와 달리, 반복 횟수를 지정할 수 있음.

['aa_', 'a_', '__', '__']

In [15]:
re.findall("[o]{2,4}", "oh, hoow are yoooou, boooooooy?")

['oo', 'oooo', 'oooo', 'ooo']

In [18]:
from nltk.tokenize import RegexpTokenizer

# regular expression(정규식)을 이용한 tokenizer
# 단어 단위로 tokenize \w:문자나 숫자를 의미. 즉 문자나 숫자 혹은 '가 반복되는 것을 찾아냄.

tokenizer = RegexpTokenizer("[\w']+")
print(tokenizer.tokenize("Sorry, I can't go there.")) # 문자, 숫자, _외 '까지 포함. 그 외는 단어를 구분하는 단어 경계로 사용.

['Sorry', 'I', "can't", 'go', 'there']


In [19]:
tokenizer = RegexpTokenizer("[\w]+") # '를 뺀다면?
print(tokenizer.tokenize("Sorry, I can't go there.")) # can't는 can과 t로 나뉘어진다.

['Sorry', 'I', 'can', 't', 'go', 'there']


In [20]:
# 소문자로 바꾸고, '를 포함해 세 글자 이상의 단어들.
text1 = "Sorry, I can't go there."
tokenizer = RegexpTokenizer("[\w']{3,}")
print(tokenizer.tokenize(text1.lower()))

['sorry', "can't", 'there']


In [22]:
# 불용어 사전을 이용해 불용어 제거. 불용어란 실제로 사용하지만, 쓸모 없는 단어,
from nltk.corpus import stopwords
english_stops = set(stopwords.words('english'))

text1 = "Sorry, I couldn't go to movie yesterday."
tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text1.lower())

result = [word for word in tokens if word not in english_stops]
print(result)


['sorry', 'go', 'movie', 'yesterday']


In [23]:
print(english_stops) # 불용어에 포함된 것.

{"that'll", 'only', 'o', 'yourself', 'from', 'while', 'hasn', 'more', 'after', 'those', 'her', 'now', 'it', "you've", "weren't", 'most', 'but', 'himself', 'my', "shouldn't", 'own', 'if', 'into', 'll', 'out', 'over', 'a', 'of', 'did', 'that', 'their', 'other', 'same', 'why', 't', 'again', 'd', "doesn't", 'under', 'y', 'below', 'didn', 'she', "wasn't", 'our', 'ourselves', "needn't", 'before', 'off', 'yourselves', 'between', 'up', "don't", 're', 'won', "you'd", 'these', 'has', 'couldn', 'needn', 'weren', 'so', 'wasn', 'about', 'shan', "mightn't", 'haven', 'nor', 'ours', 'doing', 'we', 'once', "won't", "you'll", 'mightn', 'be', 'on', 'whom', 'further', 'when', 'yours', "mustn't", 'itself', "hasn't", 'no', 'just', 'few', "haven't", 'how', "it's", 'until', 'above', 'by', 'theirs', 'very', 'who', 'some', 'because', 'can', 'being', "isn't", 'were', 'during', 'such', 'too', 'not', 'have', 'doesn', 'and', "shan't", 'at', 'as', 'will', 'or', 'through', 'any', "should've", 'are', "she's", 'which',

In [24]:
# 자신만의 불용어 사전을 만들기도 가능.
my_stopword = ['i', 'go', 'to']
result = [word for word in tokens if word not in my_stopword]
print(result)

['sorry', "couldn't", 'movie', 'yesterday']
