In [1]:
# NLTK 라이브러리 사용
# 필요한 nltk 라이브러리 다운
import nltk
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\CMC\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\CMC\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\CMC\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\CMC\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\CMC\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [3]:
# 문장 토큰화
para = "Hello everyone. It's good to see you. Let's start our text mining class!"

from nltk.tokenize import sent_tokenize

# 주어진 텍스트를 문장 단위로 토큰화. 주로 . ! ? 등을 이용
print(sent_tokenize(para))

['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


In [4]:
# 프랑스어 문장 토큰화
paragraph_french = """Je t'ai demand si tu m'aimais bien, Tu m'a r pondu non.
Je t'ai demand si j' tais jole, Tu m'a r pondu non.
Je t'ai demand si j' tai dans ton coeur, Tu m'a r pondu non."""

import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/french.pickle')
print(tokenizer.tokenize(paragraph_french))

["Je t'ai demand si tu m'aimais bien, Tu m'a r pondu non.", "Je t'ai demand si j' tais jole, Tu m'a r pondu non.", "Je t'ai demand si j' tai dans ton coeur, Tu m'a r pondu non."]


In [5]:
# NLTK로 한글에 대한 사전학습된 모델은 없지만 문장 토큰화의 경우 끝에 있는 마침표 등을 기분으로 분리하기 때문에 사용은 가능함.
para_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트마이닝 클래스를 시작해봅시다!"

print(sent_tokenize(para_kor))

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 텍스트마이닝 클래스를 시작해봅시다!']


In [6]:
from nltk.tokenize import word_tokenize

# 주어진 text를 word 단위로 tokenize 함.
print(word_tokenize(para))

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


In [8]:
from nltk.tokenize import WordPunctTokenizer

print(WordPunctTokenizer().tokenize(para))

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'text', 'mining', 'class', '!']


In [9]:
print(word_tokenize(para_kor))

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트마이닝', '클래스를', '시작해봅시다', '!']


In [10]:
import re
re.findall("[abc]", "How are you, boy?")

['a', 'b']

In [12]:
re.findall("[\w]", "3a 7b_ '.&5c9d")

['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']

In [13]:
from nltk.tokenize import RegexpTokenizer

# regular expression(정규식)을 이용한 tokenizer
# 단어 단위로 tokenize \w: 문자나 숫자를 의미. 즉 문자나 숫자 혹은 '가 반복되는 것을 찾아 냄.
tokenizer = RegexpTokenizer("[\w']+")

# can't를 하나의 단어로 인식
print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', "can't", 'go', 'there']


In [14]:
from nltk.corpus import stopwords # 일반적으로 분석대상이 아닌 단어들
english_stops = set(stopwords.words('english')) # 반복 되지 않도록 set으로 변환

text1 = "Sorry, I couldn't go to movie yesterday."

tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text1.lower()) # word_tokenize로 토큰화

# stopwords를 제외한 단어들만으로 list를 생성
result = [word for word in tokens if word not in english_stops]

print(result)

['sorry', 'go', 'movie', 'yesterday']


In [15]:
# 자신만의 stopwrods를 만들고 이용 (불용어 사전)
# 한글처리에도 유용
# 나만의 stopwords를 리스트로 정의
my_stopword = ['i', 'go', 'to']
result = [word for word in tokens if word not in my_stopword]

print(result)

['sorry', "couldn't", 'movie', 'yesterday']


In [16]:
# NLTK에서 포터 스테머를 사용해 어간 추출
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))

cook cookeri cookbook


In [17]:
# 토큰화와 결합해 어간 추출
from nltk.tokenize import word_tokenize

para = "Hello everyone. It's good to see you. Let's start our text mining class!"
tokens = word_tokenize(para) # 토큰화 실행
print(tokens)
result = [stemmer.stem(token) for token in tokens] # 모든 토큰에 대해 스테밍 실행
print(result)

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'our', 'text', 'mine', 'class', '!']


In [18]:
# 스테머와 다르게 품사를 지정하지 않으면 cooking에 대한 기본형으로 동일한 cooking이 반환됨.
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('cooking'))
print(lemmatizer.lemmatize('cooking', pos='v')) # 품사를 지정
print(lemmatizer.lemmatize('cookery'))
print(lemmatizer.lemmatize('cookbooks'))

cooking
cook
cookery
cookbook


In [19]:
# lemmatizing과 stemming 비교
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print('stemming result : ', stemmer.stem('believes'))
print('lemmatizing result : ', lemmatizer.lemmatize('believes'))
print('lemmatizing result : ', lemmatizer.lemmatize('believes', pos = 'v'))

stemming result :  believ
lemmatizing result :  belief
lemmatizing result :  believe


In [20]:
import nltk
from nltk.tokenize import word_tokenize

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text min-ing class!")
print(nltk.pos_tag(tokens))

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'JJ'), ('min-ing', 'JJ'), ('class', 'NN'), ('!', '.')]


In [21]:
my_tag_set = ['NN', 'VB', 'JJ']
my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]
print(my_words)

['everyone', 'good', 'see', 'Let', 'start', 'text', 'min-ing', 'class']


In [22]:
# 단어에 품사 정보를 추가해 구분
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/JJ', 'min-ing/JJ', 'class/NN', '!/.']


In [26]:
# KoNLPy 테스트
from konlpy.tag import Okt
t = Okt()

JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.