In [None]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')

# 정규화 (Normalization)

<h3>어간 추출 (stemming)</h3>
<h5>포터 스태머</h5>
단어가 변형되는 규칙을 이용해 단어의 원형을 찾는다. 그래서 항상 사전에 있는 올바른 단어가 되지는 않는다.
<h5>랭카스터 스태머</h5>
단어를 가능한 한 가장 짧은 어간으로 줄이려고 한다. 포터 스태머보다 더 공격적인 성향을 가진다.

In [10]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porterstemmer = PorterStemmer()
lancasterstemmer = LancasterStemmer()

print('포터 스태머 : ', porterstemmer.stem('cooking'), porterstemmer.stem('cookery'), porterstemmer.stem('cookbooks'))
print('랭카스터 스태머 : ', lancasterstemmer.stem('cooking'), lancasterstemmer.stem('cookery'), lancasterstemmer.stem('cookbooks'))

포터 스태머 :  cook cookeri cookbook
랭카스터 스태머 :  cook cookery cookbook


In [12]:
from nltk.tokenize import word_tokenize

para = "Let's study text mining. How about a cup of coffee while studying?"

# 토큰화 실행
tokens = word_tokenize(para)
print('토큰 : ', tokens)

# 모든 토큰에 대해 포터 스테밍 실행
result_porter = [porterstemmer.stem(token) for token in tokens]
print('포터 스태머 : ', result_porter)

# 모든 토큰에 대해 랭카스터 스테밍 실행
result_lancaster = [lancasterstemmer.stem(token) for token in tokens]
print('랭카스터 스태머 : ', result_lancaster)

토큰 :  ['Let', "'s", 'study', 'text', 'mining', '.', 'How', 'about', 'a', 'cup', 'of', 'coffee', 'while', 'studying', '?']
포터 스태머 :  ['let', "'s", 'studi', 'text', 'mine', '.', 'how', 'about', 'a', 'cup', 'of', 'coffe', 'while', 'studi', '?']
랭카스터 스태머 :  ['let', "'s", 'study', 'text', 'min', '.', 'how', 'about', 'a', 'cup', 'of', 'coff', 'whil', 'study', '?']


<h3>표제어 추출(Lemmatization)</h3>
`WordNetLemmatizer`는 WordNet을 이용한 표제어 추출 도구이다. 품사를 지정하지 않으면 사전에 있는 기본형으로 반환한다.


In [18]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print('cooking -> ',lemmatizer.lemmatize('cooking'))
print('cooking(pos=v) -> ',lemmatizer.lemmatize('cooking', pos='v'))     # 품사를 지정
print('cookery -> ',lemmatizer.lemmatize('cookery'))
print('cookbooks -> ',lemmatizer.lemmatize('cookbooks'))

cooking ->  cooking
cooking(pos=v) ->  cook
cookery ->  cookery
cookbooks ->  cookbook


In [19]:
# 포터 스태밍과 표제어 추출 비교

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

print('Word : believes')
print('porter stemming result:', stemmer.stem('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes'))
print('lemmatizing result(pos):', lemmatizer.lemmatize('believes', pos='v'))

Word : believes
porter stemming result: believ
lemmatizing result: belief
lemmatizing result(pos): believe
