이 자료는 위키독스 딥 러닝을 이용한 자연어 처리 입문의 어간 추출과 표제어 추출 튜토리얼입니다.  

링크 : https://wikidocs.net/21707

# 0. Setting

##### 0) 패키지 설치

In [None]:
pip install nltk



##### 0) 라이브러리 불러오기

In [None]:
# (1) 기본 라이브러리
import nltk

nltk.download('punkt') # !!!
nltk.download('wordnet') # !!!

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

# 1. 표제어 추출 (Lemmatization)

##### 1) WordNetLemmatizer

In [None]:
# (0) 라이브러리 불러오기
from nltk.stem import WordNetLemmatizer # !!!

# (1) 데이터 불러오기
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

# (2) Lemmatization 모델 불러오기
lemmatizer = WordNetLemmatizer()

# (3) 결과 출력
print('표제어 추출 전 :', words)
print('표제어 추출 후 :', [lemmatizer.lemmatize(word) for word in words]) # !!!

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [None]:
print(lemmatizer.lemmatize('dies', 'v'))

die


In [None]:
print(lemmatizer.lemmatize('watched', 'v'))

watch


In [None]:
print(lemmatizer.lemmatize('has', 'v'))

have


# 2. 어간 추출 (Stemming)

##### 1) PorterStemmer

In [None]:
# (0) 라이브러리 불러오기
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer # !!!

# (1) 데이터 불러오기
sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

# (2) Tokenization 수행
tokenized_sentence = word_tokenize(sentence)

# (3) Stemming 모델 불러오기
stemmer = PorterStemmer()

# (4) 결과 출력
print('어간 추출 전 :', tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [None]:
# (0) 라이브러리 불러오기
from nltk.stem import PorterStemmer # !!!

# (1) 데이터 불러오기
words = ['formalize', 'allowance', 'electricical']

# (2) Stemming 모델 불러오기
stemmer = PorterStemmer()

# (3) 결과 출력
print('어간 추출 전 :',words)
print('어간 추출 후 :',[stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical']
어간 추출 후 : ['formal', 'allow', 'electric']


##### 2) LancaterStemmer

In [None]:
# (0) 라이브러리 불러오기
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer # !!!

# (1) 데이터 불러오기
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

# (2) Stemming 모델 불러오기
porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

# (3) 결과 출력
print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:',[porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후:',[lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']
