## 1. 표제어 추출(Lemmatization)

**어간(stem)**
: 단어의 의미를 담고 있는 단어의 핵심 부분.

**접사(affix)**
: 단어에 추가적인 의미를 주는 부분.

In [None]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전:',words)
print('표제어 추출 후:', [lemmatizer.lemmatize(word) for word in words])

표제어 추출 전: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


표제어 추출기(lemmatizer)는 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있다.

In [None]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [None]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [None]:
lemmatizer.lemmatize('has', 'v')

'have'

표제어 추출(Lemmatization)은 문맥을 고려하며  

수행했을 때의 결과는 해당 단어의 품사 정보를 보존한다.

하지만 어간 추출(Stemming)을 수행한 결과는 품사 정보가 보존되지 않습니다. 더 정확히는 어간 추출을 한 결과는 사전에 존재하지 않는 단어일 경우가 많다.

## 2. 어간 추출(Stemming)

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전:', tokenized_sentence)
print('어간 추출 후:', [stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전: ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후: ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [None]:
words = ['formalize', 'allowance', 'electricical']

print('어간 추출 전:', words)
print('어간 추출 후:', [stemmer.stem(word) for word in words])

어간 추출 전: ['formalize', 'allowance', 'electricical']
어간 추출 후: ['formal', 'allow', 'electric']


In [None]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('어간 추출 전:', words)
print('Porter_Stemmer 어간 추출 후:', [porter_stemmer.stem(word) for word in words])
print('Lancaster_Stemmer 어간 추출 후:', [lancaster_stemmer.stem(word) for word in words])

어간 추출 전: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
Porter_Stemmer 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
Lancaster_Stemmer 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


이미 알려진 알고리즘을 사용할 때는, 사용하고자 하는 코퍼스에 스태머를 적용해보고 어떤 스태머가 해당 코퍼스에 적합한지를 판단한 후에 사용해야 한다.