# 1. 표제어 추출(Lemmatization)
단어가 다른 형태라도 그 뿌리 단어(lemma)를 찾아 단어를 줄일지 판단   
1. 어간(stem): 단어의 의미를 담는 핵심 부분
2. 접사(affix): 단어의 추가적 의미 부분   

이 둘을 분리하는 형태학(morpology)적 파싱을 진행   
Lemmatization은 문맥을 고려하며, 그 결과는 단어의 품사 정보(POS 태그)를 보존

표제어 추출기(lemmatizer)는 본 단어의 품사를 알아야만 정확한 결과를 얻을 수 있음

In [1]:
from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


입력으로 품사를 알릴 때 정확한 lemma를 출력함

In [2]:
n.lemmatize('dies', 'v')

'die'

In [3]:
n.lemmatize('watched', 'v')

'watch'

In [4]:
n.lemmatize('has', 'v')

'have'

# 2. 어간 추출(Stemming)
형태학적 분석을 단순화, 정해진 규칙만 보고 의미를 자르는 어림짐작의 작업   
Stemming은 품사 정보가 보존되지 않음, 그 결과가 사전에 존재하지 않는 단어일 경우가 많음

In [5]:
# 어간 추출 알고리즘 중 Porter 알고리즘 사용
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text = "This was not the map we found in Billy Bone's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bone', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


단순 규칙에 기반해 이루어져 사전에 없는 단어들도 포함

In [6]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [7]:
words = ['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electric']


Porter Stemmer와 Lancaster Stemmer 알고리즘 비교

In [8]:
# Porter Stemmer
from nltk.stem import PorterStemmer
s = PorterStemmer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [9]:
# Lancaster Stemmer
from nltk.stem import LancasterStemmer
l = LancasterStemmer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


알려진 알고리즘을 사용할 때는 corpus에 stemmer를 적용해보고 어떤 것이 적합할지 판단 후 사용   
이런 규칙 기반 알고리즘은 종종 제대로 된 일반화를 수행하지 못할 가능성 존재 

# 3. 한국어에서의 어간 추출
언|품사
:-----|:---------
체언|명사, 대명사, 수사
수식언|관형사, 부사
관계언|조사
독립언|감탄사
**용언(어간과 어미의 결합으로 구성됨)**|**동사, 형용사**   

> **1) 활용(conjugation)**   
> 용언의 어간이 어미를 가지는 일  
> 어간(stem): 원칙적으로 모양이 변하지 않음, 때론 어간의 모양도 바뀜   
> 어미(ending): 활용하며 변함, 문법적 기능을 수행

> **2) 규칙 활용**   
> 어간이 어미를 취할 때 어간의 형태가 바뀌지 않음

> **3) 불규칙 활용**   
> 어간이 어미를 취할 때 어간의 모습이 바뀌거나 어미가 특수할 경우   
> 어간의 모습이 바뀌므로 단순 분리만으로 어간 추출이 되지 않고 좀 더 복잡한 규칙 필요