In [1]:
import nltk

In [3]:
raw = """DENNIS: Listen, strange women lying in ponds distributing swords
... is no basis for a system of government.  Supreme executive power derives from
... a mandate from the masses, not from some farcical aquatic ceremony."""

In [4]:
tokens = nltk.word_tokenize(raw)

## stemming: 단어에서 접사(affix)를 제거하는 일
Stemming은 검색엔진에서 색인할 때 가장 많이 쓴다. 

모든 형태의 단어를 저장하는것 보다 Stemming한 단어를 저장하는 것이 색인 크기를 줄일 뿐만아니라 검색 정확성을 높일 수 있다.

Stemming algorithm 중에서 유명한 알고리즘은 Martin Porter의 Porter stemming algorithm이다. 

Porter 알고리즘은 영어의 접미사(suffix)를 제거한다.

In [5]:
porter = nltk.PorterStemmer()
print([porter.stem(t) for t in tokens])

['denni', ':', 'listen', ',', 'strang', 'women', 'lie', 'in', 'pond', 'distribut', 'sword', 'is', 'no', 'basi', 'for', 'a', 'system', 'of', 'govern', '.', 'suprem', 'execut', 'power', 'deriv', 'from', 'a', 'mandat', 'from', 'the', 'mass', ',', 'not', 'from', 'some', 'farcic', 'aquat', 'ceremoni', '.']


또 다른 알고리즘, lancaster stemmer poter보다 성능이 좋음

In [6]:
lancaster = nltk.LancasterStemmer()
print([lancaster.stem(t) for t in tokens])

['den', ':', 'list', ',', 'strange', 'wom', 'lying', 'in', 'pond', 'distribut', 'sword', 'is', 'no', 'bas', 'for', 'a', 'system', 'of', 'govern', '.', 'suprem', 'execut', 'pow', 'der', 'from', 'a', 'mand', 'from', 'the', 'mass', ',', 'not', 'from', 'som', 'farc', 'aqu', 'ceremony', '.']


## lemmatize
Lemmatization은 stemming과 매우 비슷하지만, 동의어 대체와 유사하다. 

Lemma는 어원(root word)이라는 의미다. **Stemming과는 달리 Lemmatize 후에도 그 단어는 같은 의미를 지닌다.** 

원형을 찾아주는 알고리즘

아래의 예제에서, 'cooking'은 품사설정 없이는 'cooking'자체가 하나의 명사(요리)로 보기 때문에 lemma는 'cooking'자체가 된다. 

POS 설정을 동사(verb)로 설정해주면 lemma는 'cook'이 된다.  또한 'cookbooks'는 복수명사이므로 그 원형인 'cookbook'이 된다.


In [7]:
wnl = nltk.WordNetLemmatizer()
print([wnl.lemmatize(t) for t in tokens])

['DENNIS', ':', 'Listen', ',', 'strange', 'woman', 'lying', 'in', 'pond', 'distributing', 'sword', 'is', 'no', 'basis', 'for', 'a', 'system', 'of', 'government', '.', 'Supreme', 'executive', 'power', 'derives', 'from', 'a', 'mandate', 'from', 'the', 'mass', ',', 'not', 'from', 'some', 'farcical', 'aquatic', 'ceremony', '.']
