## Stemming(어간 추출) and Lemmatization(표제어 추출)
+ 단어의 원형을 찾기 위해 사용
+ ex) plays, played -> play

### 1. Stemming (어간 추출)
+ 단어에서 어간을 추출한다.
+ 단어를 보고 어미를 잘라서 어근을 추출한다.
+ NLTK 의 대표적인 Stemmer로는 Porter, Lancaster, Snowball Stemmer

### 2. Lemmatization (표제어 추출)
+ '품사'와 같은 문법적인 요소, 더 의미적인 부분을 감안한다.
+ 장점은 일반적으로 Stemming 보다 더 정확하게 어근을 추출한다.
+ 단점은 일반적으로 Stemming 보다 시간이 더 오래 걸린다.
+ Lemmatization은 WordnetLemmatizer를 주로 사용한다.


In [7]:
# nltk library baseline
import nltk
nltk.download('stopwords')# for Stop word
nltk.download('punkt')# for Tokenize
nltk.download('wordnet')# for Lemmatization

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

#### Porter Stemmer

In [3]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))
print(stemmer.stem('was'), stemmer.stem('love'))

work work work
amus amus amus
happier happiest
fancier fanciest
wa love


#### Lancaster Stemmer

In [4]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))
print(stemmer.stem('was'), stemmer.stem('love'))

work work work
amus amus amus
happy happiest
fant fanciest
was lov


#### Porter vs Lancaster
+ 기본적으로 둘다 잘 추출되었지만, 둘다 amuse 로 추출해야하는데 amus 로 추출함
+ was love 가 추출되야 하는데 Porter는 wa love , Lancaster는 was lov 로 둘다 2%씩 부족함
+ 결론적으로 둘이 서로 다른 성능을 보임

#### Lemmatization (표제어 추출)

In [8]:
# 이 부분을 실행하기 위해서는
#nltk.download('wordnet')이 필요함.
from nltk.stem import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing'),lemma.lemmatize('amuses'),lemma.lemmatize('amused'))
print(lemma.lemmatize('happier'),lemma.lemmatize('happiest'))
print(lemma.lemmatize('fancier'),lemma.lemmatize('fanciest'))
print(lemma.lemmatize('was'), lemma.lemmatize('love'))

amusing amuses amused
happier happiest
fancier fanciest
wa love


In [9]:
# 성능이 좋지 않다. Lemmatization은 품사 속성을 넣어줘야 더 잘 추출된다.

In [11]:
lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'),lemma.lemmatize('amuses', 'v'),lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'),lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'),lemma.lemmatize('fanciest', 'a'))
print(lemma.lemmatize('was', 'v'), lemma.lemmatize('love', 'v'))

amuse amuse amuse
happy happy
fancy fancy
be love


In [None]:
# Successfully extracted