## 3 어간 추출(Stemming) and 표제어 추출(Lemmatization)

### 1. 표제어 추출(Lemmatization)
* 표제어(Lemma): 한글로 '표제어' 또는 '기본 사전형 단어'
* 표제어 추출: 단어들로부터 표제어를 찾아가는 과정
* 표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것

#### 형태소
* 형태소: '의미를 가진 가장 작은 단위'
* 형태학(morphology): 형태소로부터 단어들을 만들어가는 학문

#### 형태소의 두 가지 종류
1) 어간(stem)
: 단어의 의미를 담고 있는 단어의 핵심 부분.

2) 접사(affix)
: 단어에 추가적인 의미를 주는 부분.

-> 형태학적 파싱은 이 두 가지 구성 요소를 분리하는 작업

#### NLTK 표제어 추출

In [5]:
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


 dies와 has가 dy, ha로  의미를 알 수 없는 적절하지 못한 단어를 출력됨

#### 표제어 추출기(lemmatizer)는 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있음
#### 이때, WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있음
 dies와 watched, has가 문장에서 동사로 쓰였다는 것을 알려준다면 표제어 추출기는 품사의 정보를 보존하면서 정확한 Lemma를 출력함

In [6]:
n.lemmatize('dies', 'v')

'die'

In [7]:
n.lemmatize('watched', 'v')

'watch'

In [8]:
n.lemmatize('has', 'v')

'have'

### 2. 어간 추출(Stemming)
* 어간 추출은 형태학적 분석을 단순화한 버전
* 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업
* 어간 추출 속도는 표제어 추출보다 일반적으로 빠름

#### NLTK 포터 알고리즘

In [10]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [11]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


#### 포터 알고리즘의 어간 추출 규칙
* ALIZE → AL
* ANCE → 제거
* ICAL → IC

In [12]:
words=['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electric']


#### NLTK 랭커스터 스태머(Lancaster Stemmer) 알고리즘 (vs 포터 알고리즘 비교)

In [16]:
from nltk.stem import PorterStemmer
s=PorterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [17]:
from nltk.stem import LancasterStemmer
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


표제어 추출과 어간 추출을 각각 수행했을 때, 결과 차이

#### Stemming
* am → am
* the going → the go
* having → hav

#### Lemmatization
* am → be
* the going → the going
* having → have