# 3. 어간 추출(Stemming) and 표제어 추출(Lemmatization)

**Stemming, Lemmatization** : 코퍼스에 있는 단어 개수 줄일 수 있는 기법!

### stemming과 lemmatization의 차이
- lemmatization : 문맥을 고려, 수행했을 때 결과는 해당 단어의 품사 정보 보존(POS 태그 보존)
- stemming : 품사 정보가 보존X(=POS태그 고려X), 수행 결과는 사전에 존재하지 않는 단어일 가능성 high

-----

## 1) 표제어 추출(Lemmatization)
>  표제어(Lemma) : 표제어, 기본 사전형 단어

- am, are, is --> **'be'**
- 표제어 추출을 하는 가장 섬세한 방법 : 형태학적 파싱
- 형태소 : '의미를 가진 가장 작은 단위'
    - 어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분
    - 접사(affix) : 단어에 추가적인 의미를 주는 부분
    - cats : cat(어간) + -s(접사)

In [2]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\jnh78\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

In [3]:
# WordNetLemmatizer : 표제어 추출 도구
from nltk.stem import WordNetLemmatizer

n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


- 표제어 추출은 어간 추출과는 달리 단어의 형태가 적절히 보존되는 양상을 보이는 특징이 있습니다. 
- 그럼에도 위의 결과에서는 dy나 ha와 같이 의미를 알 수 없는 적절하지 못한 단어를 출력하고 있습니다.
- 이는 표제어 추출기(lemmatizer)가 <ins>본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문</ins>입니다.
- WordNetLemmatizer를 사용할 때 단어의 품사를 알려준다면 품사의 정보를 보전하면서 정확한 Lemma를 출력하게 됌

In [4]:
print(n.lemmatize('dies', 'v'))
print(n.lemmatize('watched', 'v'))
print(n.lemmatize('has', 'v'))

die
watch
have


## 2) 어간 추출(Stemming)
> 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있습니다. 다시 말해, 이 작업은 섬세한 작업이 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있습니다.

- 포터 알고리즘(Porter Algorithm) : 어간 추출 알고리즘 중 하나

In [8]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words, '\n')
print([s.stem(w) for w in words])

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.'] 

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [10]:
# ALIZE → AL, ANCE → 제거, ICAL → IC
words=['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electric']


- 어간 추출 속도 >  표제어 추출 속도
- **포터 어간 추출기**는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택
- NLTK에서는 랭커스터 스태머(Lancaster Stemmer) 알고리즘도 지원

In [11]:
from nltk.stem import PorterStemmer, LancasterStemmer

s=PorterStemmer()
l=LancasterStemmer()

words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print([s.stem(w) for w in words])
print([l.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


### Stemming
- am → am
- the going → the go
- having → hav

### Lemmatization
- am → be
- the going → the going
- having → have

## 3) 한국어에서의 어간 추출

<img src=korean.png width=300>

- '동사'와 '형용사'는 어간(stem)과 어미(ending)의 결합으로 구성됩
- From now on, {동사, 형용사} $\subset$ **용언**.

### 활용
- 어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양도 바뀔 수 있음(예: 긋다, 긋고, 그어서, 그어라).

- 어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행

### 규칙활용
- 규칙 활용은 어간이 어미를 취할 때, 어간의 모습이 일정합니다.
- Exmaple : <ins>잡/어간 + 다/어미</ins>

### 불규칙 활용
- 불규칙 활용은 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우를 말합니다.
- Examples : '듣-' $\Longrightarrow$ ‘듣/들-', '돕-'  $\Longrightarrow$ '돕/도우-', '곱-'  $\Longrightarrow$ '곱/고우-', '잇-'  $\Longrightarrow$ '잇/이-' 등등