# 어간 및 표제어 추출: Stemming / Lemmatization
---

## 어간추출 Stemming
* 어간 Stem : 단어의 의미가 변하지 않는 핵심 부분
* 접사 Affix : 어간에 붙여서 단어의 새로운 의미를 만드는 부분 (접두사 Prefix, 접미사 Suffix)

* 어간 추출: 단어의 어간만 남기고 다른 접사 등을 제거햇 단어를 축약하는 과정

### PorterStemmer
* Martin Porter가 개발한 알고리즘
* 규칙 기반의 접근 방식을 사용해서 단어 변환
* 단어의 어미를 제거하고 어간을 찾아내어 축약하는 방식으로 적용
* 좀더 자주 사용되는 형태를 유지

In [7]:
from nltk.stem import PorterStemmer

porter = PorterStemmer()

words = ['policy','doing','organization','have','going','love','lives','fly','dies','watched','has','starting']

for word in words:
    stemmed_word = porter.stem(word)
    print(f'원본 단어: {word}, 어간 추출 결과: {stemmed_word}')

원본 단어: policy, 어간 추출 결과: polici
원본 단어: doing, 어간 추출 결과: do
원본 단어: organization, 어간 추출 결과: organ
원본 단어: have, 어간 추출 결과: have
원본 단어: going, 어간 추출 결과: go
원본 단어: love, 어간 추출 결과: love
원본 단어: lives, 어간 추출 결과: live
원본 단어: fly, 어간 추출 결과: fli
원본 단어: dies, 어간 추출 결과: die
원본 단어: watched, 어간 추출 결과: watch
원본 단어: has, 어간 추출 결과: ha
원본 단어: starting, 어간 추출 결과: start


### LancasterStemmer
* Chris D. R어쩌구가 개발한 알고리즘
* PorterStemmer보다 더 적극적인 방식으로 단어 축약
* 많은 규칙을 적용하여 단어를 더 짧게 변환

In [8]:
from nltk.stem import LancasterStemmer

porter = LancasterStemmer()

words = ['policy','doing','organization','have','going','love','lives','fly','dies','watched','has','starting']

for word in words:
    stemmed_word = porter.stem(word)
    print(f'원본 단어: {word}, 어간 추출 결과: {stemmed_word}')

원본 단어: policy, 어간 추출 결과: policy
원본 단어: doing, 어간 추출 결과: doing
원본 단어: organization, 어간 추출 결과: org
원본 단어: have, 어간 추출 결과: hav
원본 단어: going, 어간 추출 결과: going
원본 단어: love, 어간 추출 결과: lov
원본 단어: lives, 어간 추출 결과: liv
원본 단어: fly, 어간 추출 결과: fly
원본 단어: dies, 어간 추출 결과: die
원본 단어: watched, 어간 추출 결과: watch
원본 단어: has, 어간 추출 결과: has
원본 단어: starting, 어간 추출 결과: start


### Porter vs Lancaster
1. Porter 알고리즘 규칙

2. Lancaster 알고리즘 규칙



In [9]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy','doing','organization','have','going','love','lives','fly','dies','watched','has','starting']

porter_results = [porter_stemmer.stem(w) for w in words]
lancaster_results = [lancaster_stemmer.stem(w) for w in words]

print('porter 어간 추출: ', porter_results)
print('lancaster 어간 추출: ', lancaster_results)

porter 어간 추출:  ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
lancaster 어간 추출:  ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


## 표제어추출 Lemmatization
: 단어의 원형을 찾아 단어의 형태소적/문법적 특성을 고려해서 사전에 등재된 단어로 변환
* 어간 추출보다 정확 ex) am, are -> be
* 문법적, 의미적인 측면을 고려하므로 복잡하고 정확한 처리를 수행

In [10]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ['policy','doing','organization','have','going','love','lives','fly','dies','watched','has','starting']
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

print('원본 단어: ', word)
print('Lemmatization 결과: ', lemmatized_words)

원본 단어:  starting
Lemmatization 결과:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [16]:
# lemmatizer에 단어 품사 지정해주면 좀 더 정확한 단어가 나온다

print(lemmatizer.lemmatize('dies','v'))
print(lemmatizer.lemmatize('watched','v'))
print(lemmatizer.lemmatize('has','v'))

die
watch
have
