## 텍스트 전처리_어간 추출(Stemming) and 표제어 추출(Lemmatization)
[02-03 어간 추출(Stemming) and 표제어 추출(Lemmatization)](https://wikidocs.net/21707)

- 공통점: 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내 단어수를 줄임.
    - BoW 표현을 사용하는 자연어 처리 문제에서 주로 사용함
    
### 1. 표제어 추출(Lemmatization)
- am, are, is의 표제어 → **be**
- 표제어 추출 방법
    - 단어의 **형태학적 파싱**을 먼저 진행
    - 형태소: 의미를 가진 가장 작은 단위
    - 형태학: 형태소로부터 단어들을 만들어가는 학문
    - 형태소 종류: 어간(stem, 단어의 의미를 담고 있는 부분), 접사(affix, 단어에 추가 의미를 주는 부분)
    - cats → cat(어간) + -s(접사)
    - fox → 독립적인 형태소이므로 분리 불가능

In [1]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


dy나 ha와 같이 의미를 알 수 없는 적절하지 못한 단어를 출력하고 있음.  
이는 표제어 추출기(lemmatizer)가 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문임.

In [2]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [3]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [4]:
lemmatizer.lemmatize('has', 'v')

'have'

### 2. 어간 추출(Stemming)
- 어간(Stem)을 추출하는 작업을 의미함.
- 형태학적 분석을 단순화한 버전이라 볼 수 있음.
- 섬세한 작업이 아니라 어간 추출 후에 나오는 단어는 사전에 존재하지 않을 수 있음.

In [5]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전 :', tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


포터 알고리즘의 어간 추출은 아래 규칙들을 가짐.

ALIZE → AL  
ANCE → 제거  
ICAL → IC  

In [6]:
words = ['formalize', 'allowance', 'electricical']

print('어간 추출 전 :', words)
print('어간 추출 후:', [stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical']
어간 추출 후: ['formal', 'allow', 'electric']


어간 추출 속도는 표제어 추출보다 일반적으로 빠른데, 포터 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택임.  
NLTK에서는 포터 알고리즘 외에도 랭커스터 스태머(Lancaster Stemmer) 알고리즘을 지원함.  
이번에는 포터 알고리즘과 랭커스터 스태머 알고리즘으로 각각 어간 추출을 진행했을 때, 이 둘의 결과를 비교함.

In [7]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후 :', [porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후 :', [lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후 : ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후 : ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


### 3. 한국에서의 어간 추출
- **용언**에 해당되는 '동사', '형용사'는 어간(stem)과 어미(ending)의 결합으로 구성됨.

1. 활용(conjugation)
- 용언의 어간(stem)이 어미(ending)를 가지는 일을 의미함.
    - **어간(stem)**: 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양도 바뀔 수 있음(예: 긋다, 긋고, 그어서, 그어라).
    - **어미(ending)**: 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행

2. 규칙 활용
- 규칙 활용은 어간이 어미를 취할 떄, 어간의 모습이 일정함.
    - 잡(어간) + 다(어미)
    - 위처럼 규칙 기반으로 어미를 단순히 분리해주면 어간 추출이 됨.

3. 불규칙 활용
- 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우를 말함.
- 예를 들어 ‘듣-, 돕-, 곱-, 잇-, 오르-, 노랗-’ 등이 ‘듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’와 같이 어간의 형식이 달라지는 일이 있거나 ‘오르+ 아/어→올라, 하+아/어→하여, 이르+아/어→이르러, 푸르+아/어→푸르러’와 같이 일반적인 어미가 아닌 특수한 어미를 취하는 경우 불규칙활용을 하는 예에 속함.
- 이 경우에는 좀 더 복잡한 규칙을 필요로 함.
- [참고 링크](https://namu.wiki/w/%ED%95%9C%EA%B5%AD%EC%96%B4/%EB%B6%88%EA%B7%9C%EC%B9%99%20%ED%99%9C%EC%9A%A9)