## 어간 추출(Stemming) and 표제어 추출(Lemmatization)
- 정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법
- 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이겠다는 것
- 단어의 빈도수를 기반으로 문제를 풀고자 하는 뒤에서 학습하게 될 BoW(Bag of Words) 표현을 사용하는 자연어 처리 문제에서 주로 사용
- 정규화의 지향점은 언제나 갖고 있는 코퍼스로부터 복잡성을 줄이는 일

### 표제어 추출(Lemmatization)
- 표제어(Lemma)는 한글로는 '표제어' 또는 '기본 사전형 단어' 정도의 의미
- 표제어 추출은 단어들로부터 표제어를 찾아가는 과정
    - ex. am, are, is의 뿌리 단어(=표제어): be
- 표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것
    - 형태소: '의미를 가진 가장 작은 단위'
    - 형태학(morphology): 형태소로부터 단어들을 만들어가는 학문을 뜻
    - 형태소의 종류: 어간(stem)과 접사(affix)
- 어간(stem): 단어의 의미를 담고 있는 단어의 핵심 부분
- 접사(affix): 단어에 추가적인 의미를 주는 부분
    - cats를 형태학적 파싱 -> cat(어간), -s(접사)분리

In [7]:
# 에러 난다면
# import nltk
# nltk.download('wordnet')
# nltk.download('omw-1.4')

In [6]:
# NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


- 표제어 추출은 뒤에서 언급할 어간 추출과는 달리 단어의 형태가 적절히 보존되는 양상을 보이는 특징
- 하지만, dy나 ha와 같이 의미를 알 수 없는 적절하지 못한 단어를 출력
    -  표제어 추출기(lemmatizer)가 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문
- WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있음
- 표제어 추출은 문맥을 고려하며 수행했을 때의 결과는 해당 단어의 품사 정보를 보존
- 하지만, 어간 추출의 결과는 품사 정보가 보존되지 않음
- 어간 추출을 한 결과는 사전에 존재하지 않는 단어일 경우가 많음

In [8]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [9]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [10]:
lemmatizer.lemmatize('has', 'v')

'have'

### 어간 추출(Stemming)
- 어간 추출(stemming): 어간(Stem)을 추출하는 작업
    - 어간 추출은 형태학적 분석을 단순화한 버전
    - 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업
- 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있음

In [11]:
# 어간 추출 알고리즘 포터 알고리즘(Porter Algorithm
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전 :', tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


- 규칙 기반의 접근 -> 사전에 없는 단어들도 포함
- 포터 알고리즘의 어간 추출 규칙
    - ALIZE → AL
    - ANCE → 제거
    - ICAL → IC
- 규칙에 따라 아래 예시결과
    - formalize → formal
    - allowance → allow
    - electricical → electric

In [17]:
dir(stemmer) #궁금해서 출력해봄

['MARTIN_EXTENSIONS',
 'NLTK_EXTENSIONS',
 'ORIGINAL_ALGORITHM',
 '__abstractmethods__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_impl',
 '_apply_rule_list',
 '_contains_vowel',
 '_ends_cvc',
 '_ends_double_consonant',
 '_has_positive_measure',
 '_is_consonant',
 '_measure',
 '_replace_suffix',
 '_step1a',
 '_step1b',
 '_step1c',
 '_step2',
 '_step3',
 '_step4',
 '_step5a',
 '_step5b',
 'mode',
 'pool',
 'stem',
 'vowels']

In [15]:
words = ['formalize', 'allowance', 'electricical']

print('어간 추출 전 :',words)
print('어간 추출 후 :',[stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical']
어간 추출 후 : ['formal', 'allow', 'electric']


- 어간 추출 속도는 표제어 추출보다 일반적으로 빠름
- 포터 어간 추출기는 정밀하게 설계되어 정확도가 높음
    - 영어 자연어 처리에서 어간 추출하고자 한다면 준수한 선택지
- NLTK에서는 포터 알고리즘 외에도 랭커스터 스태머(Lancaster Stemmer) 알고리즘을 지원

In [18]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:',[porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후:',[lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


- 두 스태머는 동일한 단어들의 나열에 대해서 전혀 다른 결과를 보여줌
    - 서로 다른 알고리즘을 사용하기 때문에
- 이미 알려진 알고리즘을 사용할 때는, 사용하고자 하는 코퍼스에 스태머를 적용해보고 어떤 스태머가 해당 코퍼스에 적합한지를 판단한 후에 사용
- 이런 규칙에 기반한 알고리즘은 종종 제대로 된 일반화를 수행하지 못 할 수 있음
    - 어간 추출을 하고나서 일반화가 지나치게 되거나, 또는 덜 되거나 하는 경우
    - ex. 포터 알고리즘에서 organization → organ 의 결과를 얻음. 완전히 다른 단어를 출력
    - 의미가 동일한 경우에만 같은 단어를 얻기를 원하는 정규화의 목적에는 맞지 않음

- 마지막으로, 동일한 단어에 대해서 표제어 추출과 어간 추출을 수행했을 때의 예시 결과
- Stemming
    - am → am
    - the going → the go
    - having → hav
- Lemmatization
    - am → be
    - the going → the going
    - having → have

### 한국어에서의 어간 추출
- 한국어는 5언 9품사의 구조
    - 체언(언): 명사, 대명사, 수사(품사)
    - 수식언(언): 관형사, 부사(품사)
    - 관계언(언): 조사(품사)
    - 독립언(언): 감탄사(품사)
    - 용언(언): 동사, 형용사(품사)
- 용언에 해당되는 '동사'와 '형용사'는 어간(stem)과 어미(ending)의 결합으로 구성

#### 활용(conjugation)
- 활용(conjugation)은 한국어에서만 가지는 특징이 아니라, 인도유럽어(indo-european language)에서도 주로 볼 수 있는 언어적 특징 중 하나
- 활용: 용언의 어간(stem)이 어미(ending)를 가지는 일
    - 어간(stem): 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양도 바뀔 수 있음(예: 긋다, 긋고, 그어서, 그어라)
    - 어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행
- 활용은 어간이 어미를 취할 때, 어간의 모습이 일정하다면 규칙 활용, 어간이나 어미의 모습이 변하는 불규칙 활용으로 나뉨

#### 규칙 활용
- 어간이 어미를 취할 때, 어간의 모습이 일정
    - ex. 잡/어간 + 다/어미
- 어간 추출: 규칙 기반으로 어미를 단순히 분리 

#### 불규칙 활용
- 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우
    - ex. ‘듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’
    - ex. '오르+ 아/어→올라, 하+아/어→하여, 이르+아/어→이르러, 푸르+아/어→푸르러'
    - 일반적인 어미가 아닌 특수한 어미를 취하는 경우
- 어간 추출: 단순한 분리만이 아닌 좀 더 복잡한 규칙 필요