### 참고 문서

- https://wikidocs.net/21707
- 자연어 처리, 딥러닝 캠프


### 언제 Stemming, Lemmatization 을 활용해야?

코퍼스가 부족한 상황에서는 어간이나 표제어가 같은 문장에 대해 같은 샘플로 취급하여 희소성 문제에서 타협을 볼 수 있었음. 딥러닝 이전의 전통적인 머신러닝 방법에서는 단어 및 문장은 불연속적인 존재이므로 희소성 문제에 관한 치명적인 단점이 있었기 때문에, 표제어 추출 및 어간 추출은 괜찮은 방법이었음.

그러나 딥러닝을 활용하여 단어 임베딩 (차원 축소) 를 수행할 수 있게 되면서, 희소성 관련 문제는 큰 장애물이 되지 않음. 예를 들어 표제어 추출이나 어간 추출이 다음과 같은 상황에서는 문제가 될 수..

- `나는 학교에 가요` 와 `나만 학교에 가요` 를 추출하면, `나 학교 가` 와 같은 값이 나올 수 있고 동일하게 평가될  수 있음

따라서 표제어 추출 또는 어간 추출을 하지 않은 상태에서 딥러닝 based 의 모델로 베이스라인을 만들고 이후에 튜닝을 적용하는 것도 하나의 방법.

### Stemming vs Lemmatization

- https://stackoverflow.com/questions/1787110/what-is-the-true-difference-between-lemmatization-vs-stemming
- https://blog.bitext.com/what-is-the-difference-between-stemming-and-lemmatization/

아주 간략히는, 어간 추출은 단어만 보고 일정한 규칙을 따라 어간을 (Stem) 추출. 반면 표제어어 추출은 맥락을 고려. 

어간 추출 (Stemming) 과는 달리 표제어 추출은 (Lemmatization) 맥락을 고려하기 때문에 형태만 같다고 동일하게 보지 않을 수 있음. 예를 들어,

- `better`, `good` 은 같은 lemma 이나 stemming 에선 뽑히지 않을 수 있음

### 1. 표제어 추출 (Lemmatization)

**목적: 단어의 뿌리가 같은지 판단해 단어의 수를 줄일 수 있다.**

형태소는 크게 두 가지 종류로 나눌 수 있음
- 어간 (stem): 단어의 의미를 담고 있는 핵심 부분
- 접사 (affix): 단어에 추가적인 의미를 주는 부분

형태학적 파싱은 이 두 가지 구성 요소를 분리하는 작업을 말함. `cats -> cat (어간) + s (접사)`

In [None]:
import nltk

nltk.download('wordnet')

In [18]:
from pprint import pprint
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words=[
    'policy', 
    'doing', 
    'organization', 
    'have', 
    'going', 
    'love', 
    'lives', 
    'fly', 
    'dies', 
    'watched', 
    'has', 
    'starting'
]

In [21]:
pprint([lemmatizer.lemmatize(word) for word in words])

# 표제어 추출기는 단어의 정확한 품사를 알아야 정확한 결과를 출력
print(lemmatizer.lemmatize('has', 'v'))

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']
have


### 어간 추출 (Stemming)

In [22]:
from nltk.stem import PorterStemmer, LancasterStemmer

stemmer_porter = PorterStemmer()
stemmer_lancaster = LancasterStemmer()

In [25]:
# Stemmer 마다 다른 성능
pprint([stemmer_porter.stem(word) for word in words])
pprint([stemmer_lancaster.stem(word) for word in words])

['polici',
 'do',
 'organ',
 'have',
 'go',
 'love',
 'live',
 'fli',
 'die',
 'watch',
 'ha',
 'start']
['policy',
 'doing',
 'org',
 'hav',
 'going',
 'lov',
 'liv',
 'fly',
 'die',
 'watch',
 'has',
 'start']


### 3. 한국어에서의 어간 추출

한국어는 5언 9품사의 구조

* 수식언: 관형사, 부사
* 관계언: 조사
* 독립언: 감탄사
* 체언: 명사, 대명사, 수사
* 용언: 동사, 형용사

이 중 용언에 해당되는 동사 및 형용사는 어간(stem) 과 어미(ending) 로 구성