# 어간 추출(Stemming) & 표제어 추출(Lemmatization)

- 코퍼스에 있는 단어 개수 줄이는 방법



### 영어권 에서의 어간 추출

1. 표제어 추출(Lemmatization)
    - 기본 사전형 단어
    - 단어들로부터 표제어를 찾아가는 과정
    - 단어들이 다른 형태를 가지더라도 , 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지를 판단
        - e.x) am,are,is 의 뿌리단어는 be이다.  이때, 단어들의 표제어는 be 이다.
    - 표제어 추출은 형태학적 파싱을 먼저 한다.

형태학적 파싱
1. 어간(Stem) 
    - 단어의 의므를 담고 이쓴ㄴ 단어의 핵심 부분
2. 접사(affix)
    - 단어에 추가적인 의미를 주는 부분
위 두 가지 구성 요소를 분리하는 작업
- ex) cats -> cat(어간) + -s(접사)
- ex) fox 는 독립적인 형태소랄 분리가 되지 않는다    

In [1]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have','going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print("표제어 추출 전 :", words)
print("표제어 추출 후 :", [lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


표제어 추출 후, dy, ha 와 같이 의미를 알 수 없는 단어를 출력한다.
    - 표제어 추출기가 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문이다.
    - dies, watched, has가 문장에서 동사로 쓰였던 것을 알려준다면 표제어 추출기는 품사 정보를 보존할 수 있다.

In [2]:
lemmatizer.lemmatize('dies','v')

'die'

In [3]:
lemmatizer.lemmatize('watched','v')

'watch'

In [4]:
lemmatizer.lemmatize('has','v')

'have'

표제어 추출은 문맥을 고려하며 수행했을 때, 해당 단어의 품사 정보를 보존한다.
- 그러나 어간 추출을 수행한 결과는 품사 정보가 보존되지 않는다.

2. 어간 추출(Stemming)
- 형태학적 분석을 단순화한 버전
- 정해진 규칙으로 단어의 어미를 자르는 것
- 결과로 나오는 단어는 사전에 존재하지 않는 단어일 수도 있다.

In [6]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--\
    with the single exception of the red crosses and the written notes."

tokenized_sentence = word_tokenize(sentence)

print("어간 추출 전 :", tokenized_sentence)
print()
print("어간 추출 후 :", [stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']

어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


- ALIZE -> AL
- ANCE -> 제거
- 실제 사전에 없는 단어들로 바뀌는 것을 알 수 있다.

In [7]:
words = ['formalize', 'allowance', 'electricial']

print('어간 추출 전 :', words)
print('어간 추출 후 :', [stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricial']
어간 추출 후 : ['formal', 'allow', 'electrici']


어간 추출 속도는 표제어 추출보다 빠르다.
- 포터 어간 추출기는 정밀하게 설계되어 영어에서 자연어 처리때 사용하자
- NLTK에서는 포터 알고리즘 외에, 랭커스터 스태머 알고리즘을 지원한다.

In [8]:
# 랭커스터 스테머 vs 포터 스테머

from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print("어간 추출 전 :", words)
print("포터 스테머의 어간 추출 후 :", [porter_stemmer.stem(w) for w in words])
print("랭커스터 스테머의 어간 추출 후 :", [lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후 : ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후 : ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


코퍼스에 적용할 때, 어떤 알고리즘이 적합한지 반드시 확인하여 적용할 것

- 이런 규칙에 기반한 알고리즘은 일반화를 못하는 경우가 있다. 
    - 지나치게 일반화가 되거나, 덜되는 경우이다.
    - organization -> organ   ()

### 한글에서의 어간 추출

언    ,,,,,              품사


체언 <t> 명사/대명사/수사


수식언 <t> 관형사/부사


관계언 <t> 조사


독립언 <t> 감탄사


용언 <t> 동사/형용사

- 용언에 해당되는 동사/형용사는 어간(stem)과 어미(ending)의 결합으로 구성된다.

1. 활용 (conjugation)
- 용언의 어간(Stem)이 어미(ending)을 가지는 일을 말한다
    - 어간(Stem)
        - 용언(동사, 형용사)를 활용할 때 원칙적으로 모양이 변하지 않는 부분, 활용에서 어미에 선행하는 부ㅜㄴ, 
        - 때로는 어간의 모양도 바뀔 수 있음 (예 : 긋다, 긋고, 그어서, 그어라)
    - 어미(ending)
        - 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분
        - 여러 문법적 기능을 수행
- 활용의 방식 2가지
    - 어간이 어미를 취할 때, 어간의 모습이 일정하다면 규칙 활용
    - 어간이나 어미의 모습이 변하는 불규칙 활용

2. 규칙 활용
- 어간이 어미를 취할 때, 어간의 모습이 일정하다.
- ex) 어간과 어미가 합쳐질 때 어간의 형태가 바뀌지 않음
    - 잡/어간 + 다/어미

3. 불규칙 활용
- 어간이 어미를 취할 때, 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우
- ex) 듣-, 돕-, 곱-, 잇-, 오르-, 노랗- 등이 <br> '듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라- 와 같이 어간의 형식이 달리지거나,<br>
 오르+ 아/어 -> 올라 , 하+아/어-> 하여, 이르/아/어 -> 이르러, 푸르+아/어-> 푸르러 와 같이 특수한 어미를 취하는 것