# 어간 추출(Stemming) and 표제어 추출(Lemmatization)
- 단어의 개수를 줄일 수 있는 기법인 표제어 추출(lemmatization)과 어간 추출(stemming)의 개념 학습
- 이러한 방법들은 단어의 빈도수를 기반으로 문제를 풀고자 하는 BoW(Bag of Words) 표현을 사용하는 자연어 처리 문제에서 주로 사용
- 자연어 처리에서 전처리, 더 정확히는 정규화의 지향점은 언제나 갖고 있는 코퍼스로부터 복잡성을 줄이는 일


## 1. 표제어 추출(Lemmatization)
- 표제어(Lemma)는 한글로는 '표제어' 또는 '기본 사전형 단어' 정도의 의미
- 표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단
- 표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것
  - 형태학(morpholoy) : 형태소로부터 단어를 만들어가는 학문
  - 형태소 종류
    - 어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분
    - 접사(affix) : 단어에 추가적인 의미를 주는 부분
    


In [8]:
# import nltk
# nltk.download('wordnet')

In [27]:
from nltk.stem import WordNetLemmatizer

wordnetlemmatizer = WordNetLemmatizer()


words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
words_morphs = [wordnetlemmatizer.lemmatize(word) for word in words]

for w,m in zip(words,words_morphs):
    print(f"{w:^12} || {m:^12}")

   policy    ||    policy   
   doing     ||    doing    
organization || organization
    have     ||     have    
   going     ||    going    
    love     ||     love    
   lives     ||     life    
    fly      ||     fly     
    dies     ||      dy     
  watched    ||   watched   
    has      ||      ha     
  starting   ||   starting  


표제어 추출기는 어간 추출과 달리 단어의 형태가 적절히 보존되지만, 그럼에도 일부 단어(dy, ha) 등과 같이 의미없는 단어가 나온다.   
사실 표제어 추출기에는 단어 뿐만 아니라 품사도 같이 넣어줘야 한다

In [35]:
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
pos_idx = [0,1,0,1,1,1,1,1,1,1,1,1]
words_morphs = [wordnetlemmatizer.lemmatize(word) for word in words]
words_morphs_pos = [wordnetlemmatizer.lemmatize(word) if pos == 0 else wordnetlemmatizer.lemmatize(word, "v") for pos, word in zip(pos_idx,words)]

for w,m,pm in zip(words,words_morphs,words_morphs_pos):
    print(f"{w:^12} || {m:^12} || {pm:^12}")

   policy    ||    policy    ||    policy   
   doing     ||    doing     ||      do     
organization || organization || organization
    have     ||     have     ||     have    
   going     ||    going     ||      go     
    love     ||     love     ||     love    
   lives     ||     life     ||     live    
    fly      ||     fly      ||     fly     
    dies     ||      dy      ||     die     
  watched    ||   watched    ||    watch    
    has      ||      ha      ||     have    
  starting   ||   starting   ||    start    


아래 결과에 명사(default)와 동사를 적절히 넣어준 결과 원하는 형태로 출력됨을 확인할 수 있다.

## 어간 추출(Stemming)
- 어간(Stem)을 추출하는 작업을 어간 추출(stemming)
- 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업
- 표제어 추출과 어간 추출의 차이
  - 표제어 추출 : 문맥을 고려하여 수행하며, 단어의 품사 정보를 보존
  - 어간 추출 : 품사 정보를 보존하지 않음

In [63]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
from nltk.tokenize import word_tokenize
p = PorterStemmer()
l = LancasterStemmer()

text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)


print("[text]","\n", text)
# print("[word_tokenize]","\n", words)
# print("[PorterStemmer]","\n", [p.stem(word) for word in words])
# print("[LancasterStemmer]","\n", [l.stem(word) for word in words])
print("------------------------------------------------------------------------")
print("   word_token  ||    Porter     ||   Lancaster   ||   wordnetlemmatizer")
print("------------------------------------------------------------------------")
for word in words:
    print(f"{word:^15}||{p.stem(word):^15}||{l.stem(word):^15}||{wordnetlemmatizer.lemmatize(word):^20}")


[text] 
 This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes.
------------------------------------------------------------------------
   word_token  ||    Porter     ||   Lancaster   ||   wordnetlemmatizer
------------------------------------------------------------------------
     This      ||      thi      ||      thi      ||        This        
      was      ||      wa       ||      was      ||         wa         
      not      ||      not      ||      not      ||        not         
      the      ||      the      ||      the      ||        the         
      map      ||      map      ||      map      ||        map         
      we       ||      we       ||      we       ||         we         
     found     ||     found     ||     found     ||       found        
      in       ||      in       ||      in       ||         in      

이처럼 결과는 stemmer마다 상이하며, 결과적으로 테스트 후 적절한 stmmer를 사용하는 것이 옳다.
맨 우측은 wordnetlemmatizer이며, 역시나 품사 정보가 따로 없어서 결과가 잘 안나온 것으 볼 수 있다.

## 3. 한국어에서의 어간 추출
- 용언에 해당되는 '동사'와 '형용사'는 어간(stem)과 어미(ending)의 결합으로 구성
- 활용(conjugation): 이란 용언의 어간(stem)이 어미(ending)를 가지는 일
  - 어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양도 바뀔 수 있음(예: 긋다, 긋고, 그어서, 그어라).
  - 어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행
- 활용은 어간이 어미를 취할 때, (1)어간의 모습이 일정하다면 규칙 활용, (2)어간이나 어미의 모습이 변하는 불규칙 활용
  - (1) : 어미:잡 + 어간:다,은,아,고 등
  - (2) : 어미:듣 => 듣+다, 듣+는, 들+어 등...
    - 어미가 붙는 과정에서 어간의 모습이 바뀌었으므로 단순한 분리만으로 어간 추출이 되지 않고 좀 더 복잡한 규칙을 필요
    - https://namu.wiki/w/%ED%95%9C%EA%B5%AD%EC%96%B4/%EB%B6%88%EA%B7%9C%EC%B9%99%20%ED%99%9C%EC%9A%A9