어간 추출 & 표제어 추출
===

* 정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법 

표제어 추출 (Lemmatization)
===
* 표제어는 기본 사전형 단어 정도의 의미를 갖는다. 표제어 추출은 단어들로부터 표제어를 찾아가는 과정 ex) am,are,is -> be(표제어)
* 단어의 형태학적 파싱을 먼저 진행하는 것, 형태학 : 형태소로부터 단어들을 만들어가는 학문

1. 어간 (stem) : 단어의 의미를 담고 있는 단어의 핵심 부분.
2. 접사 (affix) : 단어에 추가적인 의미를 주는 부분.

* 형태학적 파싱은 위의 2가지 구성 요소를 분리하는 작업을 말한다.
* NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer를 지원

In [5]:
from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched','has','starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


- 표제어 추출은 어간 추출과는 달리 단어의 형태가 적절히 보존되는 양상을 보이는 특징
- 위의 결과에서 -dy, ha같이 의미를 알 수 없는 단어를 출력한다. 이는 표제어 추출기가 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문이다.
    - wordnetlemmatizer에게 위에서 제대로 출력못한 단어를 알려주면 밑과 같다

In [6]:
n.lemmatize('dies', 'v')

'die'

In [7]:
n.lemmatize('watched', 'v')


'watch'

In [8]:
n.lemmatize('has', 'v')

'have'

어간 추출 (Stemming)
===

* 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼수 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고도 볼 수 있다.
* 섬세한 작업은 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있다.

In [12]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [13]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [16]:
#포터 알고리즘
#ALIZE -> AL , ANCE -> 제거 , ICAL -> IC
words=['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electric']


* 어간 추출 속도는 표제어 추출보다 일반적으로 빠르다. 
* 포터 알고리즘 외에도 랭커스터 스태머 알고리즘이 있다. 결과 비교를 해보겠다.

In [17]:
from nltk.stem import PorterStemmer
s=PorterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [18]:
from nltk.stem import LancasterStemmer
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


* 전혀 다른 결과를 보여준다. 그러므로 사용하고자 하는 코퍼스에 스태머를 적용해 보고 어떤 스태머가 해당 코퍼스에 적합한지를 판단한 후에 사용하여야 한다.

한국어에서의 어간 추출
===

* 한국어는 5언 9품사 구조
    * 체언, 수식언, 관계언, 독립언, 용언
    * 명사, 대명사, 수사 / 관형사, 부사 / 조사 / 감탄사 / 동사, 형용사
* 이 중 용언에 해당되는 동사,형용사는 어간+어미의 결합으로 구성된다.

활용
===
* 어간(stem) : 용언을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양도 바뀔수 있음
* 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행

규칙활용
===
* 규칙 활용은 어간이 어미를 취할 때, 어간의 모습이 일정하다.

불규칙 활용
===
* 불규칙 활용은 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우를 말한다.