정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법 : 표제어 추출, 어간 추출

눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄인다.

# 1. 표제어 추출(Lemmatization)
표제어 : 기본 사전형 단어
표제어 추출 : 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단  
ex) be→am, are, is  : 표제어는 be

형태소 : 어간과 접사

#### 1) 어간(stem)
: 단어의 의미를 담고 이는 단어의 핵심 부분
#### 2) 접사(affix)
: 단어에 추가적인 의미를 주는 부분

ex) cats : cat(어간)+-s(접사)

In [3]:
from nltk.stem import WordNetLemmatizer

lemmatizer=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :', words)
print('표제어 추출 후 :', [lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [4]:
lemmatizer.lemmatize('dies','v')

'die'

In [5]:
lemmatizer.lemmatize('watched','v')

'watch'

In [6]:
lemmatizer.lemmatize('doing','v')

'do'

In [7]:
lemmatizer.lemmatize('has','v')

'have'

# 2. 어간 추출(Stemming)
**This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes.**

In [9]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer=PorterStemmer()

sentence="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence=word_tokenize(sentence)

print('어간 추출 전 :',tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


Porter 알고리즘의 어간 추출 규칙
- ALIZE → AL
- ANCE → 제거
- ICAL → IC


- formalize → formal
- allowance → allow
- electrical → electric

In [12]:
from nltk.stem import PorterStemmer

stemmer=PorterStemmer()

words=['formalize','allowance','electricical']
print('어간 추출 전 :', words)
print('어간 추출 후 :',[stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical']
어간 추출 후 : ['formal', 'allow', 'electric']


In [15]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer=PorterStemmer()
lancaster_stemmer=LancasterStemmer()

words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('어간 추출 전 :',words)
print('Porter 어간 추출 후 :',[porter_stemmer.stem(word) for word in words])
print('Lancaster 어간 추출 후 :',[lancaster_stemmer.stem(word) for word in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
Porter 어간 추출 후 : ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
Lancaster 어간 추출 후 : ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


# 3. 한국어에서의 어간 추출
5언 9품사  

|**언**|**품사**|
|:---|:---|
|체언|명사, 대명사, 수사|
|수식언|관형사, 부사|
|관계언|조사|
|독립언|감탄사|
|**용언**|**동사, 형용사**|

용언에 해당되는 동사와 형용사는 어간과 어미의 결합으로 구성된다.

#### (1) 활용 (conjugation)
활용 : 용언의 어간이 어미를 가지는 일
**어간** : 용언을 활용할 때, 원칙적으로 모양이 변하지 않는 부분 ex) 긋다, 긋고, 그어서, 그어라
**어미** : 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분

활용은 어간이 어미를 취할 때, 어간의 모습이 일정하다면 규칙 활용 , 어간이나 어미의 모습이 변하는 불규칙 활용으로 나뉜다.

#### (2) 규칙 활용
> 잡/어간 + 다/어미
어간이 어미가 붙기전의 모습과 어미가 붙은 후의 모습이 같으므로, 규칙 기반으로 어미를 단순히 분리해주면 어간이 추출된다.

#### (3) 불규칙 활용
> '듣/들-, 돕/도우-,곱/고우-'와 같이 어간의 형식이 달라지는 일

> '오르+아/어→올라, 하+아/어→하여, 이르+아/어→이르러'와 같이 일반적인 어미가 아닌 특수한 어미를 취하는 경우