- 표제어 추출(lemmatization) & 어간 추출(stemming): 코퍼스에 있는 단어의 개수를 줄일 수 있는 정규화 기법
- 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이는 것
- 주로 단어의 빈도수를 기반으로 문제를 풀고자 하는 BoW(Bag of Words) 표현을 사용하는 자연어 처리 문제에서 사용

- 자연어 처리에서 정규화의 지향점은 갖고있는 코퍼스의 복잡성을 줄이는 것!

# 1. 표제어 추출(Lemmatization)

- 표제어(Lemma): '기본 사전형 단어'
- 표제어 추출(Lemmatization): 단어들로부터 표제어를 찾는 과정
- ex) am / are / is -> 표제어 'be'

- '의미를 가진 가장 작은 단위' 형태소를 기반으로 형태학적 파싱을 진행
- 1. 어간(stem): 단어의 의미를 담고 있는 단어의 핵심 부분
- 2. 접사(affix): 단어에 추가적인 의미를 주는 부분
- 형태학적 파싱: 어간과 접사를 분리하는 작업
- ex) cats -> cat(어간) + -s(접사)

NLTK 'WordNetLemmatizer'

In [1]:
import nltk
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
[n.lemmatize(w) for w in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

- 단어의 형태가 적절히 보존
- 문맥을 고려하며, 수행했을 때의 결과는 해당 단어의 품사 정보를 보존(POS 태그를 보존)
- 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있음
- ex) 동사인 dies와 has를 넣었을 때 dy와 ha와 같이 의미를 알 수 없는 적절하지 못한 단어를 출력)

In [2]:
n.lemmatize('dies','v')

'die'

In [3]:
n.lemmatize('watched','v')

'watch'

In [4]:
n.lemmatize('has','v')

'have'

# 2. 어간 추출(Stemming)

- 어간 추출(stemming): 어간(stem)을 추출하는 작업
- 형태학적 분석을 단순화한 버전
- 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업
- 섬세한 작업이 아닉 단순 규칙에 기반하여 이루어지기 때문에 어간 추출 후에 나오는 결과 단어가 사전에 존재하지 않을 수 있음(POS 태그를 고려하지 않음)
- 일반화가 지나치게 되거나 일반화가 덜 될 수 있음
- ex) organization과 organ은 완전히 다른 단어임에도 어간 추출을 할 경우 organ이라는 같은 어간을 갖게 됨(어간 추출의 목적에 맞지 않음)

NLTK 'Porter Algorithm'

In [5]:
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [8]:
[s.stem(w) for w in words]

['thi',
 'wa',
 'not',
 'the',
 'map',
 'we',
 'found',
 'in',
 'billi',
 'bone',
 "'s",
 'chest',
 ',',
 'but',
 'an',
 'accur',
 'copi',
 ',',
 'complet',
 'in',
 'all',
 'thing',
 '--',
 'name',
 'and',
 'height',
 'and',
 'sound',
 '--',
 'with',
 'the',
 'singl',
 'except',
 'of',
 'the',
 'red',
 'cross',
 'and',
 'the',
 'written',
 'note',
 '.']

Porter Algorithm의 규칙 (상세 규칙은 마틴 포터의 홈페이지에서 확인 가능)
- alize -> al
- ance -> 제거
- ical -> ic

In [9]:
import nltk
from nltk.stem import PorterStemmer
s = PorterStemmer()
words=['formalize', 'allowance', 'electricical']
[s.stem(w) for w in words]

['formal', 'allow', 'electric']

NLTK 'Porter Algorithm' VS NLTK 'Lancaster Stemmer Algorithm'

In [11]:
#Porter Algorithm(포터 알고리즘)
import nltk
from nltk.stem import PorterStemmer
s=PorterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
[s.stem(w) for w in words]

['polici',
 'do',
 'organ',
 'have',
 'go',
 'love',
 'live',
 'fli',
 'die',
 'watch',
 'ha',
 'start']

In [15]:
#Lancaster Stemmer Algorithm(랭커스터 스태머 알고리즘)
import nltk
from nltk.stem import LancasterStemmer
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
[l.stem(w) for w in words]

['policy',
 'doing',
 'org',
 'hav',
 'going',
 'lov',
 'liv',
 'fly',
 'die',
 'watch',
 'has',
 'start']

- 어간 추출 알고리즘은 서로 다른 알고리즘을 사용하기 때문에 결과값이 다르게 나옴
- 따라서 이미 알려진 알고리즘을 사용할 때는, 사용하고자 하는 코퍼스에 어간 추출 알고리즘을 적용해보고 어떤 알고리즘이 해당 코퍼스에 적합한지를 판단한 후에 사용해야 함

- 표제어 추출(Lemmatization) VS 어간 추출(Stemming)

- Lemmatization  
am → be  
the going → the going  
having → have

- Stemming  
am → am  
the going → the go  
having → hav

# 한국어에서의 어간 추출

- 용언(동사, 형용사): 어간(stem) + 어미(ending)

1. 규칙 활용  
어간이 어미가 붙기 전의 모습과 어미가 붙은 후의 모습이 같기 때문에, 규칙을 기반으로 어미를 단순히 분리해주면 됨

2. 불규칙 활용  
어간이 어미가 붙는 과정에서 모습이 바뀌었기 때문에 좀 더 복잡한 규칙이 필요함  
ex) 듣/들, 돕/도우, 곱/고우, 오르+아->올라, 하+어->하여, 이르+어->이르러

끝 191008 ver.