#  표제어 추출 (Lemmatization) , 어간 추출 (Stemming)



- 표제어 추출 (Lemmatization)
  - 우선 Lemma라고 부르는 단어는 우리나라 말로 번역할 때 '표제어'라는 단어로 번역이 되고, 의미로는 '기본 사전형 단어' 정도의 의미를 갖는다.
  - 표제어 추출을 하는 이유는 단어들이 다른 형태를 가지더라도 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단하는데 쓴다.
  - ex : am, are is 의 표제어는 be 라고 볼 수 있다.

- 어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분.
- 접사(affix) : 단어에 추가적인 의미를 주는 부분.

NLTK 에서는 표제어 추출을 위한 도구인 WordNetLemmatizer를 지원하고, 이를 통해 실습해볼 수 있다.

In [1]:
!pip install NLTK



In [14]:
import nltk
nltk.download('wordnet')
nltk.download('punkt_tab')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [5]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 : ', words)
print('표제어 추출 후 : ', [lemmatizer.lemmatize(word) for word in words])

# 표제어 추출 전 :  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
# 표제어 추출 후 :  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']
# 표제어 추출의 경우 단어 형태가 적절히 보존되긴 함.
# 하지만 dy나 ha 처럼 오류가 나기도 하는데, 표제어 추출기(lemmatizer)가 본래 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문임.

표제어 추출 전 :  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 :  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [10]:
# WordNetLemmatizer는 입력으로 단어가 동사 품사를 알려줄 수 있음.
# 예시

lemmatizer.lemmatize('dies', 'v')

'die'

In [7]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [8]:
lemmatizer.lemmatize('has', 'v')

'have'

- 어간 추출(Stemming)
어간(Stem)을 추출하는 작업을 어간 추출(stemming)이라고 함. 형태학적 분석을 단순화한 버전이라 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있음.

In [15]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

senentece = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(senentece)

print('어간 추출 전 : ', tokenized_sentence)
print('어간 추출 후 : ', [stemmer.stem(word) for word in tokenized_sentence])

# Porter 알고리즘의 상세 규칙은 마틴 포터의 홈페이지에서 확인할 수 있지만, 규칙 기반의 접근을 하고 있기 때문에 사전에 없는 단어가 다수 포함되어 있다.

어간 추출 전 :  ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 :  ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [16]:
# 일부 규칙 예시
words = ['formalize', 'allowance', 'electricical']

print('어간 추출 전 : ', words)
print('어간 추출 후 : ', [stemmer.stem(word) for word in words])

# alize => al , ance => 제거함, ical => ic 로 변환됨을 알 수 있음.

어간 추출 전 :  ['formalize', 'allowance', 'electricical']
어간 추출 후 :  ['formal', 'allow', 'electric']


In [17]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('어간 추출 전 : ', words)
print('포터스테머의 어간 추출 후 : ', [porter_stemmer.stem(word) for word in words])
print('랭커스터 스테머의 어간 추출 후 : ', [lancaster_stemmer.stem(word) for word in words])

어간 추출 전 :  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터스테머의 어간 추출 후 :  ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후 :  ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']
