코퍼스에 있는 단어의 개수를 줄일 수 있는 기법인 **표제어 추출(lemmatization)과 어간 추출(stemming)**

### 표제어 추출(Lemmatization)
* 표제어(Lemma): '표제어' 또는 '기본 사전형 단어'
* 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단
* 예시)  am, are, is => 뿌리 단어, 표제어 be


**단어의 형태학적 파싱(형태소의 구성 요소 분리)을 먼저 진행**

형태소 => 어간(stem), 접사(affix)

In [1]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\AJW\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [3]:
from nltk.stem import WordNetLemmatizer

n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

# 표제어 추출은 어간 추출과는 달리 단어의 형태가 적절히 보존되는 양상을 보이는 특징이 있다.
# 하지만, dy나 ha와 같이 의미를 알 수 없는 적절하지 못한 단어를 출력
# 이는 표제어 추출기(lemmatizer)가 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문 =>

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [4]:
# 단어가 동사 품사라는 사실을 알려주기

n.lemmatize('dies','v')

'die'

In [5]:
n.lemmatize('watched','v')

'watch'

In [6]:
n.lemmatize('has', 'v')

'have'

### 어간 추출(Stemming)
* 어간 추출: 어간(Stem)을 추출하는 작업
* 형태학적 분석을 단순화한 버전 or 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업

#### 어간 추출 알고리즘 중 하나인 포터 알고리즘(Porter Algorithm)

포터 알고리즘의 어간 추출 규칙
* ALIZE → AL
* ANCE → 제거
* ICAL → IC

어간 추출 속도는 표제어 추출보다 일반적으로 빠른데, 포터 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택이다.

*Porter 알고리즘의 상세 규칙은 마틴 포터의 홈페이지에서 확인할 수 있다.*

In [2]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [4]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [None]:
# 포터 알고리즘과 랭커스터 스태머 알고리즘(Lancaster Stemmer Algorithm) 결과 비교

