# 3. 어간 추출(Stemming)과 표제어 추출(Lemmatization)

이번 장에서는 정제 기법 중 코퍼스에 있는 단어의 갯수를 줄일 수 있는 기법인 Lemmatization과 Stemming의 개념에 대해서 알아봅니다. 또한 이 둘의 결과가 어떻게 다른지 이해합니다.

이 두 작업이 갖고있는 의미는 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄여보자는 것입니다. Normalization의 지향점은 언제나 갖고있는 코퍼스를 정제하여 복잡성을 줄이는 일임을 기억합니다.

## 1. 표제어 추출(Lemmatization)

표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것입니다. 형태소란 '의미를 가진 가장 작은 단위'를 뜻합니다. 그리고 형태학(Morphology)이란, 형태소로부터 단어들을 만들어가는 학문을 뜻합니다.

표제어 추출은 단어들이 서로 다른 모습을 갖고있더라도, 그 뿌리 단어를 찾아가서 단어의 갯수를 줄일 수 있는지를 판단합니다. 예를 들어서 am, are, is는 서로 다른 스펠링을 갖고있지만 그 뿌리 단어는 be라고 볼 수 있습니다. 이 때, 이 단어들의 Lemma는 be라고 할 수있습니다.

표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것입니다. 형태소란 '의미를 가진 가장 작은 단위'를 뜻합니다. 그리고 형태학(Morphology)이란, 형태소로부터 단어들을 만들어가는 학문을 뜻합니다.

형태소는 두 가지 종류가 있습니다. 각각 stem(어간)과 affix(접사)입니다.

1) stem(어간)
: 단어의 의미를 담고있는 단어의 핵심 부분.

2) affix(접사)
: 단어에 추가적인 의미를 주는 부분.

형태학적 파싱은 이 두 가지 구성 요소를 분리하는 작업을 말합니다. 가령, cats라는 단어에 대해 형태학적 파싱을 수행한다면, 형태학적 파싱은 결과로 cat(어간)와 -s(접사)를 분리합니다. 물론, 꼭 두 가지로 분리되지 않는 경우도 있습니다. 가령, 단어 fox는 형태학적 파싱을 한다고하더라도 더 이상 분리할 수 없습니다. fox는 독립적인 형태소이기 때문입니다. 이와 유사하게, cat 또한 더 이상 분리되지 않습니다.

In [1]:
import nltk
from nltk.stem import WordNetLemmatizer

n = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
[n.lemmatize(w) for w in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

WordNetLemmatizer는 입력으로 단어의 품사를 지정해줄 수 있습니다. 즉, dies와 watched, has가 문장에서 동사로 쓰였다는 것을 알려준다면 표제어 추출기는 품사의 정보를 보존하면서 정확한 Lemma를 출력하게 될 것입니다.

In [2]:
n.lemmatize('dies', 'v')

'die'

In [3]:
n.lemmatize('watched', 'v')

'watch'

In [4]:
n.lemmatize('has', 'v')

'have'

## 2. 어간 추출(Stemming)

Stem(어간)을 추출하는 작업을 Stemming이라고 합니다. 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있습니다. 다시 말해, 이 작업은 섬세한 작업이 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있습니다.

설명이 어렵게 다가올지라도, 예제를 보면 쉽게 이해할 수 있습니다. 어간 추출 알고리즘 중 하나인 포터 알고리즘(Porter Algorithm)에 아래의 Text를 입력으로 넣는다고 해봅시다.

In [5]:
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


위를 보면, 알고리즘의 결과로서 나온 text는 사전에 없는 단어들도 포함되어 있습니다. 애초 어간 추출은 단순히 규칙에 기반하여 이루어지기 때문입니다.

In [6]:
[s.stem(w) for w in words]

['thi',
 'wa',
 'not',
 'the',
 'map',
 'we',
 'found',
 'in',
 'billi',
 'bone',
 "'s",
 'chest',
 ',',
 'but',
 'an',
 'accur',
 'copi',
 ',',
 'complet',
 'in',
 'all',
 'thing',
 '--',
 'name',
 'and',
 'height',
 'and',
 'sound',
 '--',
 'with',
 'the',
 'singl',
 'except',
 'of',
 'the',
 'red',
 'cross',
 'and',
 'the',
 'written',
 'note',
 '.']

**Stemming**

- am → am
- the going → the go
- having → hav

**Lemmatization**

- am → be
- the going → the going
- having → have