# Stemming(어간 추출) and Lemmatization(표제어 추출)
- 지금까지의 자연어 처리의 단계는 단어의 개수를 줄이는데 초점이 맞춰짐
    - 결국 표본공간의 크기를 줄이는 것이 중요
- 이 단계는 표면적 의미가 아닌 실제 의미가 같으면 하나의 단어로 일반화하는 과정
- 표제어 추출 과정은 어간 추출보다 사용된 형태를 잘 보존하는 양상을 보임
    - 표제어 추출은 POS 태그를 보존함
    - 어간 추출은 사전에 존재하지 않는 형태로 출력하는 경우도 있음

In [2]:
# Lemma = 표제어, 기본형(뿌리) 단어 ex) am, are is -> be
# Stem = 어간, 실제 의미를 담고 있는 핵심 부분
# affix = 접사, 추가적 의미를 부여하는 부분

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
words =  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([lemmatizer.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [3]:
# 'dy'같은 형태가 출력되는 것은, 표제어 추출 과정에서 품사정보가 필요하기 때문
lemmatizer.lemmatize('dies', 'v')

'die'

### Stemming

In [13]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
porter_stemmer = PorterStemmer()
text = "The same research also revealed the network of 257 World Heritage forests around the world collectively removed 190 million tonnes of carbon from the atmosphere every year."
words = word_tokenize(text)
print(words)

['The', 'same', 'research', 'also', 'revealed', 'the', 'network', 'of', '257', 'World', 'Heritage', 'forests', 'around', 'the', 'world', 'collectively', 'removed', '190', 'million', 'tonnes', 'of', 'carbon', 'from', 'the', 'atmosphere', 'every', 'year', '.']


In [14]:
# 어간 추출은 단순 규칙 기반이기 때문에 remov, heritag 같은 단어가 등장함
print([porter_stemmer.stem(w) for w in words])

['the', 'same', 'research', 'also', 'reveal', 'the', 'network', 'of', '257', 'world', 'heritag', 'forest', 'around', 'the', 'world', 'collect', 'remov', '190', 'million', 'tonn', 'of', 'carbon', 'from', 'the', 'atmospher', 'everi', 'year', '.']


In [15]:
# 상기했듯이, 단순 규칙기반이기 때문에 알고리즘별 규칙 차이가 존재함
from nltk.stem import LancasterStemmer
lancaster_stemmer = LancasterStemmer()
print([lancaster_stemmer.stem(w) for w in words])

['the', 'sam', 'research', 'also', 'rev', 'the', 'network', 'of', '257', 'world', 'herit', 'forest', 'around', 'the', 'world', 'collect', 'remov', '190', 'mil', 'ton', 'of', 'carbon', 'from', 'the', 'atmosph', 'every', 'year', '.']


In [16]:
words = ['political', 'allowance', 'electricical', 'organization']
print([stemmer.stem(w) for w in words])

['polit', 'allow', 'electric', 'organ']


- 'organization'과 'organ'은 전혀 관계없는 단어임에도 단순 규칙에 따라 어간 추출을 진행하기 때문에 유의해야 한다