# Normalization 

## 표제어 추출(Lemmatization)

- 표제어(Lemma)는 한글로는 '표제어' 또는 '기본 사전형 단어' 정도의 의미를 갖습니다. 표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단합니다.

## 어간 추출(Stemming)

- 어간(Stem)을 추출하는 작업을 어간 추출(stemming)이라고 합니다. 

In [15]:
import pandas as pd
import spacy
spacy_en = spacy.load('en_core_web_sm')
from nltk.stem import (PorterStemmer,
                       LancasterStemmer,
                       WordNetLemmatizer)

In [7]:
text = "Tesla’s 4680 battery is 46 millimeters in diameter and 80 millimeters in length, and offers six times the power of the carmaker’s previous cells and five times the energy capacity."

In [8]:
PS = PorterStemmer()
LS = LancasterStemmer()
NL = WordNetLemmatizer()

In [11]:
words = list(spacy_en(text))
words

[Tesla,
 ’s,
 4680,
 battery,
 is,
 46,
 millimeters,
 in,
 diameter,
 and,
 80,
 millimeters,
 in,
 length,
 ,,
 and,
 offers,
 six,
 times,
 the,
 power,
 of,
 the,
 carmaker,
 ’s,
 previous,
 cells,
 and,
 five,
 times,
 the,
 energy,
 capacity,
 .]

In [18]:
PS_S = [PS.stem(word.text) for word in words]
LS_S = [LS.stem(word.text) for word in words]
NL_L = [NL.lemmatize(word.text) for word in words]
SP_S = [w.lemma_ for w in words]

data = [words, PS_S, LS_S, NL_L, SP_S]

df = pd.DataFrame(data, index = ['words', 'PorterStemmer', 'LancasterStemmer', 'WordNetLemmatizer','SpacyLemmatizer'])
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,24,25,26,27,28,29,30,31,32,33
words,Tesla,’s,4680,battery,is,46,millimeters,in,diameter,and,...,’s,previous,cells,and,five,times,the,energy,capacity,.
PorterStemmer,tesla,’s,4680,batteri,is,46,millimet,in,diamet,and,...,’s,previou,cell,and,five,time,the,energi,capac,.
LancasterStemmer,tesl,’s,4680,battery,is,46,millimet,in,diamet,and,...,’s,prevy,cel,and,fiv,tim,the,energy,capac,.
WordNetLemmatizer,Tesla,’s,4680,battery,is,46,millimeter,in,diameter,and,...,’s,previous,cell,and,five,time,the,energy,capacity,.
SpacyLemmatizer,Tesla,’s,4680,battery,be,46,millimeter,in,diameter,and,...,’s,previous,cell,and,five,time,the,energy,capacity,.


In [22]:
text2 = "he's, can't, have, has, going, goes, gone, went"

words2 = list(spacy_en(text2))

PS_S = [PS.stem(word.text) for word in words2]
LS_S = [LS.stem(word.text) for word in words2]
NL_L = [NL.lemmatize(word.text) for word in words2]
SP_S = [w.lemma_ for w in words2]

data = [words2, PS_S, LS_S, NL_L, SP_S]

df = pd.DataFrame(data, index = ['words', 'PorterStemmer', 'LancasterStemmer', 'WordNetLemmatizer','SpacyLemmatizer'])
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
words,he,'s,",",ca,n't,",",have,",",has,",",going,",",goes,",",gone,",",went
PorterStemmer,he,'s,",",ca,n't,",",have,",",ha,",",go,",",goe,",",gone,",",went
LancasterStemmer,he,'s,",",ca,n't,",",hav,",",has,",",going,",",goe,",",gon,",",went
WordNetLemmatizer,he,'s,",",ca,n't,",",have,",",ha,",",going,",",go,",",gone,",",went
SpacyLemmatizer,-PRON-,be,",",can,not,",",have,",",have,",",go,",",go,",",go,",",go


- 첫번째 dataframe을 확인해본 결과 동사를 처리했을 때 결과들을 보고 이상하다고 느껴 동사만 따로 분석해봤다. 두번째 dataframe을 보면 PorterStemmer와 WordNetLemmatizer는 'has'에서 's'가 빠져있고 'goes'에서도 's'가 빠져있다. 아마도 동사를 명사로 인식해서 모두 's'를 뺀것 같았고 SpacyLemmatizer를 보면 동사 모두 적절한 어간을 추출했다. 그리고 아포스트로피로 생략된 clitic 부분에서도 not으로 원래 단어를 뽑아왔다. 위의 결과로 보면 성능은 SpacyLemmatizer가 제일 좋아보인다.