# Stemming Korean and English

@hyyoka

머신러닝은 **데이터에 기반한 모델링 기법**이다. 다시 말해, 머신러닝의 하위 분야에 속하는 자연어 처리(NLP)에서 텍스트 데이터는 매우 중요하다.

</br>

데이터는 크게 두 가지 측면에서 평가한다: "**양과 질**". 모을 수 있는 데이터의 양은 한정되어 있으므로, 모델의 성능을 향상하기 위해서는 가지고 있는 데이터의 질을 높이는 작업이 이루어져야 한다. 

</br>

본 포스트에서는 데이터의 질을 높이기 위한 정규화(Normalization)의 기법 중, **어간 추출(Stemming)**과 **표제어 추출(Lemmatization)**을 다룬다. 

두 기법은 모두 단어의 개수를 줄일 수 있는 방법으로, 보통 단어의 빈도수를 기반으로 하는 BoW 표현을 사용하는 자연어 처리 문제에서 사용된다. 자연어 처리에서 정규화의 지향점은 언제나 코퍼스의 복잡성을 줄이는 일이다. 위의 두 기법은 해당 목표에 기여한다. 




## A.
i. Find out any stemmer or lemmatizer for English on the Internet.

ii. Install the system on your machine, if necessary.

iii. Try stemming and lemmatization with several English words


In [None]:
import nltk
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

import pandas as pd

nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [None]:
# Stemmer와 Lemmatizer 비교

s = PorterStemmer()
n = WordNetLemmatizer()
l = LancasterStemmer()

각각을 평가하기 위해서는, 가장 평범한 텍스트를 가져와야 한다고 생각했다. 따라서, 랜덤한 책을 골라, 첫 페이지의 첫 문단을 옮겨왔다. 

In [None]:
text="""
There was no hope for him this time: it was the third stroke.
Night after night I had passed the house and studied the lighted square of window: 
and night after night I had found it lighted in the same way, faintly and evenly.
If he was dead, I thought, I would see the reflection of candles on the darkened blind for I knew that two candles must be set at the head of a corpse.
"""

In [None]:
words = word_tokenize(text)

stm_p = [s.stem(w) for w in words]
stm_l = [l.stem(w) for w in words]
lem = [n.lemmatize(w) for w in words]

data = [words, stm_p, stm_l, lem]

df1 = pd.DataFrame(data, index=["word", "stem_p","stem_l","lemma"])
df1

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,...,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83
word,There,was,no,hope,for,him,this,time,:,it,was,the,third,stroke,.,Night,after,night,I,had,passed,the,house,and,studied,the,lighted,square,of,window,:,and,night,after,night,I,had,found,it,lighted,...,",",faintly,and,evenly,.,If,he,was,dead,",",I,thought,",",I,would,see,the,reflection,of,candles,on,the,darkened,blind,for,I,knew,that,two,candles,must,be,set,at,the,head,of,a,corpse,.
stem_p,there,wa,no,hope,for,him,thi,time,:,it,wa,the,third,stroke,.,night,after,night,I,had,pass,the,hous,and,studi,the,light,squar,of,window,:,and,night,after,night,I,had,found,it,light,...,",",faintli,and,evenli,.,If,he,wa,dead,",",I,thought,",",I,would,see,the,reflect,of,candl,on,the,darken,blind,for,I,knew,that,two,candl,must,be,set,at,the,head,of,a,corps,.
stem_l,ther,was,no,hop,for,him,thi,tim,:,it,was,the,third,stroke,.,night,aft,night,i,had,pass,the,hous,and,study,the,light,squ,of,window,:,and,night,aft,night,i,had,found,it,light,...,",",faint,and,ev,.,if,he,was,dead,",",i,thought,",",i,would,see,the,reflect,of,candl,on,the,dark,blind,for,i,knew,that,two,candl,must,be,set,at,the,head,of,a,corps,.
lemma,There,wa,no,hope,for,him,this,time,:,it,wa,the,third,stroke,.,Night,after,night,I,had,passed,the,house,and,studied,the,lighted,square,of,window,:,and,night,after,night,I,had,found,it,lighted,...,",",faintly,and,evenly,.,If,he,wa,dead,",",I,thought,",",I,would,see,the,reflection,of,candle,on,the,darkened,blind,for,I,knew,that,two,candle,must,be,set,at,the,head,of,a,corpse,.


위의 텍스트로 분석한 결과, 일정한 오류 규칙이 보였다. 이 현상이 같은 활용형을 가진 다른 단어들에도 적용되나 확인하기 위해 다음의 워드셋을 가져왔다. 

In [None]:
words=['don\'t', 'doing', 'have', 'has','going','goes', 'gone', 'went', 'puppies','living','lives', 'fly', 'mainly', 'dies', 'watched', 'starting','policy', 'organization']

stm = [s.stem(w) for w in words]
lem = [n.lemmatize(w) for w in words]

data = [words, stm, lem]

df2 = pd.DataFrame(data, index=["word", "stem","lemma"])
df2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17
word,don't,doing,have,has,going,goes,gone,went,puppies,living,lives,fly,mainly,dies,watched,starting,policy,organization
stem,don't,do,have,ha,go,goe,gone,went,puppi,live,live,fli,mainli,die,watch,start,polici,organ
lemma,don't,doing,have,ha,going,go,gone,went,puppy,living,life,fly,mainly,dy,watched,starting,policy,organization


## B. Using your system, lemmatize the following words in English.

> cats, loves, running, taking, enjoyed, studied,
simplest, clever, modest, better, linguistics, teeth,
computer 

In [None]:
words="cats loves running taking enjoyed studied simplest clever modest better \
linguistics teeth computer"

print([s.stem(w) for w in words.split(" ")])
print([n.lemmatize(w) for w in words.split(" ")]) 

['cat', 'love', 'run', 'take', 'enjoy', 'studi', 'simplest', 'clever', 'modest', 'better', 'linguist', 'teeth', 'comput']
['cat', 'love', 'running', 'taking', 'enjoyed', 'studied', 'simplest', 'clever', 'modest', 'better', 'linguistics', 'teeth', 'computer']


## C. In your write-up, explain the following. 


### i. What kinds of error did you find?

해당 단어들로 **PorterStemmer**를 이용해본 결과, 다음의 규칙적인 오류가 발견되었다. 

- s: 동사를 명사라고 판단해, s를 떼어버리는 오류 *ex) was -> wa*
- y: 동사나 부사의 끝이 y로 끝나는 경우, 이를 i로 대치 *ex) study -> studi, faintly -> faintli, evenly -> evenli* 
- e: 명사임에도 불구하고, 마지막의 e를 제거하는 오류 *ex) house, square, corpse*
- 명사의 복수형: 복수에서 단수로 되돌리는 과정에서 과잉삭제하는 경우 *ex) candles -> candl*
- 동사의 복수형: 복수에서 단수로 되돌리는 과정에서 과소삭제하는 경우 *ex) goes -> goe*

해당 단어들로 **WordNetLemmatizer**를 이용해본 결과, 전반적으로 오류가 적었지만 그럼에도 불구하고 다음의 오류가 발견되었다. 
- s: 동사를 명사라고 판단해, s를 떼어버리는 오류 *ex) was -> wa, has->ha*
- 동사의 복수형: 복수에서 단수로 되돌리는 과정에서 과소삭제하는 경우 *ex) goes -> goe*
이 외에도, *dies*를 *dy*로 바꾸는 오류가 발생했다. 

</br>

그럼에도 불구하고, 동사의 명사화(ex.-tion) 등의 경우에서는 꽤나 훌륭한 결과를 보였다. 

### ii. Why such an error happens?

앞서 언급했듯, 대부분의 오류는 명사, 동사, 부사 등의 품사를 판별하지 못해 발생했다. 
그러나 이외에도  lie-lay-lain / lay-laid-laid와 같이 활용 형태는 같지만 본 단어는 다른 경우가 문제가 될 수 있다. 

이러한 이유 외에도 이들은 규칙 기반으로 이루어져있기 때문에, 좀 더 섬세한 규칙이 필요하다. 


In [None]:
df1

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,...,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83
word,There,was,no,hope,for,him,this,time,:,it,was,the,third,stroke,.,Night,after,night,I,had,passed,the,house,and,studied,the,lighted,square,of,window,:,and,night,after,night,I,had,found,it,lighted,...,",",faintly,and,evenly,.,If,he,was,dead,",",I,thought,",",I,would,see,the,reflection,of,candles,on,the,darkened,blind,for,I,knew,that,two,candles,must,be,set,at,the,head,of,a,corpse,.
stem_p,there,wa,no,hope,for,him,thi,time,:,it,wa,the,third,stroke,.,night,after,night,I,had,pass,the,hous,and,studi,the,light,squar,of,window,:,and,night,after,night,I,had,found,it,light,...,",",faintli,and,evenli,.,If,he,wa,dead,",",I,thought,",",I,would,see,the,reflect,of,candl,on,the,darken,blind,for,I,knew,that,two,candl,must,be,set,at,the,head,of,a,corps,.
stem_l,ther,was,no,hop,for,him,thi,tim,:,it,was,the,third,stroke,.,night,aft,night,i,had,pass,the,hous,and,study,the,light,squ,of,window,:,and,night,aft,night,i,had,found,it,light,...,",",faint,and,ev,.,if,he,was,dead,",",i,thought,",",i,would,see,the,reflect,of,candl,on,the,dark,blind,for,i,knew,that,two,candl,must,be,set,at,the,head,of,a,corps,.
lemma,There,wa,no,hope,for,him,this,time,:,it,wa,the,third,stroke,.,Night,after,night,I,had,passed,the,house,and,studied,the,lighted,square,of,window,:,and,night,after,night,I,had,found,it,lighted,...,",",faintly,and,evenly,.,If,he,wa,dead,",",I,thought,",",I,would,see,the,reflection,of,candle,on,the,darkened,blind,for,I,knew,that,two,candle,must,be,set,at,the,head,of,a,corpse,.


In [None]:
df2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17
word,don't,doing,have,has,going,goes,gone,went,puppies,living,lives,fly,mainly,dies,watched,starting,policy,organization
stem,don't,do,have,ha,go,goe,gone,went,puppi,live,live,fli,mainli,die,watch,start,polici,organ
lemma,don't,doing,have,ha,going,go,gone,went,puppy,living,life,fly,mainly,dy,watched,starting,policy,organization


### iii. Which linguistic features should be added into the system for better performance?

위에서 언급했듯, 일차적으로는 품사정보를 넘겨주어 성능을 향상할 수 있다. 실제로, WordNetLemmatizer에 품사정보를 넘겨주면 훨씬 좋은 성능을 보이는 것을 확인할 수 있다. 

In [None]:
n.lemmatize('does')

'doe'

In [None]:
n.lemmatize('does', 'v')

'do'

또 다르게는 문장의 맥락 정보를 넘겨줄 수 있다. 하지만 이는 단순히 하나의 단어를 보는 것이 아닌 훨씬 큰 차원의 문제이다. 따라서, wordnet을 이용해 좀 더 구체적인 word sense를 넘겨주는 것이 해결책이 될 수 있을 것이다. 

