# 03) 어간 추출(Stemming) and 표제어 추출(Lemmatization)

단어 형태 변화에 의해 다른 단어로 인식이 되나 그 Root를 찾아서 하나의 단어로 일반화하는 작업


- 어간 | stem : 한국어에서 동사, 영어는 명사, 동사, 변하지 않는 부분

- 어미 | ending : 변하는 부분

예: 달리다, 달리는, 달리고, 달리던, ....



- 어근 | root: 변하지 않는 부분

- 접사 | affix: (변하는 부분) 어근에 붙어서 어근의 내용을 제한하는 부분(prefix, suffix, infix)

예: 햇과일/과일, 짓누르다/누르다

- 어간 추출: stemming

규칙 기반, pos 고려하지 않음. 대부분 결과가 부정확

-s, s지워라 => hypothesis -> hypothesi

smiling(n) -> smile(v) => pos tag info가 저자오디지 않는다.
  

- 표제어 추출: lemmatization

wordnet 사전을 활용. pos info 활용. smile(n)

#### 이유/효과
1) 연산량이 줄어든다.(작업효율성 높아짐) 2) 효율성 높아짐

### 1. 표제어 추출(Lemmatization)

What is Lemma?

am, are, is -> they are all from "be". So "be" is lemma.

Lemma를 추출하기 위해서는 단어의 형태학적 파싱을 해야한다.

What is morph? -> 의미를 가진 가장 작은 단위
1) Stem(어간) - 단어의 의미를 담고 있는 핵심 부분
2) Affix(접사) - 단어에 추가적인 의미를 주는 부분

-> 단어를 이 두가지 구성 요소로 분리하는 작업을 형태학적 파싱이라고 한다.

ex) cats -> cat(stem) + s(suffix)


In [7]:
import nltk
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['hypothese','policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print("Before extracting lemma : ", words)
print("After extracting lemma : ", [lemmatizer.lemmatize(word) for word in words])

Before extracting lemma :  ['hypothese', 'policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
After extracting lemma :  ['hypothese', 'policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Erin\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


lemmatization은 어간 추출과 달리 단어의 형태가 어느정도 보존이 된다.

하지만 die의 dy, has의 ha처럼 이상하게 출력되는 경우가 있는데

이는 lemmatizer가 단어의 품사 정보를 알아야 그를 바탕으로 정확한 결과를 얻을 수 있기 때문이다.

WordNetLemmatizer는 단어와 단어의 품사를 정확히 입력하면 그에 맞게 lemma를 출력한다.

In [3]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [4]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [5]:
lemmatizer.lemmatize('have', 'v')

'have'

In [6]:
lemmatizer.lemmatize('hypothese', 'n')

'hypothese'

### 2. 어간 추출 Stemming

정해진 규칙을 보고 접사를 제거하는 작업

섬세한 작업은 아니기 때문에 사전에 존재하지 않는 단어가 나올 수도 있음.

ex) Porter's Algorithm

In [8]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전 :', tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


Porter's Algorithm은 규칙 기반 중 일부

-ALIZE → AL -ANCE → 제거 -ICAL → IC

ex) formalize → formal  allowance → allow electricical → electric

In [10]:
words = ['formalize', 'allowance', 'electricical', 'hypothese']

print('어간 추출 전 :',words)
print('어간 추출 후 :',[stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical', 'hypothese']
어간 추출 후 : ['formal', 'allow', 'electric', 'hypothes']


Porter's algorithm외에 Lancaster Stemmer도 있다. 이 둘은 서로 다른 알고리즘으로 진행하기 때문에 결과가 다르게 나온다.



In [15]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:',[porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후:',[lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


In [18]:
word1 = 'cooking cooked cookery cooker cooks'.split()
print(word1)
print("Porter: ", [porter_stemmer.stem(w) for w in word1])
print("Lancaster: ", [lancaster_stemmer.stem(w) for w in word1])

['cooking', 'cooked', 'cookery', 'cooker', 'cooks']
Porter:  ['cook', 'cook', 'cookeri', 'cooker', 'cook']
Lancaster:  ['cook', 'cook', 'cookery', 'cook', 'cook']


In [20]:
word_list = 'friend friendship friends friendships \
stable destabilize misunderstanding railroad moonlight football'.split()

print('{0:^20}{1:^20}{2:^20}'.format('[Word]', '[Lancaster]', '[Porter]'))
for word in word_list:
    # 각각에 20개씩 스페이스를 줄 것
    print('{0:^20}{1:^20}{2:^20}'.format(word, lancaster_stemmer.stem(word), porter_stemmer.stem(word)))

       [Word]           [Lancaster]           [Porter]      
       friend              friend              friend       
     friendship            friend            friendship     
      friends              friend              friend       
    friendships            friend            friendship     
       stable              stabl               stabl        
    destabilize             dest              destabil      
  misunderstanding     misunderstand       misunderstand    
      railroad            railroad            railroad      
     moonlight           moonlight           moonlight      
      football            footbal             footbal       


In [25]:
words = ['am', 'the going', 'having']
print("Stemming: ", [porter_stemmer.stem(w) for w in words])
print("Lemmatization: ", [lemmatizer.lemmatize(w, 'v') for w in words])

Stemming:  ['am', 'the go', 'have']
Lemmatization:  ['be', 'the going', 'have']


### 3. 한국어에서의 어간 추출

* 체언 - 명사, 대명사, 수사
* 수식언 - 관형사, 부사
* 관계언 - 조사
* 독립언 - 감탄사
* 용언 - 동사, 형용사 -> 어간+어미


1) 활용(conjugation) = 어간, 어미를 가짐.
- 어간 | stem : 한국어에서 동사, 영어는 명사, 동사, 변하지 않는 부분

- 어미 | ending : 변하는 부분

예: 달리다, 달리는, 달리고, 달리던, ....



- 어근 | root: 변하지 않는 부분

- 접사 | affix: (변하는 부분) 어근에 붙어서 어근의 내용을 제한하는 부분(prefix, suffix, infix)

예: 햇과일/과일, 짓누르다/누르다

활용은 어간이 어미를 취할 때, 어간의 모습이 일정하다면 규칙 활용, 어간이나 어미의 모습이 변하는 불규칙 활용으로 나뉜다.

ex) 규칙 활용

잡/어간 다/어미 - 어미 붙기전 과 붙은 후의 모습이 같음.

ex) 불규칙 활용

듣/들-, 돕-/도우-, 곱/고우- ......