# 딥 러닝을 이용한 자연어 처리 입문

https://wikidocs.net/22660

## 02. 텍스트 전처리(text preprocessing)

분석에 앞서 텍스트를 사전에 분류하는 작업

### 02-3 어간 추출(Stemming) 과 표제어 추출(Lemmatization) 

단어의 갯수를 줄일 수 있는 기법

의미

- 하나의 단어로 일반화 시키는 것
- 코퍼스로부터의 복잡성을 줄이는 것


### 1. 표제어 추출(Lemmatization)

Lemma : 표제어, 기본 사전형 단어

ex) is, was, does, do.. -> be

형태학적(가장 작은 의미의 단위) 파싱을 진행 : 형태소 종류로 나눈는 것

형태소 종류
    
    1. 어간(stem) : 단어의 의미를 담고 있는 부분
    2. 접사(affix) : 단어에 의미를 추가하는 부분
    
    
ex) cats -> cat(어간) + s(접사)

In [2]:
import nltk

from nltk.stem import WordNetLemmatizer

n = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

[n.lemmatize(w) for w in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

위의 결과
has -> ha : 알수 없는 의미
    
표제어 추출기의 특성
- 본래 단어의 품사를 알아야 정확한 결과를 얻을 수 있다.

In [5]:
# 함수에 품사를 넘겨주어 정확한 결과를 얻는다.
n.lemmatize('dies', 'v')

'die'

In [6]:
n.lemmatize('watches','v')

'watch'

In [7]:
n.lemmatize('has','v')

'have'

### 2. 어간 추출(Stemming)

형태학적 분석의 단순화 버전

정해진 규칙만 보고 단어의 어미를 어림잡아 자르는 작업


따라서, 결과물이 사전에 존재하지 않을 수 있다.

#### PorterStemmer

결과 : 
was -> wa 로 사전에 없는 단어로 어간이 추출되었다.

porterstemmer의 특징 : 단순히, 특정 조건에 의해 어간을 추출하였기 때문

In [11]:
# 1. 코퍼스로부터 단어를 추출한다. 코퍼스 -> 단어
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

s = PorterStemmer()

text= "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)

# 단어로부터 어간을 추출한다. 단어 -> 어간

words_stem = [s.stem(w) for w in words]

print('단어 : 어간 dictionary')

print(dict(zip(words, words_stem)))



단어 : 어간 dictionary
{'This': 'thi', 'was': 'wa', 'not': 'not', 'the': 'the', 'map': 'map', 'we': 'we', 'found': 'found', 'in': 'in', 'Billy': 'billi', 'Bones': 'bone', "'s": "'s", 'chest': 'chest', ',': ',', 'but': 'but', 'an': 'an', 'accurate': 'accur', 'copy': 'copi', 'complete': 'complet', 'all': 'all', 'things': 'thing', '--': '--', 'names': 'name', 'and': 'and', 'heights': 'height', 'soundings': 'sound', 'with': 'with', 'single': 'singl', 'exception': 'except', 'of': 'of', 'red': 'red', 'crosses': 'cross', 'written': 'written', 'notes': 'note', '.': '.'}


#### Lancaster Stemmer

In [12]:
import nltk
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
s = PorterStemmer()
l = LancasterStemmer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('Porter Stemmer 결과' + '=' * 50)
print(dict(zip(words, [s.stem(w) for w in words])))

print('Porter Stemmer 결과' + '=' * 50)
print(dict(zip(words, [l.stem(w) for w in words])))


{'policy': 'polici', 'doing': 'do', 'organization': 'organ', 'have': 'have', 'going': 'go', 'love': 'love', 'lives': 'live', 'fly': 'fli', 'dies': 'die', 'watched': 'watch', 'has': 'ha', 'starting': 'start'}
{'policy': 'policy', 'doing': 'doing', 'organization': 'org', 'have': 'hav', 'going': 'going', 'love': 'lov', 'lives': 'liv', 'fly': 'fly', 'dies': 'die', 'watched': 'watch', 'has': 'has', 'starting': 'start'}
