## 정규화
* 규칙에 기반한 표기가 다른 단어들의 통합
    * USA-US, uh-huh-uhhuh
    * 어간 추출(stemming), 표제어 추출(lemmatizaiton) : 단어의 개수를 줄임    
* 대, 소문자 통합

In [None]:
'''
[Stemming]
am → am
the going → the go
having → hav

[Lemmatization]
am → be
the going → the going
having → have
'''

### 표제어 추출(Lemmatization)
* 표제어 뜻 : 기본 사전형 단어
* am, are, is - be로 통일
* 형태소(의미를 가진 가장 작은 단위) : 어간(stem)과 접사(affix)
    * 어간(stem) : 의미를 담고 있는 단어의 핵심 부분
    * 접사(affix) : 단어에 추가적인 의미를 주는 부분
* 형태학적 파싱(어간과 접사를 분리하는 작업) 
    * cats : cat(어간) + s(접사)
* 품사의 정보를 보존

In [1]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [2]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [3]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [4]:
lemmatizer.lemmatize('has', 'v')

'have'

### 어간 추출(Stemming)
* 어림짐작의 작업
* 품사의 정보를 보존하지 않음

In [None]:
'''
[포터 알고리즘 규칙]

ALIZE → AL
ANCE → 제거
ICAL → IC

formalize → formal
allowance → allow
electricical → electric
'''

* 포터 알고리즘

In [6]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()
sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

tokenized_sentence = word_tokenize(sentence)
print('어간 추출 전 :', tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [7]:
words = ['formalize', 'allowance', 'electricical']

print('어간 추출 전 :',words)
print('어간 추출 후 :',[stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical']
어간 추출 후 : ['formal', 'allow', 'electric']


* 랭커스터 스태머(Lancaster Stemmer) 알고리즘

In [8]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:',[porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후:',[lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


## 정제
* 불필요한 단어(노이즈 데이터)의 제거
    * 등장 빈도가 적은 단어
    * 길이가 짧은 단어(영어 단어 : 길이 6-7정도, 한국어 단어 : 2-3정도면 짧다)

In [None]:
import re  # 정규 표현식