all exercises based on [Introduction to Deep Learning for NLP, wikidocs](https://wikidocs.net/21693)

데이터 정제 및 정규화의 목적<br>
- 정제(cleaning): 코퍼스의 노이즈 데이터 제거
- 정규화(normalization): 표현 방법이 다른 단어들을 통합, 같은 단어로

Tokenization 전후로 이루어짐. 완벽한 정제는 사실상 없음

## Lemmatization (표제어 추출)

In [1]:
from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [2]:
# dy, life, ha 등 이상한 결과 나옴 -> 단어의 품사정보 알려주면 보다 정확
n.lemmatize('dies', 'v')

'die'

In [3]:
n.lemmatize('lives', 'v')

'live'

In [4]:
n.lemmatize('has', 'v')

'have'

In [5]:
n.lemmatize('doing', 'v')

'do'

## Stemming (어간 추출)

lemmatization은 단어의 원형을 보존한 기본형(표제어)을 추출하는 것에 비해, stemming은 어간만 추출하기 때문에 단어 형태가 보존되지 않음.<br>
**lemmatization**은 단어 단위, **stemming**은 형태소 단위 라고 생각할 수 있음 (단, 한국어 용언의 '어간'과 영어의 stemming에서의 stem은 좀 다른 의미이긴 한 듯..! 영어 단어에서는 정말 그 origin에 해당하는 부분을 가져오는 것을 시도)

In [6]:
from nltk.stem import PorterStemmer # Porter Algorithm: 어간 추출 알고리즘 중 하나
from nltk.tokenize import word_tokenize # cf. word_tokenize / WordPunctTokenizer / TreebankWordTokenizer / sent_tokenize
s = PorterStemmer() # stem의 대상은 tokenize된 단어
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [7]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


단순 규칙에 기반해 이루어짐

Porter 알고리즘의 상세 규칙은 마틴 포터의 홈페이지에서 확인 가능!

Porter Stemmer은 정밀하게 설계되어 정확도가 높은 편. 영어 자연어처리에서 어간 추출 시 준수한 선택.

기타 어간 추출 알고리즘 in NLTK: Lancaster Stemmer

In [8]:
# Porter Stemmer와 Lancaster Stemmer의 결과 비교

from nltk.stem import PorterStemmer
s = PorterStemmer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [9]:
from nltk.stem import LancasterStemmer
s = LancasterStemmer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


이런 규칙 기반의 어간 추출 알고리즘들은 제대로된 일반화가 어려울 수 있음. 지나친 일반화 혹은 부족한 일반화