# Stemming과 Lemmatization을 쓰는 이유

단어의 종류가 너무 많다..

이전 Feature extraction의 예시를 보면, 빈도수로 사전을 만드는 경우가 존재
단어의 개수가 많아지면, 단어 count문제 및 메모리 문제가 발생

복잡성을 줄여주자!!

ex) like, likes / watch, watched ...

서로 다른 단어 처럼 보이지만, 본래의 뜻은 같으므로 일반화 할 수 있음

===========================================================================

like => like

likes => like

===========================================================================

watch => watch

watched => watch

===========================================================================

일반화 과정을 통해서, 단어의 수를 줄일 수 있음

전처리 과정에서 적용 (in machine learning or topic modeling)







# 1. Stemming (어간 추출)

stem (어간)은 단어의 의미를 담고 있는 핵심적인 부분.

단어에서 변화하지 않는 부분을 이르는 말.

stemming (어간 추출)은 정해진 규칙을 보고 어미를 자르는 작업. 조금 러프한 작업.

* 어간 추출 후 나오는 단어는 사전에 존재하지 않는 단어가 될 수있는 가능성이 존재.



Ref: https://wikidocs.net/21707

In [2]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = ''' BERT is designed to pretrain deep bidirectional representations from
unlabeled text by jointly conditioning on both
left and right context in all layers. As a result, the pre-trained BERT model can be finetuned with just one additional output layer
to create state-of-the-art models for a wide
range of tasks, such as question answering and
language inference, without substantial taskspecific architecture modifications.'''

tokenized_sentence = word_tokenize(sentence)

print()
print('어간 추출 전 :', tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...



어간 추출 전 : ['BERT', 'is', 'designed', 'to', 'pretrain', 'deep', 'bidirectional', 'representations', 'from', 'unlabeled', 'text', 'by', 'jointly', 'conditioning', 'on', 'both', 'left', 'and', 'right', 'context', 'in', 'all', 'layers', '.', 'As', 'a', 'result', ',', 'the', 'pre-trained', 'BERT', 'model', 'can', 'be', 'finetuned', 'with', 'just', 'one', 'additional', 'output', 'layer', 'to', 'create', 'state-of-the-art', 'models', 'for', 'a', 'wide', 'range', 'of', 'tasks', ',', 'such', 'as', 'question', 'answering', 'and', 'language', 'inference', ',', 'without', 'substantial', 'taskspecific', 'architecture', 'modifications', '.']
어간 추출 후 : ['bert', 'is', 'design', 'to', 'pretrain', 'deep', 'bidirect', 'represent', 'from', 'unlabel', 'text', 'by', 'jointli', 'condit', 'on', 'both', 'left', 'and', 'right', 'context', 'in', 'all', 'layer', '.', 'as', 'a', 'result', ',', 'the', 'pre-train', 'bert', 'model', 'can', 'be', 'finetun', 'with', 'just', 'one', 'addit', 'output', 'layer', 'to', 'cr

[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


# 2. Lemmatization (표제어 추출)

Lemma (표제어)는 사전형 단어이다. 본래 같은 근간을 가지는 단어이면 다른 형태라도 같게 취급을 함.

표제어 추출은 단어의 근간이 되는 단어를 찾아서 단어의 개수를 줄이는 것을 목적으로 함.

단어의 형태학적 파싱을 먼저 진행하는 것. 형태소의 종류는 어간(stem)과 접사(affix)가 존재, 형태학적 파싱은 이 두 가지 구성 요소를 분리하는 작업

1. 어간: 단어의 의미를 담고 있는 단어의 핵심 부분.

2. 접사: 단어에 추가적인 의미를 주는 부분.

ex) cat(어간) s(접사)로 분리

Ref: https://wikidocs.net/21707

In [3]:
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

sentence = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'had', 'starting', 'was', 'is', 'am']

print('표제어 추출 전 :', sentence)
print('표제어 추출 후 :', [lemmatizer.lemmatize(word) for word in sentence])

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'had', 'starting', 'was', 'is', 'am']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'had', 'starting', 'wa', 'is', 'am']
