<a href="https://colab.research.google.com/github/limkaram/Natural_language_processing_with_deep_learning/blob/main/Stemming_and_Lemmatization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. 표제어 추출(Lemmatization)

In [None]:
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
import nltk
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

lemmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

from nltk.corpus import wordnet

def get_wordnet_pos(treebank_tag):

       if treebank_tag.startswith('J'):
           return wordnet.ADJ
       elif treebank_tag.startswith('V'):
           return wordnet.VERB
       elif treebank_tag.startswith('N'):
           return wordnet.NOUN
       elif treebank_tag.startswith('R'):
           return wordnet.ADV
       else:
           return None # for easy if-statement 

for word, tag in pos_tag(words):
    wordnet_tags = get_wordnet_pos(tag)
    if wordnet_tags is None:
        lemma = lemmatizer.lemmatize(word)
    else:
        lemma = lemmatizer.lemmatize(word, pos=wordnet_tags)
    print(lemma, wordnet_tags)

* WordNetLemmatizer : nltk 표제어 추출 지원 모듈
* 표제어 추출은 단어의 어간 즉, 단어의 의미를 담고 있는 단어의 핵심 부분을 추출해 주는 것을 의미
* 표제어 추출시 단어 품사와 함께 전달해야 본연의 표제어 추출이 원활히 가능
* 표제어 추출시 nltk의 pos_tag를 그대로 활용하면, lemmatizer의 tag와 매칭이 안되어서 활용이 불가함
    - ex. 명사인 경우 nltk tag : 'NN' / lemmatizer 지원 tag : 'n'
* 주로 표준인 Penn Treebank pos tag의 기준으로 통일 시키게 됨(from nltk.corpus import wordnet)
* wordnet은 영어 어휘 데이터베이스라고 보면됨


## 2. 어간 추출(Stemming)


In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
nltk.download('punkt')

stemmer = PorterStemmer()
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokens = word_tokenize(text)
print(tokens)

stemmed_words = [stemmer.stem(token) for token in tokens]
print(stemmed_words)

* 어간 추출은 표제어 추출과 다르게 단순 규칙 기반의 Poter Algorithm에 의해서 진행이 된다.
따라서 pos tag를 주지 않아도 된다.
* 단순 규칙 기반 동작이기 때문에 존재하지 않는 단어로 반환해 주기도 한다.
* 표제어 추출보다 일반적으로 빠르고, PorterStemmer는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간추출시 준수한 선택이다.
