# 어간추출(stemming)
* 어간(stem) : 변하지 않는 단어의 핵심 
    * 예시: "running", "runs", "ran" 등의 단어는 어간 추출을 통해 기본 형태인 "run"으로 변환될 수 있습니다.
    
* 접사(Affix) : 어간에 붙여서 새로운 단어를 만드는 부분, 접두사(prefix) + 접미사(suffix)
    * unhappy의 un접두사, -ing 접미사
    
    
* 어간추출 : 단어의 어간만 남기고 다른 접사 등을 제거해서 단어를 축약하는 과정
* 주먹구구식으로 단어를 만듬, 사전에 존재하지 않을 수 있음
* ex) running, runs, ran의 어간은 run
* 단순하고 규칙적인 변환을 수행하여 빠르게 처리가능

In [None]:
* PorterStemmer
    * Martin Porter가 개발한 알고리즘
    * 규칙 기반의 접근 방식을 사용하여 단어를 변환함
    * 단어의 어미를 제거하고 어간을 찾아내어 축약하는 방식으로 작동
    * 자주 사용되는 형태를 유지(보수적인 접근)

In [1]:
from nltk.stem import PorterStemmer

# PorterStemmer 객체 생성
porter = PorterStemmer()

# 어간 추출할 단어들 
words = ['running','files','cats','trouble','running','friendships']

# 단어들의 어간 추출
for word in words:
    stemmed_word = porter.stem(word)
    print(f"원본 단어:{word}, 어간 추출 결과: {stemmed_word}")

원본 단어:running, 어간 추출 결과: run
원본 단어:files, 어간 추출 결과: file
원본 단어:cats, 어간 추출 결과: cat
원본 단어:trouble, 어간 추출 결과: troubl
원본 단어:running, 어간 추출 결과: run
원본 단어:friendships, 어간 추출 결과: friendship


In [None]:
* LancasterStemmer
    * Chris D. Paice가 개발한 알고리즘
    * PorterStemmer보다 더 적극적인 방식으로 단어를 축약
    * 많은 규칙을 적용하여 단어를 더 짧게 변환

In [2]:
from nltk.stem import LancasterStemmer

# LancaterStemmer 객체 생성
lancaster = LancasterStemmer()

# 어간 추출할 단어들 
words = ['running','files','cats','trouble','running','friendships']

# 단어들의 어간 추출
for word in words:
    stemmed_word = lancaster.stem(word)
    print(f"원본 단어:{word}, 어간 추출 결과: {stemmed_word}")

원본 단어:running, 어간 추출 결과: run
원본 단어:files, 어간 추출 결과: fil
원본 단어:cats, 어간 추출 결과: cat
원본 단어:trouble, 어간 추출 결과: troubl
원본 단어:running, 어간 추출 결과: run
원본 단어:friendships, 어간 추출 결과: friend


In [None]:
'''     

* 포터 알고리즘 규칙
    ALIZE = AL
    ANCE -> 제거
    ICAL -> IC

    formalize -> formal
    allowance -> allow
    electricical -> electric

* 랭체스터 알고리즘 규칙
    단어의 끝에 있는 접미사를 제거('-ing','-ed' 제거)
    복잡한 규칙에 따라 단어를 축약('e'로 끝나는 단어는 e를 제거, 'ational' 이라는 접미사를 'ate'로 변경)
   
    
'''

In [3]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy','doing','organization','have','going','love', 'lives']


porter_result = [porter_stemmer.stem(w) for w in words]
lancaster_result = [lancaster_stemmer.stem(w) for w in words]

print('Porter stemmer로 어간 추출 후 :',porter_result)
print("Lancaster Stemmer로 어간 추출 후 :",lancaster_result)

Porter stemmer로 어간 추출 후 : ['polici', 'do', 'organ', 'have', 'go', 'love', 'live']
Lancaster Stemmer로 어간 추출 후 : ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv']


# 표제어 추출 (Lemmatization) : 단어의 원형을 찾고 단어의 형태소적 문법적 특성을 고려하여 사전에 등재된단어로 변환


* 어간추출보다 정확함
* ex) 'am','are','is'의 표제어는 'be'
* 문법적, 의미적인 측면을 고려하므로 복잡하고 정확한 처리를 수행

In [4]:
import nltk

nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /Users/choejong-
[nltk_data]     gyu/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [6]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy','doing','organization','have','going','love', 'lives','fly','dies','watched','has','starting']

lemmatizer_words = [lemmatizer.lemmatize(word) for word in words]

print('원본단어:',words)
print('Lemmatization 결과:',lemmatizer_words)

원본단어: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
Lemmatization 결과: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [7]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [8]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [9]:
lemmatizer.lemmatize('has', 'v')

'have'