In [1]:
# 1. 표제어 추출(Lemmatization): 표제어란 한글로 기본 사전형 단어 정도의 의미를 가짐
#     표제어 추출은 단어들로 부터 표제어를 찾는 과정, 다른 형태를 지닌
#     단어들의 뿌리를 찾아 단어의 개수를 줄일 수 있는지 판단
#     Ex) am are is 의 뿌리는 be 임 (be 가 표제어)
    
#     표제어 추출을하는 섬세한 방법은 형태학(morphology)적 파싱을 진행
#     형태학이란 형태소로 단어를 만들어가는 학문 형태소의 종류로 
#     어간(stem), 접사(affix)가 있음
    
#     형태학적 파싱은 이 두 구성요소를 분리하는 작업
#     Ex) cats -> cat(어간) + -s(접사)
    
    

In [2]:
#NLTK의 표제어추출 도구 WordNetLemmatizer
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [3]:
# has-> ha, dies -> dy 로 오변환 된 이유는 표제어 추출기가 본래 단어의
# 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문임

In [4]:
lemmatizer.lemmatize('dies','v')#동사

'die'

In [5]:
lemmatizer.lemmatize('watched','v')#동사

'watch'

In [6]:
lemmatizer.lemmatize('has','v')#동사

'have'

In [7]:
# 표제어 추출은 문맥을 고려해 수행결과가 단어의 품사 정보를 보존
# 하지만 어간 추출은 보존 X 정확히는 어간 추출 결과는 사전에 존재하지
# 않는 단어일 경우가 높음

In [8]:
# 2. 어간 추출(stemming): 형태학적 분석을 단순화한 버전이라 볼수 있고
#     정해진 규칙만 보고 단어의 어미를 자르는 어림짐작 작업이라 볼 수
#     있음

In [10]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize #토큰화 모듈

stemmer = PorterStemmer()

sentence =  "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)# 토큰화

print('어간 추출 전', tokenized_sentence)
print('어간 추출 후', [stemmer.stem(word) for word in tokenized_sentence])


어간 추출 전 ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [11]:
#대소문자 변경됨 
# 규칙 기바의 접근을 하므로 결과에 사전에 없는 단어도 포함됨
# 포터 알고리즘은 이 규칙을 가짐
# ALIZE → AL
# ANCE → 제거
# ICAL → IC
# Ex) 
# formalize -> formal
# allowance -> allow
# electricical -> electric

In [14]:
words = ['formalize', 'allowance', 'electricical']
print('before stemming', words)
print()
print('after stemming', [stemmer.stem(word) for word in words])

before stemming ['formalize', 'allowance', 'electricical']

after stemming ['formal', 'allow', 'electric']


In [15]:
# 일반적으로 어간 추출 속도는 표제어 추출보다 빠름, 포터 어간 추출기가
# 영어 자연어 처리에 가장 준수한 선택 

In [19]:
# Lancaster Stemmer
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('before stemmer', words,'\n')
print('after porter_stemmer', [porter_stemmer.stem(w) for w in words],'\n')
print('after lancaster_stemmer', [lancaster_stemmmer.stem(w) for w in words])

before stemmer ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting'] 

after porter_stemmer ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start'] 

after lancaster_stemmer ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


In [20]:
# 포터와 랭커스터는 다른 알고리즘을 사용하기에 결과 다름
# 이런 규칙에 기반한 알고리즘은 종종 제대로 된 일반화 수행이 안됨

In [21]:
# Ex) 
# organization: 조직
# organ: 오르간

# 두 단어에 어간추출을 하면 동일하게 organ이 추출됨 이는 의미가 동일한
# 경우에만 같은단어를 얻기원하는 정규화 목적에 부합 x


In [None]:
# 3. 한국어에서 어간 추출: 한국어는 5언 9품사 구조 가짐
# 언	품사
# 체언	명사, 대명사, 수사
# 수식언	관형사, 부사
# 관계언	조사
# 독립언	감탄사
# 용언	동사, 형용사

# (1) 활용:
#     어간이 어미를 가짐
#     어간: 용언 활용시 원칙적으로 모양이 변하지 않는 부분 가끔 
#         바뀌기도 함
#     어미: 용언의 어간 뒤에 붙어 변하는 부분 여러 문법적 기능 수행
        
# (2) 규칙 활용: 
#     어간이 어미를 취할때 어간의 모습이 일정
#     Ex) 잡(어간)+다(어미)
#     이때 활용전 활용후 모습이 동일하므로 규칙 기반으로 분리하면 
#     어간추출이 됨
    
# (3) 불규칙 활용:
#     어간이 어미를 취할때 어간이 바뀌거나 어미가 특수한 경우
#     예를 들어 ‘듣-, 돕-, 곱-, 잇-, 오르-, 노랗-’ 등이 ‘듣/들-, 
#     돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’와 같이 어간의 
#     형식이 달라지는 일이 있거나 ‘오르+ 아/어→올라, 하+아/어→하여
#     이르+아/어→이르러, 푸르+아/어→푸르러’와 같이 일반적인 어미가
#     아닌 특수한 어미를 취하는 경우 불규칙활용을 하는 예에 속합니다.
    
#     어간이 바뀌므로 단순 분리만으로 추출이 안되고 좀더 복잡한 규칙 필요
    