### [ 자연어 처리용 형태소 분석 - NLTK ]
- 정규화
    - 영어 -> 대소문자 일치
    - 같은 의미 -> 다른 형태 토큰 정리
    - 어간 추출 : 형태적인 기반으로 어간/어미 분리
    - 표제어 추출 : 품사기반 문법 활용해서 어간/어미 분리
- nltk.stem 서브모듈 활용


[1] 모듈 로딩 <hr>

In [34]:
# ================================================================================
# [1-1] 모듈 로딩
# ================================================================================
from nltk.stem import WordNetLemmatizer               # 표제어 추출
from nltk.stem import PorterStemmer, LancasterStemmer # 어간/어미 추출

[2] 어간/어미 종료 <hr> 

In [35]:
# ================================================================================
# [2-1] 데이터 준비
# ================================================================================
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

# ================================================================================
# [2-2] 형태적 의미로 어간/어미 분리 -> 어근 추출
# ================================================================================
lanStem = LancasterStemmer()
portStem = PorterStemmer()

for word in words:
    print(f"{word:<16} --> Lan : {lanStem.stem(word):<16} port : {portStem.stem(word):<16}")

policy           --> Lan : policy           port : polici          
doing            --> Lan : doing            port : do              
organization     --> Lan : org              port : organ           
have             --> Lan : hav              port : have            
going            --> Lan : going            port : go              
love             --> Lan : lov              port : love            
lives            --> Lan : liv              port : live            
fly              --> Lan : fly              port : fli             
dies             --> Lan : die              port : die             
watched          --> Lan : watch            port : watch           
has              --> Lan : has              port : ha              
starting         --> Lan : start            port : start           


In [39]:
# ================================================================================
# [2-3] 사전/품사 기반 어간/어미 분리 -> 표제어 추출
# ================================================================================
wordLem = WordNetLemmatizer()   # 기본 : 품사 - 명사 n

# 품사 'v'(동사)로 강제 변환
for word in words:
    print(f"Pos = 'v' : {wordLem.lemmatize(word, pos='v'):<16}")
print('\n')
# 1. {word:<16}               ← 원본 단어
# 2. wordLem.lemmatize(word)  ← No Tag (기본:명사)
# 3. portStem.stem(word)      ← Stemmer 결과
for word in words:
    print(f"{word:<16} --> No Tag : {wordLem.lemmatize(word):<16} Tag : {portStem.stem(word):<16}")

Pos = 'v' : policy          
Pos = 'v' : do              
Pos = 'v' : organization    
Pos = 'v' : have            
Pos = 'v' : go              
Pos = 'v' : love            
Pos = 'v' : live            
Pos = 'v' : fly             
Pos = 'v' : die             
Pos = 'v' : watch           
Pos = 'v' : have            
Pos = 'v' : start           


policy           --> No Tag : policy           Tag : polici          
doing            --> No Tag : doing            Tag : do              
organization     --> No Tag : organization     Tag : organ           
have             --> No Tag : have             Tag : have            
going            --> No Tag : going            Tag : go              
love             --> No Tag : love             Tag : love            
lives            --> No Tag : life             Tag : live            
fly              --> No Tag : fly              Tag : fli             
dies             --> No Tag : dy               Tag : die             
watched          -->