#### 【 자연어 처리용 형태소분석 - NLTK 】
- 정제 (Cleaning)
    * 전처리 과정에서 수시로 발생
    * 전처리 시작 전에 미리 수행할 수도 있음
    * 토큰화 후 진행 할 수도 있음
    * 명식적으로 언제만 한다가 아님!! ==> 필요 시 수시로 진행

- 필수 정제 작업
    * 구두점 처리
    * 문장의 앞 부분/끝 부분 의미 없는 공백
    * 주제와 관련 없는 토큰 => 불용어(stopword) 제거
        - 공통 불용어 : 언어마다 정해진 것들
        - 주제 불용어 : 프로젝트/주제 마다 다름

In [1]:
## 모듈 로딩
import nltk
from nltk.tokenize import word_tokenize ##- NLTK 토큰화 함수들
from nltk.tokenize import sent_tokenize

from nltk.corpus import stopwords       ##- NLTK 영어 불용어 리스트
from nltk.tag import pos_tag            ##- NLTK 토큰에 품사 태깅 함수

from string import punctuation          ##- 파이썬에서 지정한 구두점 문자열

[토큰화 진행] <hr>

In [None]:
## -------------------------------------------------------
## [1] 단어 단위 형태소 분석
## -------------------------------------------------------
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."

##- 소문자 형태 일치
text = text.lower()

## -------------------------------------------------------
## [2-1] 구두점 제거
## -------------------------------------------------------
puncList = list(punctuation)
print(f'구두점 제거 전 : {len(text)}개')
for pun in puncList:
    text=text.replace(pun, "")
print(f'구두점 제거 후 : {len(text)}개')

##- [2-2] 불용어 제거
swList = stopwords.words("english")

print(f'불용어 제거 전 : {len(text)}개')
for sw in swList:
    text = text.replace(sw, "")
print(f'불용어 제거 후 : {len(text)}개')



구두점 제거 전 : 253개
구두점 제거 후 : 246개
불용어 제거 전 : 246개
불용어 제거 후 : 134개


In [17]:
## -------------------------------------------------------
## [2] 텍스트 형태소 분석
## -------------------------------------------------------
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."

##- 소문자 형태 일치
text = text.lower()

##- 형태소 분리 및 저장
tk_list = word_tokenize(text)
print(f'토큰 : {len(tk_list)}개')
print(tk_list)

##- 구두점과 불용어 제거
# print(f"구두점과 불용어 제거 전 : {len(tk_list)}")
# puncList = list(punctuation)
# swList = stopwords.words("english")

# clean_tokens = [
#     token for token in tk_list
#     if token not in swList and token not in puncList
# ]
# print(f"구두점과 불용어 제거 전 : {len(clean_tokens)}")


토큰 : 59개
['his', 'barber', 'kept', 'his', 'word', '.', 'but', 'keeping', 'such', 'a', 'huge', 'secret', 'to', 'himself', 'was', 'driving', 'him', 'crazy', '.', 'finally', ',', 'the', 'barber', 'went', 'up', 'a', 'mountain', 'and', 'almost', 'to', 'the', 'edge', 'of', 'a', 'cliff', '.', 'he', 'dug', 'a', 'hole', 'in', 'the', 'midst', 'of', 'some', 'reeds', '.', 'he', 'looked', 'about', ',', 'to', 'make', 'sure', 'no', 'one', 'was', 'near', '.']


In [18]:
##- 중복 토큰 제거 진행
tk_list = list(set(tk_list))
print(len(tk_list), tk_list)

##- 불용어 + 구두점 제거
allList = swList + puncList
for sw in swList:
    if sw in tk_list: tk_list.remove(sw)
print(len(tk_list), tk_list)

42 ['a', 'crazy', 'reeds', 'his', 'no', 'some', 'edge', 'dug', 'one', 'the', 'finally', 'hole', 'near', 'he', 'driving', 'midst', 'went', 'looked', 'secret', ',', 'mountain', 'about', 'almost', 'word', 'of', 'kept', 'but', 'himself', 'make', 'such', 'was', 'up', '.', 'to', 'him', 'keeping', 'huge', 'sure', 'barber', 'and', 'cliff', 'in']
25 ['crazy', 'reeds', 'edge', 'dug', 'one', 'finally', 'hole', 'near', 'driving', 'midst', 'went', 'looked', 'secret', ',', 'mountain', 'almost', 'word', 'kept', 'make', '.', 'keeping', 'huge', 'sure', 'barber', 'cliff']
