### [ 자연어 처리용 형태소 분석 - NLTK ]
- 정제(Cleaning)
    * 전처리 과정에서 수시로 발생
    * 전처리 시작 전에 미리 수행할 수도 있음
    * 토큰화 후 진행할 수도 있음
    * 명시적으로 언제만 한다가 아님 -> 필요시 수시로 진행

- 필수 정제 작업
    * 구두점 처리
    * 문장의 앞 부분/끝 부분 의미 없는 공백
    * 주제와 관련 없는 토큰 -> 불용어(stopword) 제거
        - 공통 불용어 : 언어마다 정해진 것들
        - 주제 불용어 : 프로젝트/주제마다 다름

[1] 모듈 로딩 <hr>

In [199]:
# ================================================================================
# [1-1] 모듈 로딩
# ================================================================================
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize  # NLTK 토큰화 함수들
from nltk.tokenize import WordPunctTokenizer, PunktSentenceTokenizer
from nltk.corpus import stopwords       # NLTK 영어 불용어 코퍼스
from nltk.tag import pos_tag            # NLTK 토큰에 품사 태깅 함수
from string import punctuation          # 파이썬에서 지정한 구두점 문자열

[2] 토큰화 진행 <hr>

In [200]:
# ================================================================================
# [2-1] 데이터 준비
# ================================================================================
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."

# ================================================================================
# [2-2] 정제용 불용어, 구두점 정리
# ================================================================================
# 구두점 정리 ======================================================================
# 구두점(Punctuation)이란 문장의 의미와 구조를 명확히 하고 읽기 쉽게 표시하는 특수문자
# ================================================================================
puncList = list(punctuation)

print(f"구두점 제거 전 text : {len(text)}개")

for pun in puncList:
    text = text.replace(pun, "")

print(f"구두점 제거 후 text : {len(text)}개\n")

# 불용어 정리 ======================================================================
# 불용어(Stopword)란 텍스트에서 자주 등장하지만 의미 분석에 거의 기여하지 않는 단어
# ================================================================================
print(f"불용어 제거 전 text : {len(text)}개")

swList = stopwords.words("english")
for sw in swList:
    text = text.replace(sw, "")
    
print(f"불용어 제거 후 text : {len(text)}개")

구두점 제거 전 text : 253개
구두점 제거 후 text : 246개

불용어 제거 전 text : 246개
불용어 제거 후 text : 134개


In [201]:
# ================================================================================
# [2-3] 텍스트 형태소 분석
# ================================================================================
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."

# 소문자 형태 일치 =================================================================
text = text.lower()

# 형태소 분리 및 저장 ==============================================================
print("원래 문장", text, "\n")

# 단어로 쪼개기 
wordList = word_tokenize(text)
print(wordList, f"\n기본 토큰 : {len(wordList)}\n")

# 구두점과 불용어 제거 ==============================================================
puncList = list(punctuation)
swList = stopwords.words("english")

# - 구두점 
wordList = [word for word in wordList if word not in puncList]
print(wordList, f"\n구두점 제거 후 토큰 : {len(wordList)}\n")

# - 불용어 
wordList = [word for word in wordList if word not in swList]
print(wordList, f"\n불용어 제거 후 토큰 : {len(wordList)}")

원래 문장 his barber kept his word. but keeping such a huge secret to himself was driving him crazy. finally, the barber went up a mountain and almost to the edge of a cliff. he dug a hole in the midst of some reeds. he looked about, to make sure no one was near. 

['his', 'barber', 'kept', 'his', 'word', '.', 'but', 'keeping', 'such', 'a', 'huge', 'secret', 'to', 'himself', 'was', 'driving', 'him', 'crazy', '.', 'finally', ',', 'the', 'barber', 'went', 'up', 'a', 'mountain', 'and', 'almost', 'to', 'the', 'edge', 'of', 'a', 'cliff', '.', 'he', 'dug', 'a', 'hole', 'in', 'the', 'midst', 'of', 'some', 'reeds', '.', 'he', 'looked', 'about', ',', 'to', 'make', 'sure', 'no', 'one', 'was', 'near', '.'] 
기본 토큰 : 59

['his', 'barber', 'kept', 'his', 'word', 'but', 'keeping', 'such', 'a', 'huge', 'secret', 'to', 'himself', 'was', 'driving', 'him', 'crazy', 'finally', 'the', 'barber', 'went', 'up', 'a', 'mountain', 'and', 'almost', 'to', 'the', 'edge', 'of', 'a', 'cliff', 'he', 'dug', 'a', 'hole', 'i

[3] 텍스트의 토큰화 처리 <hr>

In [202]:
text = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

# 텍스트의 모든 토큰 저장 변수
allTK = set()
sentTK = []

# 텍스트 -> 문장 분리
sentList = sent_tokenize(text)

# 문장 -> 단어 토큰 분리
for sent in sentList:
    wordTK = word_tokenize(sent)
    sentTK.append(wordTK)
    allTK.update(wordTK)

# 확인
for tk in sentTK:
    print(tk)

print(f"\n모든 토큰들 : {allTK}, \n{len(allTK)}개 ")

['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']
['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.']
['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']

모든 토큰들 : {'around', 'go', 'when', '.', 'work', 'You', 'even', 'or', ',', 'Matrix', 'window', 'room', 'is', 'on', 'church', 'feel', 'to', 'pay', 'out', 'television', 'here', 'everywhere', 'us', 'all', 'in', 'this', 'can', 'The', 'its', 'see', 'taxes', 'your', 'you', 'it'}, 
34개 
