# 텍스트 전처리

## 토큰화(Tokenization)

In [2]:
# NLTK 패키지는 아나콘다에 기본으로 포함되어 있으나 필요한 세부 패키지는 따로 다운로드 해야함
import nltk
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

### 문장 토큰화(sentence tokenize)

In [2]:
para = "Hello everyone. It's good to see you. Let's start our text mining class!"

In [3]:
from nltk.tokenize import sent_tokenize # sent_tokenize는 영어학습 데이터에 대해 사전학습된 모델을 사용해 토큰화
print(sent_tokenize(para)) # 주어진 text를 sentence 단위로 tokenize함. 주로 . ! ? 을 이용 

['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


In [5]:
paragraph_french = """Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non. 
Je t'ai demandé si j'étais jolie, Tu m'a répondu non. 
Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."""

# import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/french.pickle')  # 프랑스어 사전학습 모델 로드
print(tokenizer.tokenize(paragraph_french))

["Je t'ai demandé si tu m'aimais bien, Tu m'a répondu non.", "Je t'ai demandé si j'étais jolie, Tu m'a répondu non.", "Je t'ai demandé si j'étai dans ton coeur, Tu m'a répondu non."]


In [5]:
para_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트마이닝 클래스를 시작해봅시다!" 

In [6]:
print(sent_tokenize(para_kor)) 
#NLTK에 한국어 사전학습 모델은 아직 없지만 문장분리 방법은 비슷하여 한국어에 대해서도 sentence tokenizer는 잘 동작함 

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 텍스트마이닝 클래스를 시작해봅시다!']


### 단어 토큰화 (word tokenize)
단어 토큰화를 위해 문장 토큰화를 수행할 필요는 없음. 서로 다른 알고리즘의 토크나이저 특성을 이해하고 분석 목적에 맞는 토크나이저 선택할 필요

In [7]:
from nltk.tokenize import word_tokenize
print(word_tokenize(para)) #주어진 text를 공백과 구두점을 기준으로 분리.  # It's  => 'It', "'s"

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


In [8]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize(para))  # It's => 'It', "'", 's'

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'text', 'mining', 'class', '!']


In [9]:
print(word_tokenize(para_kor))    # 영어는 주로 공백과 구두점을 기준으로 단어 토큰화. 교착어인 한국어는?

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트마이닝', '클래스를', '시작해봅시다', '!']


### 정규표현식을 이용한 토큰화
NLTK 제공 함수를 이용한 토큰화는 간편하지만 정교한 토큰화는 어려움  
정규표현식을 이용하면 NLTK 없이도 다양한 조건으로 토큰화 가능

In [10]:
import re  # regular expression (정규표현식)   # 위키독스 점프 투 파이썬 7장

# 정규표현식은 메타 문자로 패턴 표현. 가장 기본적인 메타문자: 문자 클래스 [ ] 
re.findall("[abc]", "How are you, boy?")   # [abc] a or b or c 중 일치하는 문자 추출. 첫째 인수의 패턴을 둘째 인수인 문자열에서 검색

['a', 'b']

In [11]:
re.findall("[0123456789]", "3a7b5c9d")   # [0123456789] 대신 [0-9]로 해도 동일

['3', '7', '5', '9']

In [12]:
re.findall("[\w]", "3a 7b_ '.^&5c9d")   # [\w] 은 [a-zA-Z0-9_]와 동일(소/대문자 알파벳, 숫자, _)

['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']

In [13]:
# 정규표현식 메타 문자 +  한 번 이상의 반복을 의미
re.findall("[_]+", "a_b, c__d, e___f")

['_', '__', '___']

In [14]:
re.findall("[\w]+", "How are you, boy?")   # [\w] 에는 공백이나 쉼표 등이 포함되지 않음. 이 특징을 이용하면 단어 추출 가능

['How', 'are', 'you', 'boy']

In [15]:
# 정규표현식 메타 문자 {} 정확한 반복 횟수 지정
re.findall("[o]{2,4}", "oh, hoow are yoooou, boooooooy?")   # o 가 2~4번 반복 패턴 찾기. boooooooy 는 최장 매칭 oooo 와 ooo 로 

['oo', 'oooo', 'oooo', 'ooo']

**NLTK에서는 정규표현식을 사용하는 토크나이저를 RegexpTokenizer 로 제공**  
RegexpTokenizer() 함수 인자로 원하는 정규표현식을 주면 그에 따라 토큰화 수행 

In [16]:
from nltk.tokenize import RegexpTokenizer

# \w (대소문자 알파벳, 숫자, _) 와 아포스트로피 ' 를 기준으로 이것들이 한 번 이상 반복되는 패턴 찾아 토큰화 
tokenizer = RegexpTokenizer("[\w']+")   

print(tokenizer.tokenize("Sorry, I can't go there."))   # can't를 하나의 단어로 인식(' 도 단어 구성 요소로 간주하는 경우)


['Sorry', 'I', "can't", 'go', 'there']


In [17]:
tokenizer = RegexpTokenizer("[\w]+")   # 위 예에서 ' 제외
print(tokenizer.tokenize("Sorry, I can't go there."))

['Sorry', 'I', 'can', 't', 'go', 'there']


In [18]:
# 텍스트를 먼저 모두 소문자로 바꾸고 '를 포함해 세 글자 이상의 단어들만 추출하도록 
text1 = "Sorry, I can't go there."
tokenizer = RegexpTokenizer("[\w']{3,}") 
print(tokenizer.tokenize(text1.lower()))

['sorry', "can't", 'there']


## 정제(Cleaning)
### 노이즈와 불용어 제거
위 예에서 정규표현식을 이용한 토큰화를 통해 특수문자와 같은 불필요한 문자들 혹은 노이즈를 삭제할 수 있었음.  
토큰화 과정과 별도로 **정규표현식을 이용한 치환을 통해 원하는 패턴의 노이즈를 제거**할 수도 있음.  

NLTK에서는 stopwords 라는 라이브러리를 이용해 언어별 불용어 사전 제공  
stopwords(불용어): 의미없는 특수문자 등과는 별도로 실제 사용되는 단어지만 분석에는 별 필요가 없는 단어들

In [5]:
a = "http://www.ewha.ac.kr/ewha/index.do"
a = a.replace("http://", "")
print(a)

print(a.split("/"))
print((a.split("/"))[0])

www.ewha.ac.kr/ewha/index.do
['www.ewha.ac.kr', 'ewha', 'index.do']
www.ewha.ac.kr


In [7]:
string_value = "alphanumeric@123__"

print([ch for ch in string_value if ch.isalnum()])

s = ''.join(ch for ch in string_value if ch.isalnum())

print(s)
        

['a', 'l', 'p', 'h', 'a', 'n', 'u', 'm', 'e', 'r', 'i', 'c', '1', '2', '3']
alphanumeric123


In [8]:
string_value = "alphanumeric@123__"
s = ''.join(filter(str.isalnum, string_value))
print(s)

alphanumeric123


In [12]:
import re
string_value = "alphanumeric@123__"
s=re.sub(r'[\W_]+', '', string_value)
# s=re.sub(r'[\W]+', '', string_value)
print(s)

alphanumeric123


In [11]:
import re
string_value = "alphanumeric@123__"
s = re.sub(r'[^a-zA-Z0-9]', '', string_value)
print(s)

alphanumeric123


In [15]:
# 정규표현식 메타 문자 ()는 그룹을 의미  group(0): 매치된 전체 문자열, group(1): 첫 번째 그룹의 문자열 

import re

p = re.compile(r"(\w+)\s+\d+[-](\d+)[-]\d+")   # r raw string 의미 \ 이스케이프 문자 문제 해결, \s 스페이스, \d 숫자
m = p.search("park 010-1234-4567")
print(m.group(0))
print(m.group(1))
print(m.group(2))

park 010-1234-4567
park
1234


In [10]:
# 정규표현식을 이용한 노이즈 제거 예시 

import re

text = "Hello, everyone^^ How are you? It's good to see you~~ Let's start our text mining class**!"

text = re.sub(r"([.,!?])", r" \1 ", text)   # 정규표현식에서 () 는 그룹을 의미, \1 은 첫번째 그룹을 의미, 구두점 앞뒤에 공백 넣기
print('text: ', text)

text = re.sub(r"[^a-zA-Z.,!?]+", r" ", text)   # 정규표현식에서 [] 안의 ^는 아님을 의미  
print('text: ', text)

print()

print("tokens: ", text.split())

text:  Hello ,  everyone^^ How are you ?  It's good to see you~~ Let's start our text mining class** ! 
text:  Hello , everyone How are you ? It s good to see you Let s start our text mining class ! 

tokens:  ['Hello', ',', 'everyone', 'How', 'are', 'you', '?', 'It', 's', 'good', 'to', 'see', 'you', 'Let', 's', 'start', 'our', 'text', 'mining', 'class', '!']


In [7]:
# 위 노이즈 제거 과정을 텍스트 전처리 함수로 만든 예시

text = "Hello, everyone^^ How are you? It's good to see you~~ Let's start our text mining class**!"

def preprocess_text(text):
    text = text.lower()
    text = re.sub(r"([.,!?])", r" \1 ", text)
    text = re.sub(r"[^a-zA-Z.,!?]+", r" ", text)
    return text

print(preprocess_text(text))

hello , everyone how are you ? it s good to see you let s start our text mining class ! 


In [8]:
# 위 텍스트 전처리 함수를 어포스트로피 ' 를 삭제하지 않도록 수정

text = "Hello, everyone^^ How are you? It's good to see you~~ Let's start our text mining class**!"

def preprocess_text(text):
    text = text.lower()
    text = re.sub(r"([.,!?])", r" \1 ", text)
    text = re.sub(r"[^a-zA-Z.,!?']+", r" ", text)   # 어포스트로피 ' 를 삭제하지 않도록 [] 안에 '  추가
    return text

print(preprocess_text(text))

hello , everyone how are you ? it's good to see you let's start our text mining class ! 


In [19]:
#  stopwords 라이브러리 사용 불용어 제거
from nltk.corpus import stopwords 
english_stops = set(stopwords.words('english')) # 반복이 되지 않도록 set으로 변환

text1 = "Sorry, I couldn't go to movie yesterday."

tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text1.lower()) # word_tokenize로 토큰화

# 여기서는 영어 텍스트 토큰화를 하고 불용어를 제거함
result = [word for word in tokens if word not in english_stops] # stopwords를 제외한 단어들만으로 list를 생성
print(result)   # I, couldn't, to 제거 

['sorry', 'go', 'movie', 'yesterday']


In [20]:
print(english_stops) # nltk가 제공하는 영어 stopword를 확인

{'up', 'once', 'mightn', 'yourself', 'has', 'whom', 'that', 'after', 'the', 'same', "couldn't", "doesn't", "mustn't", 'been', 'some', 'is', 'being', 'hadn', 'too', 'am', 'she', 'out', 'under', "didn't", 'wasn', 'about', 'above', 'their', "you're", 'herself', 't', 'did', 'ours', 'wouldn', 'was', 'having', 'they', 'we', 'ain', 'o', 'by', "haven't", 'her', 'an', 's', 'him', 'have', 'should', 'it', 'nor', 'don', "aren't", 'doing', 'doesn', 'needn', 'few', "don't", 'them', 'when', 'in', 'isn', 'yours', 'shan', 'myself', 'again', "it's", 'before', 'weren', 'other', 'down', "you've", "weren't", "won't", 'will', 'more', 'were', "you'd", 'what', 'his', 'over', 'a', 'your', "shan't", 'until', 'where', 'each', 'than', 'shouldn', 'there', 'all', 'to', 'me', 'with', 'between', 'such', "isn't", 'then', 'so', 'because', "should've", 'do', 'd', 'from', 'who', 'into', 've', 'not', 'didn', 'against', 'hasn', 'this', 'hers', 'you', 'at', 'most', 'm', 'ourselves', 'won', "you'll", 'off', 'can', 'mustn', '

자신만의 불용어 사전 만들고 활용하기 - *한글처리에서도 유용하게 사용할 수 있음*

In [21]:
my_stopword = ['i', 'go', 'to'] # 나만의 stopword를 리스트로 정의
result = [word for word in tokens if word not in my_stopword] 
print(result)

['sorry', "couldn't", 'movie', 'yesterday']


## 정규화(Normalization)
### 어간 추출(Stemming)
스테머 알고리즘은 단어가 변형되는 규칙을 이용해 어간을 추출하며 그 결과가 항상 사전에 있는 단어가 되지는 않음  
그렇지만 특정 스테머 함수를 적용하면 모든 단어가 같은 규칙에 따라 변환됨  
변환된 단어가 사전에 없는 단어라도 동일한 규칙에 의해 변환되었으므로 분석 의도를 충족시킬 수 있음

In [22]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))  
# cookery => cookeri : y를 i로 대체하는 규칙에 따라 생성된 것으로 사전에 있는 단어 아님

print(stemmer.stem('connected'), stemmer.stem('connecting'), stemmer.stem('connection'))

cook cookeri cookbook
connect connect connect


토큰화 후 어간 추출 실행

In [23]:
from nltk.tokenize import word_tokenize

para = "Hello everyone. It's good to see you. Let's start our text mining class!"
tokens = word_tokenize(para) # 토큰화 실행
print(tokens)
result = [stemmer.stem(token) for token in tokens] # 모든 토큰에 대해 스테밍 실행
print(result)
# everyone => everyon, mining => mine

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'our', 'text', 'mine', 'class', '!']


포터 스테머(PorterStemmer)와 랭카스터 스테머(LancasterStemmer) 결과가 약간 다름  
어떤 스테머를 선택할지는 스테밍 결과 및 최종 결과를 비교해 보고 분석 목적에 더욱 적합한 스테머 선택

In [24]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))
# cookery => cookery 

cook cookery cookbook


### 기본형(표제어) 추출(Lemmatization)
사전을 이용해 사전에 있는 기본형 추출

In [25]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('cooking'))   # 사전에 cooking 이라는 명사가 존재하기 때문에 품사를 지정하지 않으면 cooking 봔환 
print(lemmatizer.lemmatize('cookery'))
print(lemmatizer.lemmatize('cookbooks'))

print(lemmatizer.lemmatize('cooking', pos='v')) # pos 인자에 동사를 의미하는 'v' 로 품사를 지정하면 cook 반환 
print(lemmatizer.lemmatize('cookery', pos='v'))
print(lemmatizer.lemmatize('cookbooks', pos='v'))

print(lemmatizer.lemmatize('am'))
print(lemmatizer.lemmatize('has'))
print(lemmatizer.lemmatize('watched'))
print(lemmatizer.lemmatize('doing'))

print(lemmatizer.lemmatize('am', pos='v'))
print(lemmatizer.lemmatize('has', pos='v'))
print(lemmatizer.lemmatize('watched', pos='v'))
print(lemmatizer.lemmatize('doing', pos='v'))

print(lemmatizer.lemmatize('connected'))
print(lemmatizer.lemmatize('connecting'))
print(lemmatizer.lemmatize('connection'))

print(lemmatizer.lemmatize('connected', pos='v'))
print(lemmatizer.lemmatize('connecting', pos='v'))
print(lemmatizer.lemmatize('connection', pos='v'))

cooking
cookery
cookbook
cook
cookery
cookbooks
am
ha
watched
doing
be
have
watch
do
connected
connecting
connection
connect
connect
connection


In [26]:
#comparison of lemmatizing and stemming
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print('stemming result:', stemmer.stem('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes', pos='v'))

stemming result: believ
lemmatizing result: belief
lemmatizing result: believe


## 한국어 전처리 내용 추가

### 한글 띄어쓰기 및 맞춤법 교정(Py-Hanspell)
Py-Hanspell은 네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지. 띄어쓰기도 교정함.

In [31]:
# Anaconda Prompt 를 관리자 권한으로 실행하여 터미널 창에 아래 명령어 입력하여 실행
# conda install git pip 
# pip install git+https://github.com/ssut/py-hanspell.git

In [32]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지


### 한글 토큰화 및 형태소 분석 (영어 NLTK 사용)

In [33]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

In [34]:
tokens = word_tokenize(sentence)
print(tokens)
print()
print(nltk.pos_tag(tokens))   # nltk.pos_tag()은 토큰화된 결과에 대해 품사를 태깅해 (단어, 품사) 튜플의 리스트 반환 

['절망의', '반대가', '희망은', '아니다', '.', '어두운', '밤하늘에', '별이', '빛나듯', '희망은', '절망', '속에', '싹트는', '거지', '만약에', '우리가', '희망함이', '적다면', '그', '누가', '세상을', '비출어줄까', '.', '정희성', ',', '희망', '공부']

[('절망의', 'JJ'), ('반대가', 'NNP'), ('희망은', 'NNP'), ('아니다', 'NNP'), ('.', '.'), ('어두운', 'VB'), ('밤하늘에', 'JJ'), ('별이', 'NNP'), ('빛나듯', 'NNP'), ('희망은', 'NNP'), ('절망', 'NNP'), ('속에', 'NNP'), ('싹트는', 'NNP'), ('거지', 'NNP'), ('만약에', 'NNP'), ('우리가', 'NNP'), ('희망함이', 'NNP'), ('적다면', 'NNP'), ('그', 'NNP'), ('누가', 'NNP'), ('세상을', 'NNP'), ('비출어줄까', 'NNP'), ('.', '.'), ('정희성', 'NN'), (',', ','), ('희망', 'NNP'), ('공부', 'NNP')]


### 한글 형태소 분석 (KoNLPy 사용)

KoNLPy 설치는 다음 강의에서 안내

In [35]:
from konlpy.tag import Okt
t = Okt()

In [36]:
print('형태소:', t.morphs(sentence))
print()
print('명사:', t.nouns(sentence))
print()
print('품사 태깅 결과:', t.pos(sentence))

형태소: ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비출어줄까', '.', '\n', '정희성', ',', '희망', '공부']

명사: ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과: [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), ('세상