# 텍스트 전처리(Text preprocessing)

## 01) 토큰화(Tokenization)
- 전처리 :토큰화 & 정제 & 정규화 
- corpus에서 토큰단위로 나누는 작업을 토큰화라고 함 
- NLTK, KoNLPY 실습 

### 1. 단어 토큰화(Word Tokenization)
- 단어(words): 단어구, 의미를갖는 문자열
- 구두점(마침표(.), 컴마(,), 물음표(?), 세미콜론(;), 느낌표(!) 등과 같은 기호를 말함
- 입력: Time is an illusion. Lunchtime double so!
- 출력ㅣ"Time","is","an","illustion","Lunchtime","double","so"
- => 구두점을 지운 뒤에 띄어쓰기를 기준으로 잘라냄 

### 2. 토큰화 중 생기는 선택의 순간 
- ex) Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop
- Don't 나 Jone's의 '를 어떻게 처리 할 것인가?

In [5]:
# word_tokenize와 WordPunctTokenizer 사용, 아포스트로피 제거 
from nltk.tokenize import word_tokenize 
from nltk.tokenize import WordPunctTokenizer 
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [11]:
# word_tokenize 사용
print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name,Mr. \
                    Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

# Don't를 Do와 n't로 분리, 반면 Jone's는 Jone과 's로 분리함

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [12]:
# wordPunctTokenizer 사용
print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, \
                        Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

# 구두점을 별도로 분류함
# Don't 를 Don 과 '와 t로 분리
# Jone's를 Jone과 '와 s로 분리 

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [13]:
# 케라스의 text_to_word_sequence 사용
print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding name, \
                Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

# 모든 알파벳을 소문자로 바꾸면서 마침표와 컴마, 느낌표등의 구두점을 제거
# '는 보존함. 

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


### 3. 토큰화에서 고려해야할 사항
1) 구두점이나 특수 문자를 단순 제외해서는 안됨
- 예를들어 마침표같은 경우는 문장의 경계를 알 수 있음. 
- 단어자체에 구두점을 갖고있을수 있음. $45.55와 같이.. 
- 숫자사이에 컴마가 들어가는 경우가 있음 123,456,789


2) 줄임말과 단어 내에 띄어쓰기가 있는 경우 
- 예를들어 what're은 what are의 줄임말임
- New York 하나의 단어지만 중간에 띄어쓰기가 존재함

3) 표준 토큰화 예제 
- Penn Treebank Tokenization 
1. 하이푼으로 구성된 단어는 하나로 유지함
2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해줌 

In [15]:
# Penn Treebank Tokenization 사용 
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text))

# home-based는 하나의 토큰으로 취급 
# doesn't 는 does와 n't로 분리됨 

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 4. 문장 토큰화(Sentence Tokenization)
- 마침표를 기준으로 나누는게 꼭 정답은 아니다
- EX1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 aaa@gmail.com로 결과 좀 보내줘. 그 후 점심 먹으러 가자.

- EX2) Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year.

In [20]:
# NLTK의 영어문장 토큰화를 수행하는 sent_tokenize 사용 
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text)) 

text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

# 단순히 마침표로 구분하지 않았기때문에 성공적으로 문장을 구분함. 

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']
문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [24]:
# 한국어 KSS(Korean Sentence Splitter) 사용 
# !pip install kss
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

[Korean Sentence Splitter]: Initializing Pynori...


한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


### 5. 한국어에서의 토큰화의 어려움.

### 6. 품사 태깅(Part-of-speech tagging)
- 단어 표기는 같지만 품사에 따라서 단어의 의미가 달라짐 
- => fly(v): 날다 / fly(n): 파리 

### 7. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습 

In [27]:
# NLTK에서는 Penn Treebank POS Tags라는 기준을 사용하여 품사를 태깅함. 
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

#영어 문장에 대해 토큰화를 수행한 결과를 입력으로 품사 태깅을 수행함. 
# Penn Treebank POG Tags에서 PRP는 인칭 대명사, VBP는 동사, RB는 부사, 
# VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, 
# CC는 접속사, DT는 관사

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


## 02) 정제(Cleaning) and 정규화(Normalization)
- 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화라고 함
- 토큰화 작업 전, 후엔 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)하는 일이 항상 함께 함. 
- 정제(cleaning) : 갖고있는 코퍼스로부터 노이즈 데이터를 제거함
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어줌

### 1. 규칙에 기반한 표기가 다른 단어들의 통합 
- ex) USA, US 같은 의미를 가지므로 하나의 단어로 정규화 해볼 수 있음. 
- 표기가 다른 단어들을 통합하는 방법: 어간추출, 표제어 추출

### 2. 대, 소문자 통합
- 무작정 통합해서는 안됨. 예를들어 US와 us(우리)는 구분이 되어야함
- => 문장 맨 앞에서 나오는단어만 소문자로 변환시키는 방법이있음. 
- 종종 모든 코퍼스를 소문자로 바꾸는것이 실용적인 해결책이 되기도 함.

In [None]:
### 3. 불필요한 단어의 제거
- 노이즈 데이터: 불용어, 목적에 맞지 않는 불필요 단어들 
- 노이즈데이터를 제거하는 방법: 불용어제거, 등장빈도 낮은단어제거, 길이가 짧은단어 제거

(1) 등장 빈도가 적은 단어
(2) 길이가 짧은 단어 

# Tokenizing 함수

In [33]:
import re
import pandas as pd
import numpy as np
import json
from bs4 import BeautifulSoup
from nltk.corpus import stopwords
import nltk
# from tensorflow.python.keras.preprocessing.sequence import pad_sequences
# from tensorflow.python.keras.preprocessing.text import Tokenizer

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\bitcamp\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [None]:
#NLTK 영어 토큰화 
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

In [None]:
# 불용어 제거 
import re
text = "I was wondering if anyone out there could enlighten me on this car."

# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

In [None]:
#표제어 추출
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])

In [None]:
#어간추출 
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전 :', tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

In [None]:
# NLTK 불용어 제거 
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for word in word_tokens: 
    if word not in stop_words: 
        result.append(word) 

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',result)

In [None]:
#정규 표현식을 이용한 토큰화 
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer("[\w]+")
tokenizer2 = RegexpTokenizer("\s+", gaps=True)

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

In [None]:
#정수인코딩
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# 문장 토큰화
sentences = sent_tokenize(raw_text)
print(sentences)

vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []

    for word in tokenized_sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄인다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거한다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거한다.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    preprocessed_sentences.append(result) 
print(preprocessed_sentences)

In [None]:
#numpy 패딩
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

max_len = max(len(item) for item in encoded)
print('최대 길이 :',max_len)

for sentence in encoded:
    while len(sentence) < max_len:
        sentence.append(0)

padded_np = np.array(encoded)
padded_np

#keras 패딩
from tensorflow.keras.preprocessing.sequence import pad_sequences
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)
padded = pad_sequences(encoded)
padded

#기존에 5보다 짧은 문서들을 0으로 패딩 
padded = pad_sequences(encoded, padding='post', maxlen=5)
padded



In [None]:
#원핫인코딩
one_hot = to_categorical(encoded)
print(one_hot)

In [None]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

def tokeniz(sentences):
#정수인코딩
#문장 토큰화
sentences = sent_tokenize(raw_text)
# print(sentences)

vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []

    for word in tokenized_sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄인다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거한다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거한다.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    preprocessed_sentences.append(result) 
# print(preprocessed_sentences)
return preprocessed_sentences

In [None]:
def preprocessing(review, remove_stopwords = False):
    #불용어 제거는 선택이 가능하도록
    
    # HTML 태그 제거
    review_text = BeautifulSoup(review, "html5lib").get_text()
    
    # 영어가 아닌 특수문자를 공백(" ")으로 바꾸기
    review_text = re.sub("[^a-zA-Z]"," ", review_text)
    
    # 대문자를 소문자로 바꾸고 공백 단위로 텍스트를 나누어 리스트화
    words = review_text.lower().split()
    
    if remove_stopwords:
        # 불용어 제거
        
        # 영어 불용어 사전 불러오기
        stops = set(stopwords.words("english"))
        # 불용어가 아닌 단어로 이뤄진 새로운 리스트 생성
        words = [w for w in words if not w in stops]
        # 단어 리스트를 하나의 글로 합성
        clean_review = ' '.join(words)
        
    else: # 불용어 제거 옵션이 안 걸렸을시
        clean_review = ' '.join(words)
        
    return clean_review