# 2. Text Preprocessing  
+ Tokenization : 토큰화
+ Cleaning : 정제 
+ Normalization : 정규화

## 2-1. 토큰화(Tokenization)  
`Corpus(말뭉치)` -> `Token(토큰)`  
+ 토큰 : 의미있는 단위

### 2-1-1. 단어 토큰화(Word Tokenization)  
토큰의 기준을 단어로 하면 `word tokenization`이라고 함  
+ `단어` : 단어/단어구/유의미한 문자열 통칭함   
+ 예시 : 구두점 제외 토큰화  
    + 구두점 Cleaning
    + 띄어쓰기 기준으로 자르기

__NLTK__는 영어 코퍼스를 토큰화하기 위한 도구들을 제공  
+ word_tokenize
+ WordPunctTokenizer

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [None]:
# word_tokenize
string="Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
print('Word Tokenize v1 : ',word_tokenize(string))

Word Tokenize v1 :  ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
# WordPunctTokenizer
print('Word Tokenize v2 : ',
      WordPunctTokenizer().tokenize(string))

Word Tokenize v2 :  ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


WordPunctTokenizer는 구두점을 별도로 분류함

In [None]:
# keras text_to_word_sequence
print('Word Tokenize v3 : ',
      text_to_word_sequence(string))

Word Tokenize v3 :  ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


keras.text_to_word_sequence는 모두 소문자 변환, 구두점제거, `'`는 제거 안함

### 2-1-3. 토큰화에서 고려해야할 사항  
+ 구두점/특수문자 단순 제외 처리 안됨  
    ex) Ph.D, $45.55 등등..
+ 줄임말과 단어 내 띄어쓰기
    ex) we're : we are (clitic 접어), New York  
+ 표준 토큰화 예제  
__Penn Treeback Tokenization__ :표준 토큰화 방법
    + Rule1) -하이픈으로 구성된 단어는 하나로 유지
    + Rule2) doesn't와 같이 <'>로 접어가 함께하는 단어는 분리한다.

In [None]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer=TreebankWordTokenizer()

text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('Treebank WT : ',
      tokenizer.tokenize(text))

Treebank WT :  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 2-1-4. 문장 토큰화 (Sentence Tokenization)  
토큰의 단위가 문장일 때,  
코퍼스 -> 문장 단위로 구분  
__Sentence Segmentation__ 
+ 구두점으로 구분하자! -> 안됨 <.>의 경우 예외 존나 많다

In [None]:
# nltk.tokenize.sent_tokenize
from nltk.tokenize import sent_tokenize

text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('Sentence Toknization v1 : ',
      sent_tokenize(text))

Sentence Toknization v1 :  ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


Good!

In [None]:
text= "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('Sentence Toknization v2 : ',
      sent_tokenize(text))

Sentence Toknization v2 :  ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


Good!  
Ph.D 잘 넘어감!

In [None]:
# KSS(Korean Sentence Splitter)
!pip install kss

In [None]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('KSS : ',
      kss.split_sentences(text))

KSS :  ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


### 2-1-5. 한국어에서의 토큰화의 어려움  
+ 교착어의 특성  
    + `교착어` : 조사, 어미 등을 붙여서 말을 만드는 언어  
    + `형태소`(morpheme)  
        + __자립형태소__: 그 자체로 단어가 되는 형태소
            체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등   
        + __의존형태소__: 다른 형태소와 결합하여 사용되는 형태소  
            접사,어미,조사,어간  
        ex) _에디가 책을 읽었다_  
            자립 : 에디, 책  
            의존 : -가, -을, 읽-,-었-,-다  
        + 한국어에서는 `형태소 토큰화`를 하자!  
+ 띄어쓰기가 애매함 -> 굳이 안해도 해석될 때가 많음

### 2-1-6. 품사 태깅 (Part-of-speech Taggging)  
ex. __못__ 
+ 명사 : ⚒️
+ 부사 : ❌ 

### 2-1-7. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습  
NLTK에서는 Pee Treebank POS Tags를 기준으로 품사 태깅함

In [None]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [None]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence=word_tokenize(text)

print('Word Tokenization : ', tokenized_sentence)
print('Pos Tagging : ',pos_tag(tokenized_sentence))

Word Tokenization :  ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
Pos Tagging :  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


[참고]  
+ PRP : 인칭대명사
+ VBP : 동사
+ RB : 부사 ... 등등

KoNLPy 패키지에서 사용가능한 형태소 분석기 
+ Okt(Open Korea Text)
+ 메캅(Mecab)
+ 코모란(Komoran)
+ 한나눔(Hannanum)
+ 꼬꼬마(Kkma)

In [None]:
!pip install konlpy

In [None]:
# Morpheme Tokenization with KoNLPy
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt=Okt()
kkma=Kkma()

text='열심히 코딩한 당신, 연휴에는 여행을 가봐요'

print('Okt 형태소 분석: ',okt.morphs(text))
print('Okt 품사 태깅 : ',okt.pos(text))
print('Okt 명사 추출 : ',okt.nouns(text))

Okt 형태소 분석:  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
Okt 품사 태깅 :  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
Okt 명사 추출 :  ['코딩', '당신', '연휴', '여행']


In [None]:
print('Kkma 형태소 분석: ',kkma.morphs(text))
print('Kkma 품사 태깅 : ',kkma.pos(text))
print('Kkma 명사 추출 : ',kkma.nouns(text))

Kkma 형태소 분석:  ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
Kkma 품사 태깅 :  [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
Kkma 명사 추출 :  ['코딩', '당신', '연휴', '여행']


## 2-2. 정제(Cleaning)와 정규화(Normalization)  
[Recap] `Tokenization`  : Corpus ➡️ Token  
+ `Cleaning` : 노이즈 데이터 제거
+ `Normalization` : 표현 방법이 다른 단어들을 통하하여 같은 단어로 정규화


### 2-2-1. 규칙에 기반한 표기가 다른 단어들의 통합  
ex. US, USA 등
+ stemming : 어간 추출
+ lemmatization : 표제어 추출

### 2-2-3. 불필요한 단어의 제거  
+ 불용어 제거
+ 등장 빈도가 적은 단어  
    ex. 100,000개의 메일 중 5번만 등장한 단어 -> spam/ham 구별하는 데 도움 안됨
+ 길이가 짧은 단어  
    영어는 길이가 2~3 이하인 단어를 제거하는 것만으로도 노이즈 제거 효과가 있음

In [None]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."

# 길이가 1~2인 단어들을 삭제
shortword=re.compile(r'\W*\b\w{1,2}\b')
shortword.sub('',text)

' was wondering anyone out there could enlighten this car.'

## 2-3. 어간 추출(Stemming) & 표제어 추출(Lemmatization)  
Normalization 기법 중 코퍼스의 단어 개수를 줄이는 기법  
  
+ 서로 다른 단어지만 하나의 단어로 일반화시켜 문서 내 단어의 수를 줄이는 것이 목표  
+ 코퍼스의 복잡성을 줄이는 것이 정규화의 주목표

### 2-3-1. Lemmatization : 표제어 추출  
+ `표제어(Lemma)` : 사전형 단어  
> ex. am, are, is -> be(표제어)  
+ 표제어를 추출하는 방법  
    + 형태학적 파싱  
    형태소 : `어간(Stem)` & `접사(affix)`
    + __어간(Stem)__ : 단어의 의미를 담은 부분
    + __접사(Affix)__ : 추가적인 의미
    + cats = cat + s

In [5]:
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [7]:
# nltk 표제어추출도구
from nltk.stem import WordNetLemmatizer

lemmatizer=WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 
         'lives', 'fly', 'dies', 'watched', 'has', 'starting']
lemma=[lemmatizer.lemmatize(word) for word in words]

print('Lemmatization 전 : ',words)
print('Lemmatization 후 : ',lemma)

Lemmatization 전 :  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
Lemmatization 후 :  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


표제어추출(Lemmatization)은 어간추출(Stemming)과 달리 단어의 형태가 적절히 보존됨  
+ dies -> dy
+ has -> ha  
Lemmatizer는 단어의 품사 정보를 같이 입력해야 더 정확히 표제어 추출이 가능함

In [8]:
lemmatizer.lemmatize('dies','v')

'die'

In [9]:
lemmatizer.lemmatize('has','v')

'have'

In [10]:
lemmatizer.lemmatize('watched','v')

'watch'

### 2-3-2. 어간추출(Stemming)
+ 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도

In [14]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [16]:
# Porter Algorithm
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer=PorterStemmer()

string= "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
t_string=word_tokenize(string)
stems=[stemmer.stem(word) for word in t_string]

print('Stemming 전 : ',t_string)
print('Stemming 후 : ',stems)

Stemming 전 :  ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
Stemming 후 :  ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [18]:
# Porter Algorithm의 이해
words=['formalize', 'allowance', 'electricical']
stems=[stemmer.stem(word) for word in words]

print('Stemming 전 : ',words)
print('Stemming 후 : ',stems)

Stemming 전 :  ['formalize', 'allowance', 'electricical']
Stemming 후 :  ['formal', 'allow', 'electric']


보통 Stemming은 Lemmatization보다 속도가 빠름  
+ Porter Stemmer는 꽤나 준수한 성능을 보임 

In [20]:
# Lancaster Stemmer
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer= LancasterStemmer()

words= ['policy', 'doing', 'organization', 'have', 'going', 'love', 
        'lives', 'fly', 'dies', 'watched', 'has', 'starting']
p_stems=[porter_stemmer.stem(word) for word in words]
l_stems=[lancaster_stemmer.stem(word) for word in words]

print('Stemmg 전 : ',words)
print('Porter Stemming : ',p_stems)
print('Lancaster Stemming : ',l_stems)

Stemmg 전 :  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
Porter Stemming :  ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
Lancaster Stemming :  ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


In [22]:
# Lemmatization과 Stemming의 차이
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer
import pandas as pd

lemmatizer=WordNetLemmatizer()
stemmer=PorterStemmer()

words=['am','the going','having']
lemmas=[lemmatizer.lemmatize(word) for word in words]
stems=[stemmer.stem(word) for word in words]

pd.DataFrame({
    'words' : words,
    'Lemmatization' : lemmas,
    'Stemming' : stems
})

Unnamed: 0,words,Lemmatization,Stemming
0,am,am,am
1,the going,the going,the go
2,having,having,have


### 2-3-3. 한국어에서의 어간 추출

+ 한국어의 5언 9품사  

|5언|9품사|
|---|---|
|체언|명사, 대명사, 수사|
|수식언|관형사, 부사|
|관계언|조사|
|독립언|감탄사|
|용언|동사, 형용사|  

+ 용언의 활용
    + 규칙 활용 : 용언의 활용시 어간 변화 x  
        ex) 잡다 - 잡았다 - 잡아
    + 불규칙 활용 : 용언의 활용시 어간 변화 O  
        ex) 듣다 - 들었다 - 들어


## 2-4. 불용어(Stopword)  
NLTK에서는 100개 정도의 영어 불용어를 정의해 두었음

In [None]:
!pip install konlpy

In [26]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [24]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

### 2-4-1. NLTK에서 불용어 확인하기

In [29]:
stopword_list=stopwords.words('english')

print('불용어 개수 : ',len(stopword_list))
print(stopword_list[:10])

불용어 개수 :  179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


### 2-4-2. NLTK를 통해서 불용어 제거하기

In [32]:
example="Famliy is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens=word_tokenize(example)

result=[]
for word in word_tokens:
    if word not in stop_words:
        result.append(word)

print('불용어 제거 전 : ',word_tokens)
print('불용어 제거 후 : ',result)

불용어 제거 전 :  ['Famliy', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 :  ['Famliy', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


In [31]:
word_tokens

['Famliy',
 'is',
 'not',
 'an',
 'important',
 'thing',
 '.',
 'It',
 "'s",
 'everything',
 '.']

### 2-4-3. 한국어에서 불용어 제거하기 
토큰화 후 -> 조사, 접속사 제거

In [33]:
okt=Okt()

example="고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."

stop_words='를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는'
stop_words=set(stop_words.split(' '))

word_tokens=okt.morphs(example) # 형태소 토큰화

result=[word for word in word_tokens if not word in stop_words]

In [34]:
print('불용어 제거 전 : ',word_tokens)
print('불용어 제거 후 : ',result)

불용어 제거 전 :  ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 :  ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


[불용어 리스트]( https://www.ranks.nl/stopwords/korean)