# 2. Text Preprocessing  
+ Tokenization : 토큰화
+ Cleaning : 정제 
+ Normalization : 정규화

## 2-1. 토큰화(Tokenization)  
`Corpus(말뭉치)` -> `Token(토큰)`  
+ 토큰 : 의미있는 단위

### 2-1-1. 단어 토큰화(Word Tokenization)  
토큰의 기준을 단어로 하면 `word tokenization`이라고 함  
+ `단어` : 단어/단어구/유의미한 문자열 통칭함   
+ 예시 : 구두점 제외 토큰화  
    + 구두점 Cleaning
    + 띄어쓰기 기준으로 자르기

__NLTK__는 영어 코퍼스를 토큰화하기 위한 도구들을 제공  
+ word_tokenize
+ WordPunctTokenizer

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [None]:
# word_tokenize
string="Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
print('Word Tokenize v1 : ',word_tokenize(string))

Word Tokenize v1 :  ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
# WordPunctTokenizer
print('Word Tokenize v2 : ',
      WordPunctTokenizer().tokenize(string))

Word Tokenize v2 :  ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


WordPunctTokenizer는 구두점을 별도로 분류함

In [None]:
# keras text_to_word_sequence
print('Word Tokenize v3 : ',
      text_to_word_sequence(string))

Word Tokenize v3 :  ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


keras.text_to_word_sequence는 모두 소문자 변환, 구두점제거, `'`는 제거 안함

### 2-1-3. 토큰화에서 고려해야할 사항  
+ 구두점/특수문자 단순 제외 처리 안됨  
    ex) Ph.D, $45.55 등등..
+ 줄임말과 단어 내 띄어쓰기
    ex) we're : we are (clitic 접어), New York  
+ 표준 토큰화 예제  
__Penn Treeback Tokenization__ :표준 토큰화 방법
    + Rule1) -하이픈으로 구성된 단어는 하나로 유지
    + Rule2) doesn't와 같이 <'>로 접어가 함께하는 단어는 분리한다.

In [None]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer=TreebankWordTokenizer()

text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('Treebank WT : ',
      tokenizer.tokenize(text))

Treebank WT :  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 2-1-4. 문장 토큰화 (Sentence Tokenization)  
토큰의 단위가 문장일 때,  
코퍼스 -> 문장 단위로 구분  
__Sentence Segmentation__ 
+ 구두점으로 구분하자! -> 안됨 <.>의 경우 예외 존나 많다

In [None]:
# nltk.tokenize.sent_tokenize
from nltk.tokenize import sent_tokenize

text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('Sentence Toknization v1 : ',
      sent_tokenize(text))

Sentence Toknization v1 :  ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


Good!

In [None]:
text= "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('Sentence Toknization v2 : ',
      sent_tokenize(text))

Sentence Toknization v2 :  ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


Good!  
Ph.D 잘 넘어감!

In [None]:
# KSS(Korean Sentence Splitter)
!pip install kss

In [None]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('KSS : ',
      kss.split_sentences(text))

KSS :  ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


### 2-1-5. 한국어에서의 토큰화의 어려움  
+ 교착어의 특성  
    + `교착어` : 조사, 어미 등을 붙여서 말을 만드는 언어  
    + `형태소`(morpheme)  
        + __자립형태소__: 그 자체로 단어가 되는 형태소
            체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등   
        + __의존형태소__: 다른 형태소와 결합하여 사용되는 형태소  
            접사,어미,조사,어간  
        ex) _에디가 책을 읽었다_  
            자립 : 에디, 책  
            의존 : -가, -을, 읽-,-었-,-다  
        + 한국어에서는 `형태소 토큰화`를 하자!  
+ 띄어쓰기가 애매함 -> 굳이 안해도 해석될 때가 많음

### 2-1-6. 품사 태깅 (Part-of-speech Taggging)  
ex. __못__ 
+ 명사 : ⚒️
+ 부사 : ❌ 

### 2-1-7. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습  
NLTK에서는 Pee Treebank POS Tags를 기준으로 품사 태깅함

In [None]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [None]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence=word_tokenize(text)

print('Word Tokenization : ', tokenized_sentence)
print('Pos Tagging : ',pos_tag(tokenized_sentence))

Word Tokenization :  ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
Pos Tagging :  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


[참고]  
+ PRP : 인칭대명사
+ VBP : 동사
+ RB : 부사 ... 등등

KoNLPy 패키지에서 사용가능한 형태소 분석기 
+ Okt(Open Korea Text)
+ 메캅(Mecab)
+ 코모란(Komoran)
+ 한나눔(Hannanum)
+ 꼬꼬마(Kkma)

In [None]:
!pip install konlpy

In [None]:
# Morpheme Tokenization with KoNLPy
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt=Okt()
kkma=Kkma()

text='열심히 코딩한 당신, 연휴에는 여행을 가봐요'

print('Okt 형태소 분석: ',okt.morphs(text))
print('Okt 품사 태깅 : ',okt.pos(text))
print('Okt 명사 추출 : ',okt.nouns(text))

Okt 형태소 분석:  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
Okt 품사 태깅 :  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
Okt 명사 추출 :  ['코딩', '당신', '연휴', '여행']


In [None]:
print('Kkma 형태소 분석: ',kkma.morphs(text))
print('Kkma 품사 태깅 : ',kkma.pos(text))
print('Kkma 명사 추출 : ',kkma.nouns(text))

Kkma 형태소 분석:  ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
Kkma 품사 태깅 :  [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
Kkma 명사 추출 :  ['코딩', '당신', '연휴', '여행']


## 2-2. 정제(Cleaning)와 정규화(Normalization)  
[Recap] `Tokenization`  : Corpus ➡️ Token  
+ `Cleaning` : 노이즈 데이터 제거
+ `Normalization` : 표현 방법이 다른 단어들을 통하하여 같은 단어로 정규화


### 2-2-1. 규칙에 기반한 표기가 다른 단어들의 통합  
ex. US, USA 등
+ stemming : 어간 추출
+ lemmatization : 표제어 추출

### 2-2-3. 불필요한 단어의 제거  
+ 불용어 제거
+ 등장 빈도가 적은 단어  
    ex. 100,000개의 메일 중 5번만 등장한 단어 -> spam/ham 구별하는 데 도움 안됨
+ 길이가 짧은 단어  
    영어는 길이가 2~3 이하인 단어를 제거하는 것만으로도 노이즈 제거 효과가 있음

In [71]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."

# 길이가 1~2인 단어들을 삭제
shortword=re.compile(r'\W*\b\w{1,2}\b')
shortword.sub('',text)

' was wondering anyone out there could enlighten this car.'

## 2-3. 어간 추출(Stemming) & 표제어 추출(Lemmatization)  
Normalization 기법 중 코퍼스의 단어 개수를 줄이는 기법  
  
+ 서로 다른 단어지만 하나의 단어로 일반화시켜 문서 내 단어의 수를 줄이는 것이 목표  
+ 코퍼스의 복잡성을 줄이는 것이 정규화의 주목표

### 2-3-1. Lemmatization : 표제어 추출  
+ `표제어(Lemma)` : 사전형 단어  
> ex. am, are, is -> be(표제어)  
