---
# *Text Preprocessing*
---
1. *Tokenization*
2. *Cleaning and Nomalization*
3. *Stemming and Lemmatization*
4. *Stopword*
5. *Regular Expression*
6. *Integer Encoding*
7. *Padding*
8. *One-Hot-Encoding*
9. *Splitting Data*
10. *Text Preprocessing Tools for Koreans Text*

### ***1. Tokenization***

 - *자연어처리에서 크롤링 등으로 얻어낸 **코퍼스(corpus)** 데이터를 토큰(token)이라 불리는 단위로 작업이며 의미있는 단위로 토큰을 정의*
 
     - ***corpus(말뭉치)***
        - 자연어처리를 위한 문장들로 구성된 데이터셋
        - 자연어처리 연구를 염두에 두고 수집된 대량의 텍스트 데이터
        - parallel corpus : I love to go to school == 나는 학교에 가는 것을 좋아한다 -> labeling
        
 
#### 1. ***단어 토큰화***
 - *구두점(punctuation)과 같은 문자를 제외 시키는 단어 토큰화* 
>*입력 : Time is an illusion. Lunchtime double so!* <br>
*출력 : "Time", "is", "an", "illustion", "Lunchtime", "double", "so"*
 - *하지만 이런 토큰화 과정 중에서는 예상치 못한 문제점이 존재*
>*입력 : **Don't** be fooled by the dark sounding name, Mr. **Jone's** Orphanage is as cheery as cheery goes for a pastry shop.* <br>
*출력 : ???* <br> <br>
*How to tokenization with **Don't** and **Jone's** word?* <br>
*1. word_tokenize(nltk) :* ***[Do / n't]*** *,* ***[Jone / 's]***<br>
*2. WordPunctTokenizer(nltk) : **[Don / ' / t]**, **[Jone / ' / s]** => 구두점을 별도로 분리*<br>
*3. text_to_word_sequence(tensorflow) : **[Don't]**, **[Jone's]** => 구두점을 제거하되 아포스트로피는 보존*<br>
***=> 코드를 통해 알아보자***


In [1]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [2]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


 - *단어 토큰화 시 고려사항*
 > *1) 구두점이나 특수문자를 제외 할 경우 : **.**(문장의 마침을 의미) / **M&M**(구두점을 포함하는 단어) / **$-** (가격이나 날짜를 의미하는 단어) 등*<br>
*2) 줄임말과 단어 내에 뛰어쓰기가 있는 경우 : we're -> we are / New York (뛰어쓰기가 포함되어야 하는 단어)*

 - *표준 토큰화 예제 : TreebankWordTokenizer(nltk)*
     - *하이푼(-)으로 구성된 단어는 하나로 유지*
     - *아포스트로피로 접어가 함께하는 단어는 분리*
 

In [4]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


#### 2. ***문장 토큰화(Sentence Tokenization)***
