<a href="https://colab.research.google.com/github/Zero-Sik/-Server-Replication/blob/master/Text_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텍스트 전처리(Text preprocessing)

 - 자연어 처리에 있어서 텍스트 전처리는 매우 중요한 작업이다.
 - 텍스트 전처리는 용도에 맞게 텍스트를 사전에 처리하는 작업(요리에 있어서 재료를 제대로 손질 하지 않으면, 요리가 제대로 되지 않는 것과 같다.).
 - 텍스트에 대해서 제대로 된 전처리를 하지 않으면 뒤에서 배울 자연어 처리 기법들이 제대로 동작 안함.
 

## 토큰화(Tokenization)
 - 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰회(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됨.

 - 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부름.
 - 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의함.
 - 

### 단어 토큰화(Word Tokenization)
 - 단어(Word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주됨.
 - 예) 아래의 입력으로부터 구두점(punctuation)과 같은 문자는 제외 시키는 간단한 단어 토큰화 작업 실시.
  -구두점이란, 은점(.), 컴마(,), 물음표(?), 세미콜론(;), 느낌표(!) 등과 같은 기호.
  - 입력 : Time is an illusion. Lunchtime double so!
   - 이러한 입력으로부터 구두점을 제외시킨 토큰화 작업의 결과는 다음과 같다.
    - 출력 : "Time", "is", "an", "illusion", 'double', "so"

  - 예제에서 토큰화 작업은 굉장히 간단하며, 구두점을 지운 뒤에 띄어쓰기(whitespace)를 기준으로 잘라냄.


 - 특수문자를 전부 제거하는 정제(cleaning) 작업을 수행하는 것만으로 해결되지 않음.
 - 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생.




### 토큰화 중 생기는 선택의 순간
 - 토큰화의 기준
  - 해당 데이터를 가지고 어떤 용도로 사용할 것인지에 따라, 그 용도에 영향이 없는 기준으로 정하면 된다.
  - 예) 영어권 언어에서 아포스트로피를(')가 들어가있는 단어는 어떻게 토큰으로 분류해야될까라는 문제

   - 예) Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.
   아포스트로피가 들어간 상황에서 Don't와 Jone's는 어떻게 토큰화 시킴?


   - Don't
   - Don t
   - Dont

   - Do n't

   Jone's
   - Jone s
   - Jone
   - Jones


  - 원하는 결과가 나오도록 토큰화 도구를 직접 설계할 수도 있지만, 기존에 공개된 도구들을 사용하였을 때의 결과가 사용자의 목적과 일치한다면 해당 도구를 사용할 수 도 있을 것임.
  - NLTK는 영어 코퍼스를 토큰화하기 위한 도구를 제공.
  - 그 중 work_tokenize와 WordPunctTokenizer를 사용해서 NLTK에서는 아포스트로피를 어덯게 처리하는지 확인.
  

In [0]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- word_tokenize는 Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Jone과 's로 분리한 것을 확인.

In [0]:
from nltk.tokenize import WordPunctTokenizer  #wordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기 때문에, 앞서 확인했던 word_tokenize와는 달리 Don't를 Don과 '와 t로 분리함.


In [0]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- 케라스의 text_to_word_sequence는 기본적으로 모든 알파뱃을 소문자로 바꾸면서 온점이나 컴마, 느낌표 등의 구두점을 제거. 하지만 don't나 'jone's와 같은 경우 아포스트로피는 보존.


### 토큰화에서 고려해야할 사항
 - 토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업이라고 간주할 수 없다.
 - 이러한 일은 섬세한 알고리즘이 필요한데, 왜 섬세해야하는지 그 이유를 정리할 것.


  - 1) 구두점이나 특수 문자를 단순 제외해서는 안 된다.
   - 갖고 있는 코퍼스에서 단어들을 걸러낼 떄, 구두점이나 특수 문자를 단순히 제외하는 것은 옳지 않다.
   -코퍼스에 대한 정제 작업을 진행하다보면 구두점조차도 하나의 토큰으로 분류함.
  

  - 2) 줄임말과 단어 내에 띄어쓰기가 있는 경우
   - 토큰화 작업에서 종종 영어권 언어의 아포스트로피(')는 압축된 단어를 다시 펼치는 역할을 하기도 한다.
   - 예) what're는 what are의 줄임말. we're는 we are의 줄임말. 
   - 토큰화 작업은 저러한 단어를 하나로 인식할 수 있는 능력도 가져야함.
   

  - 3) 표준 토큰화 예제
   - 이해를 돕기 위해, 표준으로 쓰이고 있는 토큰화 방법 중 하나인 Penn Treeback Tokenization의 규칙


    - 규칙 1. 하이푼으로 구성된 단어는 하나로 유지.
    - 규칙 2. doesn't와 같이 아포스트로피 '접어'가 함께하는 단어는 분리
   
    - 해당 표준에 아래의 문장을 input을 넣어줌
   
   - "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
   



   

In [8]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))



['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


- 결과를 보면, 각각 규칙1과 규칙2에 따라서 horm-based는 하나의 토큰으로 취급하고 있으며, dosen't의 경우 dose와 n't는 분리 되었음.

### 문장 토큰화(Sentence Tokenization)


 - 토큰의 단위가 문장(sentence)일 떄의 방법.

 - 코퍼스 내에서 문장 단위로 구분하는 작업으로 떄로는 문장 분류(sentence segmentation)라고 부름,


 - 코퍼스는 문장 단위로 구분되어 있지 않는 가능성이 높음.
 - 사용하고자 하는 용도에 맞게 하기 위해서는 문장 토큰화가 필요함.



 - EX1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 youngsik3200@gmail.com로 결과 보내기.


 - EX2) Since I'm actively looking for Ph.D sutends, I get the same question a dozen times every year.


 - 첫 문장 : 보내줘.
 - 두 번쨰 문장 : year.
  - 단순히 온점(.)으로 문장을 구분짓는다고 가정하면, 문장의 끝이 나오기 전에 이미 온점이 여러번 등장하여 예상한 결과가 나오지 않게 됨.

  - 그렇기 때문에 사용하는 코퍼스가 어떤 국적의 언어인지, 또는 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라서 직접 규칙들을 정의해볼 수 있다.
  - 물론, 100% 정확도를 얻는 일은 쉬운 일이 아님.
  - 갖고 있는 코퍼스 데이터에 오타나, 문장의 구성이 엉망이라면 정해놓은 규칙이 소용이 없을 수 있음


  -NLTK에서는 영어 문장의 토큰화를 수행하는 sent_tokenize를 지원


  


In [6]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."
print(sent_tokenize(text))
# text에 저장된 여러 개의 문장들로부터 문장을 구분하는 코드.


LookupError: ignored

In [7]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

LookupError: ignored

  - NLTK는 단순히 온점을 구분자로 하여 문장을 구분하지 않기 때문에, Ph.D.를 문장내의 단어로 인식하여 성공적으로 인식하는 것을 볼 수 있음.

  - 물론 한국어에 대한 묹아 토큰화 도구가 존재함.
  - 한국어 대해 문장 토큰화 도구가 여럿있지만, 여기에서는 박상길님이 개발한 KSS(Korean Sentence Splitter).


  - pip install kss

In [9]:
import kss  # 한국어 문장 사용.
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

ModuleNotFoundError: ignored

### 이진 분류기(Binary Classifier)
 - 문장 토큰화에서의 예외 사항을 발생시키는 온점의 처리를 위해서 입력에 따라 두 개의 클래스로 분류하는 이진 분류기 사용.

 - 이진 분류기는 앞서 언급했듯이, 임의로 정한 여러가지 규칙을 코딩한 함수일 수도 있으며, 머신 러닝을 통해 이진 분류기를 구현하기도 함.

 - 온점(.)이 어떤 클래스에 속하는지 결정을 위해서는 어떤 온점이 주로 약어(abbreviation)으로 쓰이는 지 알아야 함.
 - https://public.oed.com/how-to-use-the-oed/abbreviations/
 - 이러한 문장 토큰화를 수행하는 오픈 소스로는 NLTK, OpenNLP, 스탠포드 CoreNLP, splitta, LingPipe 등이 있습니다. 문장 토큰화 규칙을 짤 때, 발생할 수 있는 여러가지 예외사항을 다룬 참고 자료로 아래 링크를 보면 좋습니다.

### 한국어에서의 토큰화의 어려움
 - 영어는 New York과 같은 합성어나 He's 와 같이 줄임말에 대한 예외처리만 한다면 띄어쓰기(Whitespace)를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동함.


 - 한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데, 즉 어절 토큰화는 한국어 NPL에서 지양되고 있다.
 - 어절 토큰화와 단어 토큰화가 같지 않기 때문입니다. 그 근본적인 이유는 한국어가 영어와ㅇ는 다른 형태를 가지는 언어인 교착어라는 점에서 기인합니다.


- 한국어는 교착어다.
 - 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이 되면 자연어 처리가 힘들고 번거로워지는 경우가 많다. 대부분의 한국어 NPL에서 조사는 분리해줄 필요가 있다.
 - 즉, 띄어쓰기 단위가 영어처럼 독립적인 단어라면 띄어쓰기 단위로 토큰화를 하면 되겠지만 한국어는 어절이 독립적인 단어로 구성되는 것이 아니라 조사 등의 무언가가 붙어있는 경우가 많아서 이를 전부 분리해줘야 한다는 의미.


 - 한국어 토큰화에서는 형태소(morpheme)란 개념을 반드시 이해해야 한다. 형태소(morphome)란 뜻을 가진 가장 작은 말의 단위를 말함.

  - 자립 형태소 : 접사,어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소, 그 자체로 단어가 된다. 체언(명사, 대명사, 수사) 수식언(관형사, 부사), 감탄사 등이 있다.
  - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소, 접사, 어미, 조사, 어간을 말한다.


   - 예를 들어.
    - 문장 : 에디가 딥러닝 책을 읽다.
    - 이를 형태소 단위로 분해하면 다음과 같다.
     -자립 형태소: 에디, 딥러닝책
     -의존 형태소 : -가, -을, -읽, -있, -다

  -이를 통해 유추할 수 있는 것은 한국어에서 영어에서의 단어 토큰화와 유사한 형태를 얻으려면 어절 토큰화가 아니라 형태소 토큰화를 수행.

- 2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.
 - 한국어 코퍼스가 뉴스 기사와 같이 띄어쓰기를 철저하게 지키려고 노력 함.
 - 한국어는 