> **텍스트 전처리** : 용도에 맞게 텍스트를 사전에 처리하는 작업

# 1. Tokenization 
- <font color=red>**토큰화(Tokenization)**</font> : 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업
- 코퍼스 데이터를 용도에 맞게 **토큰화(Tokenization), 정제(Cleaning), 정규화(Normalization)** 해야 함

## 1) 단어 토큰화(Word Tokenization)
> 토큰의 기준을 단어(word)로 하는 경우

- 단어 단위 외에도, 단어구, 의미를 갖는 문자열로 간주되기도 함
- Examples : **Time is an illusion. Lunchtime double so!**
    - 구두점(punctuation) : 온점(.), 컴마(,), 물음표, 세미콜론(;), 느낌표 등과 같은 기호들
    - 구두점과 같은 문제를 제외시키는 간단한 단어 토큰화 : "Time", "is", "an", "illusion", "Lunchtime", "double", "so"
    - 방법 : 구두점을 지운 뒤에, 공백을 기준으로 자름(split)
    
- 구두점이나 특수문자를 전부 제거하면 토크니 의미를 잃어버리는 경우도 발생함

## 2) 토큰화 중 생기는 선택의 순간
- Example
    - **Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.**
    
- 기존의 공개된 도구들을 사용했을 떄, 결과가 사용자의 목적과 일치한다면 해당 도구 사용--> <font color=red>NLTK</font>

In [17]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jnh78\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\jnh78\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [1]:
from nltk.tokenize import word_tokenize

print(word_tokenize("""Don't be fooled by the dark sounding name, 
                    Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."""))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [2]:
# 구두점을 별도로 분류하는 특징
from nltk.tokenize import WordPunctTokenizer

print(WordPunctTokenizer().tokenize("""Don't be fooled by the dark sounding name, 
                    Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."""))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
# 케라스의 text_to_text_sequence는 모든 알파벳을 소문자로 바꾸고 구두점을 제거하지만 어포스트로피(')는 보존
from tensorflow.keras.preprocessing.text import text_to_word_sequence

print(text_to_word_sequence("""Don't be fooled by the dark sounding name, 
Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."""))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 3) 토큰화에서 고려해야할 사항

- 구두점이나 특수 문자를 단순 제외해선 안됌
    - Ph.D, AT&T, 01/02/06, $45.55 등
- 줄임말과 단어 내에 띄어쓰기가 있는 경우
    - what are = what're, we are = we're
    - New York, rock 'n' roll : 하나의 단어지만 중간에 띄어쓰기가 존재

- 표준 토큰화 예제(아래 셀 참고)
    - Penn Treebank Tokenization의 규칙
        - 규칙1 : 하이픈(-)으로 구성된 단어는 하나로 유지
        - 규칙2 : doesn't와 같이 어포스트로피(')로 '접어'가 함께하는 단어는 분리

In [4]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 4) 문장 토큰화(Sentence Tokenization)
> 온점(.)이 꼭 문장을 명확하게 구분해주진 못한다.


EX1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.

EX2) Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year.

----------
각 예제에서 첫번째 문장이 어디에서 끝나는지 확인하기 위해서 .을 기준으로 자르는 것은 부정확...  

코퍼스가 어떤 국적의 언어인지, 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라서 직접 규칙들을 정의해볼 수 있음 (100% 정확도는 어려움..)

In [5]:
# NLTK에서 영어 문장의 토큰화를 수행하는 sent_tokenize를 지원
from nltk.tokenize import sent_tokenize

text="""His barber kept his word. But keeping such a huge secret to himself was driving him crazy. 
Finally, the barber went up a mountain and almost to the edge of a cliff. 
He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."""

print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


In [6]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- **KSS(Korean Sentence Splitter)** : 박상길님이 개발한 한국어 문장 토큰화 도구

In [7]:
!pip install cython



In [13]:
!pip install kss

Collecting kss
  Downloading https://files.pythonhosted.org/packages/fc/bb/4772901b3b934ac204f32a0bd6fc0567871d8378f9bbc7dd5fd5e16c6ee7/kss-1.3.1.tar.gz
Building wheels for collected packages: kss
  Building wheel for kss (setup.py): started
  Building wheel for kss (setup.py): finished with status 'error'
  Running setup.py clean for kss
Failed to build kss
Installing collected packages: kss
    Running setup.py install for kss: started
    Running setup.py install for kss: finished with status 'error'


  ERROR: Command errored out with exit status 1:
   command: 'C:\Users\jnh78\Anaconda3\envs\tutorial\python.exe' -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\\Users\\Public\\Documents\\ESTsoft\\CreatorTemp\\pip-install-wvd6lngp\\kss\\setup.py'"'"'; __file__='"'"'C:\\Users\\Public\\Documents\\ESTsoft\\CreatorTemp\\pip-install-wvd6lngp\\kss\\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(__file__);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' bdist_wheel -d 'C:\Users\Public\Documents\ESTsoft\CreatorTemp\pip-wheel-56hbk2g3' --python-tag cp37
       cwd: C:\Users\Public\Documents\ESTsoft\CreatorTemp\pip-install-wvd6lngp\kss\
  Complete output (5 lines):
  running bdist_wheel
  running build
  running build_ext
  building 'kss' extension
  error: Microsoft Visual C++ 14.0 is required. Get it with "Build Tools for Visual Studio": https://visualstudio.microsoft.com/downloads/
  --------------------------

In [8]:
import kss

text='''딥 러닝 자연어 처리가 재미있기는 합니다. 
그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 
농담아니에요. 이제 해보면 알걸요?'''
print(kss.split_sentences(text))

ModuleNotFoundError: No module named 'kss'

## 5) 이진분류기
> 문장 토큰화에서의 예외 사항을 발생시키는 온점 처리를 위해서 입력에 따라 두 개의 클래스로 분류하는 이진 분류기(binary classifier)를 사용

- 두 개의 클래스?
    - 1) 온점이 약어(abbreviation)으로 쓰이는 겨우
    - 2) 온점이 정말로 문장의 구분자일 경우
    
- 이진 분류기는 임의로 정한 여러가지 규칙을 코딩한 함수일 수도 있는데 머신러닝을 통해 이진 분류기를 구현하기도 함.
- 온점이 어떤 클래스에 속하는지 알기 위해서는 어떤 온점이 주로 약어로 쓰이는지 알아야 함 --> <font color=red>**약어사전**</font> 중요 
- 영어권의 경우, [Oxford English Dictionary](https://public.oed.com/how-to-use-the-oed/abbreviations/) 참조
- 문장 토큰화 규칙을 짤 때, 발생할 수 있는 여러가지 예외사항을 다룬 참고자료를 보고 싶으면 [이곳](https://tech.grammarly.com/blog/posts/How-to-Split-Sentences.html) 참조

## 6) 한국어 토큰화 어려움
- 한국어는 교착어 --> 형태소(morpheme)를 반드시 이해해야함...
- 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

## 7) 품사 태깅(Part-of-speech tagging)

## 8) NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습
- NLTK
    - Penn Treebank POS Tags라는 기준 적용
    
- KoNLPy
    - KoNLPy를 통해서 사용할 수 있는 형태소 분석기들 : **Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)**
    - 한국어 NLP에서 형태소 분석기 사용 --> 단어 토큰화가 아니라 **형태소 토큰화**

In [1]:
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))
print('\n')

from nltk.tag import pos_tag
x=word_tokenize(text)
print(pos_tag(x))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


[('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [7]:
from konlpy.tag import Okt

okt=Okt()
# 형태소 추출
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

# pos : 품사 태깅
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"), '\n')

# 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')] 

['코딩', '당신', '연휴', '여행']


In [8]:
from konlpy.tag import Kkma

kkma=Kkma()
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
['코딩', '당신', '연휴', '여행']


Okt 형태소 분석기와 Kkma 형태소 분석기의 결과가 다름...  
$\Longrightarrow$ **필요 용도에 어떤 형태소 분석기가 가장 적절한지 판단하고 사용하면 됌**