<h1>텍스트 전처리(Text preprocessing)</h1>
: 용도에 맞게 텍스트를 처리하는 작업.<br><br>

<h1>토큰화(Tokenization)</h1>
: 주어진 코퍼스에서 토큰이라 불리는 단위로 나누는 작업. 보통 의미있는 단위로 토큰 정의.<br>
<h2>단어 토큰화(Word Tokenization)</h2>
: 토큰의 기준을 단어(word)로 하는 경우<br>
 - 단순히 구두점이나 특수문자를 전부 제거하는 정제(cleaning) 작업을 수행하는 것만으로 해결되지 않음.<br>

<h2>NLTK</h2>
: 영어 코퍼스를 토큰화하기 위한 도구 제공

 - word_tokenize를 사용하여 처리한 구문<br>
    Don't를 Do와 n't로 분리, Jone's는 Jone과 's로 분리

In [1]:
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


 - WordPunctTokenizer를 사용하여 처리한 구문<br>
    Don't를 Don, ', t로 분리, Jone's를 Jone, ', s로 분리

In [2]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


 - 케라스의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점 제거.
 - Don't나 Jone's같은 경우 ' 보존

In [3]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


<h2>토큰화 시 고려사항</h2>
<h3>1. 구두점이나 특수문자를 단순 제외해서는 안 된다.</h3><br>
 - 단어들을 걸러낼 때, 구두점이나 특수 문자를 단순히 제외하는 것은 옳지 않다.<br>
<h3>2. 줄임말과 단어 내에 띄어쓰기가 있는 경우</h3><br>
 - 사용 용도에 따라서, 하나의 단어 사이에 띄어쓰기가 있는 경우에도 하나의 토큰으로 봐야하는 경우도 있을 수 있으므로, 토큰화 작업은 단어를 하나로 인식할 수 있는 능력도 가져야함.<br>
<h3>3. 표준 토큰화 예제</h3><br>
<b>Penn Treebank Tokenization의 규칙</b><br>
 - 하이픈으로 구성된 단어는 하나로 유지<br>
 - doesn't와 같이 '로 '접어'가 함께하는 단어 분리<br>

In [4]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


<h2>문장 토큰화(Sentence Tokenization, 문장 분류)</h2>
: 토큰의 단위가 문장(sentence)일 때의 토큰화 수행 방법<br><br>
sent_tokenize를 이용한 NLTK 문장 토큰화 실습

In [5]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


문장 중간에 마침표가 여러번 등장하는 경우

In [6]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에, Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식.

Collecting kss
  Downloading kss-2.5.1-py3-none-any.whl (65 kB)
Installing collected packages: kss
Successfully installed kss-2.5.1
Note: you may need to restart the kernel to use updated packages.
