<h1>텍스트 전처리(Text preprocessing)</h1>
: 용도에 맞게 텍스트를 처리하는 작업.<br><br>

<h1>토큰화(Tokenization)</h1>
: 주어진 코퍼스에서 토큰이라 불리는 단위로 나누는 작업. 보통 의미있는 단위로 토큰 정의.<br>
<h2>단어 토큰화(Word Tokenization)</h2>
: 토큰의 기준을 단어(word)로 하는 경우<br>
 - 단순히 구두점이나 특수문자를 전부 제거하는 정제(cleaning) 작업을 수행하는 것만으로 해결되지 않음.<br>

<h2>NLTK</h2>
: 영어 코퍼스를 토큰화하기 위한 도구 제공

 - word_tokenize를 사용하여 처리한 구문<br>
    Don't를 Do와 n't로 분리, Jone's는 Jone과 's로 분리

In [1]:
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


 - WordPunctTokenizer를 사용하여 처리한 구문<br>
    Don't를 Don, ', t로 분리, Jone's를 Jone, ', s로 분리

In [2]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


 - 케라스의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점 제거.
 - Don't나 Jone's같은 경우 ' 보존

In [3]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


<h2>토큰화 시 고려사항</h2>
<h3>1. 구두점이나 특수문자를 단순 제외해서는 안 된다.</h3><br>
 - 단어들을 걸러낼 때, 구두점이나 특수 문자를 단순히 제외하는 것은 옳지 않다.<br>
<h3>2. 줄임말과 단어 내에 띄어쓰기가 있는 경우</h3><br>
 - 사용 용도에 따라서, 하나의 단어 사이에 띄어쓰기가 있는 경우에도 하나의 토큰으로 봐야하는 경우도 있을 수 있으므로, 토큰화 작업은 단어를 하나로 인식할 수 있는 능력도 가져야함.<br>
<h3>3. 표준 토큰화 예제</h3><br>
<b>Penn Treebank Tokenization의 규칙</b><br>
 - 하이픈으로 구성된 단어는 하나로 유지<br>
 - doesn't와 같이 '로 '접어'가 함께하는 단어 분리<br>

In [4]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


<h2>문장 토큰화(Sentence Tokenization, 문장 분류)</h2>
: 토큰의 단위가 문장(sentence)일 때의 토큰화 수행 방법<br><br>
sent_tokenize를 이용한 NLTK 문장 토큰화 실습

In [5]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


문장 중간에 마침표가 여러번 등장하는 경우

In [6]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에, Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식.

In [2]:
import kss
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


<h2>이진 분류기(Binary Classifier)</h2>
:  예외 사항을 발생시키는 마침표의 처리를 위해서 입력에 따라 두 개의 클래스로 분류<br><br>
1. 마침표(.)가 단어의 일부분일 경우. 즉, 마침표가 약어(abbreivation)로 쓰이는 경우<br>
2. 마침표(.)가 정말로 문장의 구분자(boundary)일 경우<br><br>

임의로 정한 여러가지 규칙을 코딩한 함수일 수도 있으며, 머신 러닝을 통해 이진 분류기를 구현


<h2>한국어에서의 토큰화의 어려움.</h2>
한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 하기에 부족함.<br> 
한국어가 영어와는 다른 형태를 가지는 언어인 교착어라는 점에서 어절 토큰화는 한국어 NLP에서 지양되고 있음.<br>
<h3>1. 한국어는 교착어이다.</h3>
한국어는 조사가 단어 뒤에 띄어쓰기 없이 바로 붙게 되는데, 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식되면, 자연어 처리가 힘들고 번거로워지는 경우가 많음. 한국어 토큰화에서는 형태소란 개념 필요<br><br>

<b>형태소(morpheme)란 뜻을 가진 가장 작은 말의 단위</b>
 - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
 - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.


<h3>2. 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.</h3>
사용하는 한국어 코퍼스가 뉴스 기사와 같이 띄어쓰기를 철저하게 지키려고 노력하는 글이라면 좋겠지만, 많은 경우에 띄어쓰기가 틀렸거나, 지켜지지 않는 코퍼스가 있음. 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있기 때문.

<h2>품사 태깅(Part-of-speech tagging)</h2>
: 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓는 작업<br>
<h2>NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습</h2>
NLTK를 사용한 실습

In [5]:
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

영어 문장에 대해 토큰화 수행, 이어서 품사 태깅 수행.<br>
한국어 자연어 처리를 위해서는 KoNLPy라는 파이썬 패키지 사용.<br><br>
.morphs() : 형태소 추출<br>
.pos() : 품사 태깅(Part-of-speecch tagging)<br>
.nouns() : 명사 추출<br>
Okt를 사용한 실습

In [6]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [7]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


꼬꼬마 형태소 분석기를 사용한 토큰화

print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

In [8]:
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [9]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [10]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


<h1>정제(Cleaning) and 정규화(Normalization)</h1>
: 토큰화 작업 전,후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)하는 작업 필요<br>
 - 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터 제거.
 - 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 조합.<br>
<h2>규칙에 기반한 표기가 다른 단어들의 통합</h2>
코딩을 통해 정의할 수 있는 정규화 규칙의 예로서, 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법 사용 가능.<br>
<h2>대, 소문자 통합</h2>
: 대, 소문자 통합 작업은 대부분 대문자를 소문자로 변환하는 소문자 변환작업으로 이루어짐.<br>
대문자와 소문자가 구분되어야 하는 경우도 있기에, 무작정 통합해서는 안 되지만, 모든 코퍼스를 소무낮로 바꾸는 것이 종종 더 실용적인 해결책이 되기도 함.
<h2>불필요한 단어의 제거(Removing Unnecessary Words)</h2>
: 노이즈 데이터를 제거하는 것<br>
1. 등장 빈도가 적은 단어(Removing Rare words)<br>
 - 텍스트 데이터에서 너무 적게 등장해서 자연어 처리에 도움이 되지 않는 단어들<br>
2. 길이가 짧은 단어(Removing words with a very short length)<br>
 - 영어권 언어에서 길이가 짧은 단어들은 대부분 불용어에 해당.<br>

In [11]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


<h2>정규 표현식(Regular Expression)</h2>
코퍼스 내에서 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식.

<h1>어간 추출(Stemming) and 표제어 추출(Lemmatization)</h1>
: 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이겠다는 것.<br><br>
<h2>표제어 추출(Lemmatization)</h2>
: 단어들로부터 표제어를 찾아가는 과정. 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단.<br><br>

표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것.<br>
형태소의 두 가지 종류<br>
1. 어간(stem)<br>
: 단어의 의미를 담고 있는 단어의 핵심 부분.<br>
2. 접사(affix)<br>
: 단어에 추가적인 의미를 주는 부분.<br><br>

NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer 지원

In [16]:
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


dy나 ha와 같이 의미를 알 수 없는 적절하지 못한 단어 출력됨.<br>
WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있음.

In [18]:
n.lemmatize('dies', 'v')
n.lemmatize('watched', 'v')
n.lemmatize('has', 'v')

'have'

<h2>어간 추출(Stemming)</h2>
: 어간을 추출하는 작업. 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있음.<br><br>

어간 추출 후 나오는 결과 단어는 사전에 존재하지 않는 단어일 수 있음.<br><br>
포터 알고리즘(Porter Algorithm)을 이용한 실습

In [19]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [20]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


단순 규칙에 기반하여 이루어지기 때문에, 사전에 없는 단어들도 포함되어 있음.<br><br>
어간 추출 규칙<br>
ALIZE → AL<br>
ANCE → 제거<br>
ICAL → IC<br>

In [22]:
words=['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electric']


NLTK에서는 포터 알고리즘 외에도 랭커스터 스태머(Lancaster Stemmer) 알고리즘 지원.<br><br>

포터 알고리즘과 랭커스터 스태머 알고리즘의 결과 비교

In [23]:
from nltk.stem import PorterStemmer
s=PorterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [24]:
from nltk.stem import LancasterStemmer
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


동일한 단어들의 나열에 대해서 두 스태머는 전혀 다른 결과를 보여줌.<br>
두 스태머 알고리즘은 서로 다른 알고리즘을 사용하기 때문.<br><br>
사용하고자 하는 코퍼스에 스태머를 적용해보고 어떤 스태머가 해당 코퍼스에 적합한지를 판단한 후에 사용해야 함.<br>
<h2>한국어에서의 어간 추출</h2>