---
---
---
# *Text Preprocessing*
---
---
---
***Text Preprocessing1***
1. *Tokenization*
2. *Cleaning and Nomalization*
3. *Stemming and Lemmatization*
4. *Stopword*  
5. *Regular Expression*
***Text Preprocessing2*** 
1. *Integer Encoding*
2. *Padding*
3. *One-Hot-Encoding*
4. *Splitting Data*
5. *Text Preprocessing Tools for Koreans Text*

---
## ***1. Tokenization***
---
 - *자연어처리에서 크롤링 등으로 얻어낸 **코퍼스(corpus)** 데이터를 토큰(token)이라 불리는 단위로 작업이며 의미있는 단위로 토큰을 정의*
 
     - ***corpus(말뭉치)***
        - 자연어처리를 위한 문장들로 구성된 데이터셋
        - 자연어처리 연구를 염두에 두고 수집된 대량의 텍스트 데이터
        - parallel corpus : I love to go to school == 나는 학교에 가는 것을 좋아한다 -> labeling
<br>
<br>
 
#### 1. ***단어 토큰화***
 - *구두점(punctuation)과 같은 문자를 제외 시키는 단어 토큰화* 
>*입력 : Time is an illusion. Lunchtime double so!* <br>
*출력 : "Time", "is", "an", "illustion", "Lunchtime", "double", "so"*
 - *하지만 이런 토큰화 과정 중에서는 예상치 못한 문제점이 존재*
>*입력 : **Don't** be fooled by the dark sounding name, Mr. **Jone's** Orphanage is as cheery as cheery goes for a pastry shop.* <br>
*출력 : ???* <br> <br>
*How to tokenization with **Don't** and **Jone's** word?* <br>
*1. ***word_tokenize***(nltk) :* ***[Do / n't]*** *,* ***[Jone / 's]***<br>
*2. ***WordPunctTokenizer***(nltk) : **[Don / ' / t]**, **[Jone / ' / s]** => 구두점을 별도로 분리*<br>
*3. ***text_to_word_sequence***(tensorflow) : **[Don't]**, **[Jone's]** => 구두점을 제거하되 아포스트로피는 보존*<br>
***=> 코드를 통해 알아보자***


In [1]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [2]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


 - *단어 토큰화 시 고려사항*
 > *1) 구두점이나 특수문자를 제외 할 경우 : **.**(문장의 마침을 의미) / **M&M**(구두점을 포함하는 단어) / **$-** (가격이나 날짜를 의미하는 단어) 등*<br>
*2) 줄임말과 단어 내에 뛰어쓰기가 있는 경우 : we're -> we are / New York (뛰어쓰기가 포함되어야 하는 단어)*

 - *표준 토큰화 예제 : ***TreebankWordTokenizer***(nltk)*
     - *하이푼(-)으로 구성된 단어는 하나로 유지*
     - *아포스트로피로 접어가 함께하는 단어는 분리*
 

In [4]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


<br>

#### 2. ***문장 토큰화(Sentence Tokenization)***

 - *sentence segmentation은 어떻게 해야할까?*
> *문장 토큰화는 직관적으로 생각했을때 마침표나 느낌표 기준으로 문장을 자르면 된다고 생각할 수 있다.*<br>
*하지만 마침표는 문장의 끝이 아니더라도 가지고 있을 수 있으며 어떤 언어를 사용하는지 또눈 오타나 다양한 특수문자 사용에 의해 분리가 어려울 수 있다.*

 - *문장 토큰화 실습*
     - *English : ***sent_tokenize***(nltk)*
     - *Korea : ***split_sentences***(kss)*

In [1]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [3]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


<br>

#### 3. ***한국어 토큰화의 어려움***

1. *교착어*
 - *한국어는 어절이 독립적으로 구성되어 있는 것이 아니라 조사 등 무언가가 붙은채로 의미를 가지는 경우가 많음*
     - *자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.*
     - *의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.*
 - *따라서 한국어는 어절 토큰화보다 형태소 토큰화를 수행하는 것이 좋음*
 
2. *띄어쓰기*
 - *많은 경우에 띄어쓰기가 틀리거나 잘 지켜지지 않는 경우가 많음 (영어와 달리 띄어쓰기가 잘 수행되지 않아도 의미 파악이 가능)*

<br>

#### 4. ***품사 태깅 : Part-of-speech tagging***

 - *English*
     - ***pos_tag*** *(nltk)*
 - *Korea : 형태소 분석기 자체에서 품사태깅 진행*
     - ***Okt*** *(Open Korea Text), Mecab, Komoran, Hannanum, ***Kkma*** : konlpy*

In [1]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
x = pos_tag(word_tokenize(text))
print(x)

[('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [2]:
from konlpy.tag import Okt  
text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
okt=Okt()  
print(okt.morphs(text))
print(okt.pos(text))  
print(okt.nouns(text)) 

JVMNotFoundException: No JVM shared library file (libjli.dylib) found. Try setting up the JAVA_HOME environment variable properly.

In [None]:
from konlpy.tag import Kkma  
text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
kkma=Kkma()  
print(kkma.morphs(text))
print(kkma.pos(text))  
print(kkma.nouns(text)) 

---
## ***2. Cleaning and Nomalization***
---
 - ***정제(cleaning)*** : *갖고 있는 코퍼스로부터 노이즈 데이터를 제거.*
      -  토큰화 작업에 방해가 되는 부분들을 배제시키고 토큰화 작업을 수행하기 위해서 토큰화 작업보다 앞서 이루어지기도 하지만 <br> 토큰화 작업 이후에도 여전히 남아있는 노이즈들을 제거하기위해 지속적으로 이루어지기도 함
 - ***정규화(normalization)*** : *표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.*
 

<br>
<br>

#### 1. ***단어들의 통합***
 - ***하나의 단어로 통합*** : *단어는 다르지만 의미가 같은 경우*
 - ***대소문자 통합*** : *대문자 -> 소문자*
     - *대문자가 의미가 있는 경우도 있기때문에 문장의 맨 앞에 나오는 대문자만 소문자로 바꾸는 것도 고려가능*
     - *일일히 예외사항을 고려하는 것이 더 어려울 수 있으므로 어느정도의 예외사항을 배제하고 모두 소문자로 바꿔 사용하는 것이 실용적인 해결책이 될 수 있음*
     
<br>

#### 2. ***불필요한 단어의 제거(Removing Unnecessary Words)***
 - *노이즈 데이터(noise data)는 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등)을 의미하기도 하지만 <br> 분석하고자 하는 목적에 맞지 않는 불필요 단어들을 노이즈 데이터라고 하기도 함.*
 
1. ***등장 빈도가 적은 단어(Removing Rare words)***
 - N개의 메일 데이터에서 총 합 1~5번 밖에 등장하지 않은 단어가 있다면 이 단어는 직관적으로 분류에 거의 도움이 되지 않을 것.
2. ***길이가 짧은 단어(Removing words with very a short length)***
 - 영어권 언어에서는 길이가 짧은 단어를 삭제하는 것만으로도 어느정도 자연어 처리에서 크게 의미가 없는 단어들을 제거하는 효과를 볼 수 있음
 

---
## ***3. Stemming and Lemmatization***
---
>표제어 추출과 어간 추출의 다른점 알아보기

<br>
<br>



#### 1. ***표제어 추출(Lemmatization)***
 - *표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가 하나의 단어로 통합하는 것*
     - ex) am, are, is -> be
 - *표제어 추출을 하는 가장 섬세한 방법은 단어의 ***형태학적 파싱***을 먼저 진행하는 것*
 - *형태학적 파싱이란 형태소의 어간과 접사를 분리하는 것*
     - ex) cats -> cat / s
 - ***즉 단어를 뿌리 단어의 형태로 바꾸는 것***

In [9]:
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('표제어 추출 : ')
print([n.lemmatize(w) for w in words])
print('\n')
print('잘못 추출된 단어들에 대해 품사를 지정하여 다시 표제어 추출해보기 :')
print([n.lemmatize('dies', 'v'), n.lemmatize('watched', 'v'), n.lemmatize('has', 'v')])

표제어 추출 : 
['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


잘못 추출된 단어들에 대해 품사를 지정하여 다시 표제어 추출해보기 :
['die', 'watch', 'have']


<br>

#### 2. ***어간 추출(Stemming)***

 - ***PorterStemmer***
     - 규칙 : ALIZE → AL / ANCE → 제거 / ICAL → IC
         - ex) formalize → formal / allowance → allow / electricical → electric
     -   Porter 알고리즘의 상세 규칙은 마틴 포터의 홈페이지에서 확인 가능
 - ***LancasterStemmer***
     

In [10]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [11]:
# PorterStemmer VS LancasterStemmer

s=PorterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

from nltk.stem import LancasterStemmer
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


<br>

#### 3. ***한국어에서의 어간 추출***

언 | 품사 |
-- | -- |
체언 | 명사, 대명사, 수사
수식언 | 관형사, 부사
관계언 | 조사
독립언 | 감탄사
용언 | 동사, 형용사

1. *활용(conjugation)*
 - *어간(stem) + 어미(ending)*
     - 어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양도 바뀔 수 있음(예: 긋다, 긋고, 그어서, 그어라).
     - 어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행
     
2. *규칙 활용*
3. *불규칙 활용*

---
## ***4. Stopword***
---

<br>
<br>



#### 1. ***NLTK에서 불용어 확인하기***

In [13]:
from nltk.corpus import stopwords  
stopwords.words('english')[:10]  

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

<br>



#### 2. ***NLTK를 통해서 불용어 제거하기***

In [14]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result) 

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


<br>



#### 3. ***한국어에서 불용어 제거하기***

In [15]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"
# 위의 불용어는 명사가 아닌 단어 중에서 저자가 임의로 선정한 것으로 실제 의미있는 선정 기준이 아님
stop_words=stop_words.split(' ')
word_tokens = word_tokenize(example)

result = [] 
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 
# 위의 4줄은 아래의 한 줄로 대체 가능
# result=[word for word in word_tokens if not word in stop_words]

print(word_tokens) 
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


---
## ***5. Regular Expression***
---

<br>
<br>



#### 1. ***정규 표현식 문법과 모듈 함수***

> ***특수 문자***

특수 문자|설명
---|---
.|한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외)
?|앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개)
*|앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상)
+|앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상)
^|뒤의 문자로 문자열이 시작됩니다.
$|앞의 문자로 문자열이 끝납니다.
{숫자}|숫자만큼 반복합니다.
{숫자1, 숫자2}|숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다.
{숫자,}|숫자 이상만큼 반복합니다.
[ ]|대괄호 안의 문자들 중 한 개의 문자와 매치합니다.<br> [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미합니다. <br> [a-z]와 같이 범위를 지정할 수도 있습니다. <br> [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미합니다.
[^문자]|해당 문자를 제외한 문자를 매치합니다.
l|AlB와 같이 쓰이며 A 또는 B의 의미를 가집니다.

> ***문자 규칙***

문자 규칙|설명
---|---
\\|역 슬래쉬 문자 자체를 의미합니다
\d|모든 숫자를 의미합니다. [0-9]와 의미가 동일합니다.
\D|숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일합니다.
\s|공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일합니다.
\S|공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일합니다.
\w|문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일합니다.
\W|문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일합니다.


> ***모듈 함수***


모듈 함수|설명
---|---
re.compile()|정규표현식을 컴파일하는 함수입니다. 다시 말해, 파이썬에게 전해주는 역할을 합니다. <br> 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리합니다.
re.search()|문자열 전체에 대해서 정규표현식과 매치되는지를 검색합니다.
re.match()|문자열의 처음이 정규표현식과 매치되는지를 검색합니다.
re.split()|정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴합니다.
re.findall()|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴합니다. <br> 만약, 매치되는 문자열이 없다면 빈 리스트가 리턴됩니다.
re.finditer()|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴합니다.
re.sub()|문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체합니다.