# **텍스트 전처리(Text preprocessing)**

# 1) 토큰화(Tokenization)
- 토큰화(tokenization): 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업

#### word_tokenize()
- Don't -> Do, n't
- Mr. -> Mr.
- Jone's -> Jone, 's

In [2]:
from nltk.tokenize import word_tokenize

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
print(word_tokenize(text))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


#### WordPunctTokenizer()의 tokenize() 
- 점을 기준으로 토큰화
- Don't -> Don', t
- Mr. -> Mr, .
- Jone's -> Jone', s

In [5]:
from nltk.tokenize import WordPunctTokenizer  
tokenizer = WordPunctTokenizer()

print(tokenizer.tokenize(text))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


#### keras의 text_to_word_sequence
- Don't -> don't
- Mr. -> mr
- Jone's -> jone's <br/>
(모든 알파벳을 소문자로 바꾸면서 온점이나 컴마, 느낌표 등의 구두점을 제거)

In [4]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

print(text_to_word_sequence(text))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 토큰화에서 고려해야할 사항
- 구두점이나 특수 문자를 단순 제외해서는 안 된다.
- 줄임말과 단어 내에 띄어쓰기가 있는 경우, 하나의 단어로 인식해야 함 <br/>
ex) what're (what are), we're(we are), I'm (I am) -> 접어(clitic), New York, rock 'n' roll

#### TreebankWordTokenizer()의 tokenize() 
- 표준 토큰화 예제
- home-based -> home-based (한 단어 인식)
- dosen't -> does, n't

In [6]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()

text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


#### 단어 토큰화(Sentence Tokenization)
- nltk의 sent_tokenize 사용

In [7]:
from nltk.tokenize import sent_tokenize

text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."

print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


- 온점이 들어간 문장도 잘 나눔

In [8]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."

print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


-  한국어 문장 토큰화는 KSS(Korean Sentence Splitter)을 사용

In [None]:
pip install kss

In [None]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'

print(kss.split_sentences(text))

- nltk의 sent_tokenize()도 한국어 문장을 잘 분리함

In [11]:
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'

print(sent_tokenize(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


In [12]:
text = 'IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.'

print(sent_tokenize(text))

['IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘.', '그러고나서 점심 먹으러 가자.']


## 한국어에서의 토큰화에서 주의할 점
- 한국어에서 어절 토큰화는 단어 토큰화와 같지 않음. 따라서 한국어 NLP에서 어절 토큰화는 지양한다. 
- 한국어는 교착어이다.
    - 영어와는 달리 한국어에는 조사라는 것이 존재함. ex) 그는, 그가, 그를, 그에게, 그와... -> 조사 분리가 필요함
     
- 형태소(morpheme)?
    - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. <br/>
    ex) 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등
    - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. <br/>
    ex) 접사, 어미, 조사, 어간
- 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않음
    - 한국어의 경우 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있는 언어이다. 
    - 띄어쓰기가 없던 한국어에 띄어쓰기가 보편화된 것도 근대(1933년, 한글맞춤법통일안)의 일 이후이다.

## NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

- 영어

In [14]:
from nltk.tokenize import word_tokenize

text="I am actively looking for Ph.D. students. and you are a Ph.D. student."

print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [15]:
from nltk.tag import pos_tag

x = word_tokenize(text)

pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

- 한국어 (Okt)

In [None]:
from konlpy.tag import Okt  

okt=Okt()  

In [21]:
# 형태소 추출
okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']

In [22]:
# 품사 태깅
okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

[('열심히', 'Adverb'),
 ('코딩', 'Noun'),
 ('한', 'Josa'),
 ('당신', 'Noun'),
 (',', 'Punctuation'),
 ('연휴', 'Noun'),
 ('에는', 'Josa'),
 ('여행', 'Noun'),
 ('을', 'Josa'),
 ('가봐요', 'Verb')]

In [23]:
# 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


- 한국어(kkma)

In [25]:
from konlpy.tag import Kkma  
kkma=Kkma()  

In [29]:
# 형태소 추출
kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']

In [30]:
# 품사 태깅
kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

[('열심히', 'MAG'),
 ('코딩', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('당신', 'NP'),
 (',', 'SP'),
 ('연휴', 'NNG'),
 ('에', 'JKM'),
 ('는', 'JX'),
 ('여행', 'NNG'),
 ('을', 'JKO'),
 ('가보', 'VV'),
 ('아요', 'EFN')]

In [31]:
# 명사 추출
kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

['코딩', '당신', '연휴', '여행']

# 2) 정제(Cleaning) and 정규화(Normalization)

- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦

### 여러가지 정규화 기법
- **규칙에 기반한 표기가 다른 단어들의 통합** <br/>
  어간 추출(stemming)과 표제어 추출(lemmatizaiton)을 활용하여 같은 단어로 통일 시킴 ex) uh-huh = uhhuh, US = USA <br/><br/>
- **대, 소문자 통합** <br/>
  파이썬 내장 함수 upper()와 lower()를 사용<br/>
  하지만 국가명 US와 우리의 목적격 us는 구분 되어야 함 <br/>
  회사 이름(General Motors)나, 사람 이름(Bush)은 대문자로 유지되어야 함 <br/><br/>
- **불필요한 단어의 제거(Removing Unnecessary Words)**<br/>
  노이즈 데이터(noise data): 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등)을 포함하여, 분석하고자 하는 목적에 맞지 않는 불필요한 단어
    - 등장 빈도가 적은 단어(Removing Rare words)
    - 길이가 짧은 단어(Removing words with very a short length)
- **정규 표현식(Regular Expression)**

In [33]:
# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
import re

text = "I was wondering if anyone out there could enlighten me on this car."

shortword = re.compile(r'\W*\b\w{1,2}\b')

print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


# 3) 어간 추출(Stemming) and 표제어 추출(Lemmatization)

## 표제어 추출(Lemmatization)
- 표제어(Lemma): 한글로는 '표제어' 또는 '기본 사전형 단어' <br/>
ex)  am, are, is는 서로 다른 스펠링이지만, 그 뿌리는 be로 동일함

In [37]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print([lemmatizer.lemmatize(word) for word in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


- 단어의 품사 정보를 입력하여 더 정확한 원형복원이 가능함

In [38]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [39]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [40]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [41]:
lemmatizer.lemmatize('has', 'v')

'have'

## 어간 추출(Stemming)

In [42]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [44]:
print([stemmer.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [45]:
words=['formalize', 'allowance', 'electricical']

print([stemmer.stem(w) for w in words])

['formal', 'allow', 'electric']


In [47]:
from nltk.stem import PorterStemmer, LancasterStemmer

porter = PorterStemmer()
lancaster = LancasterStemmer()

words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print([porter.stem(w) for w in words])
print([lancaster.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


## 한국어에서의 어간 추출
한국어는 5언 9품사
- 체언: 명사, 대명사, 수사
- 수식언: 관형사, 부사
- 관계언:	조사
- 독립언:	감탄사
- 용언:	동사, 형용사

규칙활용
- 어간이 어미를 취할 때, 어간의 모습이 일정함 <br/>
ex) 잡/어간 + 다/어미

불규칙활용
- 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미인 경우 <br/>
ex) 듣-, 돕-, 곱-, 잇-, 오르-, 노랗-’ 등이 ‘듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-


# 4) 불용어(Stopword)

- 영어에서 I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없음 
- 이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있음

In [55]:
from nltk.corpus import stopwords

ls_sw_en = stopwords.words('english')

print(ls_sw_en[:10])
print(len(ls_sw_en))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]
179


In [56]:
ls_sw_de = stopwords.words('german')

print(ls_sw_de[:10])
print(len(ls_sw_de))

['aber', 'alle', 'allem', 'allen', 'aller', 'alles', 'als', 'also', 'am', 'an']
232


### NLTK를 통해서 불용어 제거하기

In [59]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result)

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


### 한국어에서 불용어 제거하기


In [60]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"

stop_words = stop_words.split(' ')
word_tokens = word_tokenize(example)

result = [word for word in word_tokens if not word in stop_words]

print(word_tokens) 
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


# 5) 정규 표현식(Regular Expression)

- .기호: 임의의 문자 하나 

In [63]:
import re

r = re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [67]:
r.search("abcxyz")

<_sre.SRE_Match object; span=(0, 3), match='abc'>

- ?기호: ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우

In [68]:
import re

r=re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

In [69]:
r.search("abc")

<_sre.SRE_Match object; span=(0, 3), match='abc'>

In [70]:
r.search("ac")

<_sre.SRE_Match object; span=(0, 2), match='ac'>

- *기호: * 바로 앞의 문자가 0개 이상일 경우

In [71]:
import re

r=re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [72]:
r.search("ac")

<_sre.SRE_Match object; span=(0, 2), match='ac'>

In [73]:
r.search("abc") 

<_sre.SRE_Match object; span=(0, 3), match='abc'>

In [74]:
r.search("abbbbc") 

<_sre.SRE_Match object; span=(0, 6), match='abbbbc'>

- +기호: + 앞의 문자가 최소 1개 이상

In [75]:
import re

r=re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [76]:
r.search("abbbbc") 

<_sre.SRE_Match object; span=(0, 6), match='abbbbc'>

- ^기호: 시작되는 글자를 지정

In [77]:
import re

r=re.compile("^a")
r.search("bbc") # 아무런 결과도 출력되지 않는다.

In [78]:
r.search("ab")    

<_sre.SRE_Match object; span=(0, 1), match='a'>

- {숫자} 기호: 해당 문자를 숫자만큼 반복

In [80]:
import re
r=re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [81]:
r.search("abbc")

<_sre.SRE_Match object; span=(0, 4), match='abbc'>

In [82]:
r.search("abbbbbc") # 아무런 결과도 출력되지 않는다.

- {숫자1, 숫자2} 기호: 해당 문자를 숫자1 이상 숫자2 이하만큼 반복

In [84]:
import re

r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [85]:
r.search("abbc")

<_sre.SRE_Match object; span=(0, 4), match='abbc'>

In [86]:
r.search("abbbbbbbbc")

<_sre.SRE_Match object; span=(0, 10), match='abbbbbbbbc'>

In [87]:
r.search("abbbbbbbbbc") # b가 9번, 아무런 결과도 출력되지 않는다.

- {숫자,} 기호: 해당 문자를 숫자 이상 만큼 반복

In [88]:
import re
r=re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.
r.search("aa") # 아무런 결과도 출력되지 않는다.

In [89]:
r.search("aabc")

<_sre.SRE_Match object; span=(0, 4), match='aabc'>

In [92]:
r.search("aaaaaaaabc")

<_sre.SRE_Match object; span=(0, 10), match='aaaaaaaabc'>

- \[ ] 기호: [ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미

In [93]:
import re

r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [94]:
r.search("a")

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [95]:
r.search("aaaaaaa")      

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [96]:
r.search("baac")   

<_sre.SRE_Match object; span=(0, 1), match='b'>

In [98]:
import re

r=re.compile("[a-z]")
r.search("AAA") # 아무런 결과도 출력되지 않는다.

In [99]:
r.search("aBC")

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [100]:
r.search("111") # 아무런 결과도 출력되지 않는다.

- [^문자] 기호: ^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할

In [101]:
import re
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [102]:
r.search("d")

<_sre.SRE_Match object; span=(0, 1), match='d'>

In [103]:
r.search("1")

<_sre.SRE_Match object; span=(0, 1), match='1'>

### re.match() 와 re.search()의 차이
- search()는 정규 표현식 전체에 대해서 문자열이 매치하는지를 확인
- match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인

In [104]:
import re
r=re.compile("ab.")

In [105]:
r.search("kkkabc")  

<_sre.SRE_Match object; span=(3, 6), match='abc'>

In [106]:
r.match("kkkabc")  #아무런 결과도 출력되지 않는다.

In [107]:
r.match("abckkk")  

<_sre.SRE_Match object; span=(0, 3), match='abc'>

### re.split()
- 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴함

In [108]:
import re
text="사과 딸기 수박 메론 바나나"

re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [109]:
import re

text="""사과
딸기
수박
메론
바나나"""

re.split("\n",text)

['사과', '딸기', '수박', '메론', '바나나']

In [110]:
import re

text="사과+딸기+수박+메론+바나나"

re.split("\+",text)

['사과', '딸기', '수박', '메론', '바나나']

### re.findall()
- 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴

In [112]:
import re

text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  

re.findall("\d+",text)

['010', '1234', '1234', '30']

In [113]:
re.findall("\d+", "문자열입니다.")

[]

### re.sub()
- 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체

In [115]:
import re

text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)  # 알파벳 대, 소문자가 아닌 것을 모두 스페이스로 대체

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

### 예제
- \s+'는 공백을 찾아내는 정규표현식
- +는 최소 1개 이상의 패턴을 찾아낸다는 의미이고, s는 공백을 의미하기 때문에 최소 1개 이상의 공백인 패턴을 찾아냄

In [116]:
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [117]:
re.findall('\d+',text)  

['100', '101', '102']

In [118]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [120]:
re.findall('[A-Z]{4}',text)  

['PROF', 'STUD', 'STUD']

In [121]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

In [123]:
import re
letters_only = re.sub('[^a-zA-Z]', ' ', text)
letters_only

'    John    PROF     James   STUD     Mac   STUD'

### 정규 표현식을 이용한 토큰화
- \\+는 문자 또는 숫자가 1개 이상인 경우를 인식하는 코드
- 문장에서 구두점을 제외하고, 단어들만을 가지고 토큰화를 수행

In [128]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"
print(tokenizer.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- gaps=true는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미

In [130]:
tokenizer = RegexpTokenizer("[\s]+", gaps=True)

print(tokenizer.tokenize(text))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


# 6) 데이터의 분리(Splitting Data)

## 1. 지도 학습(Supervised Learning)
- 지도 학습의 훈련 데이터는 문제지와 같음
- 문제와 정답을 함께 보면서 공부하고, 이후 정답이 없는 문제에 대해서도 정답을 예측함

<훈련 데이터> <br/>
X_train : 문제지 데이터<br/>
y_train : 문제지에 대한 정답 데이터.<br/>
<br/>
<테스트 데이터><br/>
X_test : 시험지 데이터.<br/>
y_test : 시험지에 대한 정답 데이터.<br/>

<br/>
기계는 정답지인 y_train을 확인해가면서 18,000개의 문제지 X_train을 열심히 규칙을 도출해나가면서 학습함<br/>
그리고 학습을 다 한 기계에게 y_test는 보여주지 않고, X_test에 대해서 정답을 예측하게 함<br/>
기계가 예측한 답과 실제 정답인 y_test를 비교하면서 기계가 정답을 얼마나 맞췄는지를 평가를 진행 >>>  이 수치가 기계의 정확도(Accuracy)


## 2. X와 y분리하기
- zip 함수를 이용하여 분리하기

In [1]:
X,y = zip(['a', 1], ['b', 2], ['c', 3])

print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [2]:
sequences=[['a', 1], ['b', 2], ['c', 3]] # 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서.
X,y = zip(*sequences) # *를 추가

print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


- 데이터프레임을 이용하여 분리하기

In [3]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]

columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [4]:
X=df['메일 본문']
y=df['스팸 메일 유무']

In [5]:
print(X)  # 학습 셋

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [6]:
print(y)  # 정답 셋

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


In [7]:
import numpy as np

ar = np.arange(0,16).reshape((4,4))

print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [8]:
X=ar[:, :3]

print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [9]:
y=ar[:,3]

print(y)

[ 3  7 11 15]


## 3. 테스트 데이터 분리하기

- 사이킷 런을 이용하여 분리하기

In [10]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

X : 독립 변수 데이터. (배열이나 데이터프레임) <br/>
y : 종속 변수 데이터. 레이블 데이터. <br/>
test_size : 테스트용 데이터 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.<br/>
train_size : 학습용 데이터의 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.<br/>
(test_size와 train_size 중 하나만 기재해도 가능)<br/>
random_state : 난수 시드

In [12]:
print('X_train 개수:', len(X_train))
print('X_test 개수:', len(X_test))
print('y_train 개수:', len(y_train))
print('y_test 개수:', len(y_test))

X_train 개수: 3
X_test 개수: 1
y_train 개수: 3
y_test 개수: 1


In [13]:
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성

print(X)
print(list(y)) #레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)

In [15]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [16]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


- 수동으로 분리하기

In [17]:
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성

import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)

In [18]:
print(X)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [19]:
print(list(y))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [20]:
n_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_test = int(len(X) - n_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.

print(n_of_train)
print(n_of_test)

9
3


In [21]:
X_test = X[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장

In [22]:
print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]


# 7) 정수 인코딩(Integer Encoding)

## 정수 인코딩(Integer Encoding)
- 단어에 정수를 부여하는 방법 중 하나로 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)을 만들고, <br/>
빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여함

- dictionary 사용하`기

In [24]:
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

In [25]:
text="A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."


In [27]:
import nltk

nltk.download('punkt')

[nltk_data] Downloading package punkt to C:\Users\Dojun
[nltk_data]     Park\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [28]:
# 문장 토큰화
text=sent_tokenize(text)
display(text)

['A barber is a person.',
 'a barber is good person.',
 'a barber is huge person.',
 'he Knew A Secret!',
 'The Secret He Kept is huge secret.',
 'Huge secret.',
 'His barber kept his word.',
 'a barber kept his word.',
 'His barber kept his secret.',
 'But keeping and keeping such a huge secret to himself was driving the barber crazy.',
 'the barber went up a huge mountain.']

In [29]:
# 정제와 단어 토큰화
vocab={} # 파이썬의 dictionary 자료형
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence=word_tokenize(i) # 단어 토큰화를 수행합니다.
    result = []

    for word in sentence: 
        word=word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    sentences.append(result) 
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [30]:
print(vocab)

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [31]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [32]:
vocab_sorted=sorted(vocab.items(), key=lambda x:x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [33]:
word_to_index={}
i=0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 정제(Cleaning) 챕터에서 언급했듯이 빈도수가 적은 단어는 제외한다.
        i=i+1
        word_to_index[word]=i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [34]:
vocab_size=5
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del word_to_index[w] # 해당 단어에 대한 인덱스 정보를 삭제

In [35]:
words_frequency

['word', 'keeping']

In [36]:
word_to_index

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}

In [37]:
word_to_index['OOV']=len(word_to_index)+1

In [38]:
word_to_index

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'OOV': 6}

In [39]:
encoded=[]
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


- Counter 사용하기

In [40]:
from collections import Counter

In [41]:
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [42]:
words=sum(sentences, [])
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [43]:
vocab=Counter(words) # 파이썬의 Counter 모듈을 이용하면 단어의 모든 빈도를 쉽게 계산할 수 있습니다.
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [44]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [45]:
vocab_size=5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [46]:
word_to_index={}
i=0
for (word, frequency) in vocab :
    i=i+1
    word_to_index[word]=i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


- NLTK의 FreqDist 사용하기

In [47]:
from nltk import FreqDist
import numpy as np

In [48]:
sentences

[['barber', 'person'],
 ['barber', 'good', 'person'],
 ['barber', 'huge', 'person'],
 ['knew', 'secret'],
 ['secret', 'kept', 'huge', 'secret'],
 ['huge', 'secret'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'secret'],
 ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
 ['barber', 'went', 'huge', 'mountain']]

In [49]:
np.hstack(sentences)

array(['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge',
       'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret',
       'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept',
       'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge',
       'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge',
       'mountain'], dtype='<U8')

In [50]:
words=sum(sentences, [])
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [51]:
vocab = FreqDist(np.hstack(sentences))
vocab

FreqDist({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, ...})

In [52]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [53]:
vocab_size=5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [54]:
word_to_index={word[0] : index+1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


- enumerate 이해하기

In [55]:
test=['a', 'b', 'c', 'd', 'e']

for index, value in enumerate(test): # 입력의 순서대로 0부터 인덱스를 부여함.
  print("value : {}, index: {}".format(value, index))

value : a, index: 0
value : b, index: 1
value : c, index: 2
value : d, index: 3
value : e, index: 4


## 케라스(Keras)의 텍스트 전처리

In [None]:
pip install tensorflow

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [2]:
sentences=[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [3]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

In [4]:
dir(tokenizer)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_keras_api_names',
 '_keras_api_names_v1',
 'char_level',
 'document_count',
 'filters',
 'fit_on_sequences',
 'fit_on_texts',
 'get_config',
 'index_docs',
 'index_word',
 'lower',
 'num_words',
 'oov_token',
 'sequences_to_matrix',
 'sequences_to_texts',
 'sequences_to_texts_generator',
 'split',
 'texts_to_matrix',
 'texts_to_sequences',
 'texts_to_sequences_generator',
 'to_json',
 'word_counts',
 'word_docs',
 'word_index']

In [5]:
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [6]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [7]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [8]:
vocab_size=5
tokenizer = Tokenizer(num_words=vocab_size+1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(sentences)

In [9]:
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [10]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


사실 실제 적용은 texts_to_sequences를 사용할 때 적용됨.

In [11]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [12]:
tokenizer = Tokenizer() # num_words를 여기서는 지정하지 않은 상태
tokenizer.fit_on_texts(sentences)

In [13]:
vocab_size=5
words_frequency = [w for w,c in tokenizer.word_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del tokenizer.word_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
    del tokenizer.word_counts[w] # 해당 단어에 대한 카운트 정보를 삭제
print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(sentences))

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])
[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [14]:
vocab_size=5
tokenizer = Tokenizer(num_words=vocab_size+2, oov_token='OOV')
# 빈도수 상위 5개 단어만 사용. 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
tokenizer.fit_on_texts(sentences)

In [15]:
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


In [16]:
print(tokenizer.texts_to_sequences(sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


# 8) 원-핫 인코딩(One-hot encoding)

## 원-핫 인코딩(One-hot encoding)이란?
- 원-핫 인코딩을 두 가지 과정 <br/>
(1) 각 단어에 고유한 인덱스를 부여합니다. (정수 인코딩)<br/>
(2) 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여합니다.<br/>

In [17]:
from konlpy.tag import Okt  
okt=Okt()  
token=okt.morphs("나는 자연어 처리를 배운다")  
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [18]:
word2index={}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [19]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index=word2index[word]
       one_hot_vector[index]=1
       return one_hot_vector

In [20]:
one_hot_encoding("자연어",word2index)

[0, 0, 1, 0, 0, 0]

## 케라스(Keras)를 이용한 원-핫 인코딩(One-hot encoding)

In [21]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [22]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [23]:
t.word_counts

OrderedDict([('나랑', 1),
             ('점심', 2),
             ('먹으러', 1),
             ('갈래', 3),
             ('메뉴는', 1),
             ('햄버거', 2),
             ('최고야', 1)])

In [24]:
sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [25]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


## 원-핫 인코딩(One-hot encoding)의 한계
-  단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점이 존재함 (단어 집합의 크기 = 벡터의 차원 수)
- 원-핫 벡터는 모든 단어 각각은 하나의 값만 1을 가지고, 999개의 값은 0의 값을 가지게 됨 (저장 공간 측면에서는 매우 비효율적인 표현 방법)
- 또한 원-핫 벡터는 단어의 유사도를 표현하지 못함 (유사성을 알 수 없다는 단점은 검색 시스템 등에서 심각한 문제)
- 이러한 단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 기법으로 크게 두 가지가 있음 
    - 1) 카운트 기반의 벡터화 방법인 LSA, HAL (6장)
    - 2) 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText (10장)
    - 3) 카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 방법으로 GloVe

# 9) 단어 분리(Subword Segmentation)

- 단어 분리를 통해 OOV 문제를 해결하는 방법으로 BPE(Byte Pair Encoding)과 WPM(Word Piece Model)가 있음

## BPE(Byte Pair Encoding) 알고리즘
- BPE(Byte pair encoding) 알고리즘은 1994년에 제안된 데이터 압축 알고리즘
- 후에 자연어 처리의 단어 분리 알고리즘으로 응용됨
- BPE 알고리즘은 기본적으로 연속적으로 가장 많이 등장한 글자의 쌍을 찾아서 하나의 글자로 병합함

## BPE(Byte Pair Encoding) 알고리즘을 자연어 처리에 적용하기
- Neural Machine Translation of Rare Words with Subword Units [Sennrich at el.2015]라는 논문에서 자연어 처리, 그 중에서도 기계 번역을 위해 BPE 알고리즘을 사용할 것을 제안함
- 현재에 이르러 BPE 알고리즘은 자연어 처리를 위한 주요 전처리 방법으로 사용되고 있음 

- BPE 알고리즘의 적용

In [26]:
import re, collections

def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq
    return pairs

def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out

vocab = {'l o w </w>' : 5,
         'l o w e r </w>' : 2,
         'n e w e s t </w>':6,
         'w i d e s t </w>':3
         }

num_merges = 10

for i in range(num_merges):
    pairs = get_stats(vocab)
    best = max(pairs, key=pairs.get)
    vocab = merge_vocab(best, vocab)
    print(best)

('e', 's')
('es', 't')
('est', '</w>')
('l', 'o')
('lo', 'w')
('n', 'e')
('ne', 'w')
('new', 'est</w>')
('low', '</w>')
('w', 'i')


## 단어 분리(Subword Segmentation)가 의미 있는 이유
- 하나의 단어는 의미있는 여러 단어들의 조합으로 구성된 경우가 많기 때문에, 단어를 여러 의미를 가진 하위 단어로 분리할 수 있음
- 실제로, 언어의 특성에 따라 영어권 언어나 한국어는 단어 분리를 시도했을 때 어느정도 의미있는 단위로 나누는 것이 가능함

## WPM(Word Piece Model)
- 구글은 2016년 출간한 논문 Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation [Wo at el.2016]에서 자신들의 구글 번역기에서 WPM이 어떻게 수행되는지에 대해서 기술함
- 기존에 존재하던 띄어쓰기는 언더바로 치환하고, 단어는 내부단어(subword)로 통계에 기반하여 띄어쓰기로 분리
- 차후 다시 문장 복원을 위한 장치로 기존의 띄어쓰기를 언더바로 치환함