<a href="https://colab.research.google.com/github/hukim1112/MLDL/blob/master/lecture9/Text_Preprocessing_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **06) 정수 인코딩(Integer Encoding)**



컴퓨터는 텍스트보다는 숫자를 더 잘 처리 하기 때문에 자연어 처리에서는 텍스트를 숫자로 바꾸는 여러가지 기법들 존재

=> 이러한 기법들을 본격적으로 적용하기 위한 첫 단계 : 각 단어를 고유한 정수에 맵핑(mapping)시키는 전처리 작업

예를 들어 갖고 있는 텍스트에 단어가 5,000개가 있다면, 5,000개의 단어들 각각에 1번부터 5,000번까지 단어와 맵핑되는 고유한 정수, 다른 표현으로는 인덱스를 부여(예를 들어, book은 150번, dog는 171번, love는 192번, books는 212번과 같이 숫자 부여)

인덱스를 부여하는 방법은 여러 가지가 있을 수 있는데 랜덤으로 부여하기도 하지만, 보통은 단어에 대한 빈도수를 기준으로 정렬한 뒤에 부여

> ## **1. 정수 인코딩(Integer Encoding)**

단어에 정수를 부여하는 방법 중 하나

==> 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)를 만들고, 빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여하는 방법

==> 자연어 처리 작업 이전에 단어가 텍스트일 때만 할 수 있는 최대한의 전처리를 끝내고 난 후 텍스트를 숫자로 변환해야 함

---
### **1.1) dictionary 사용하기**


In [None]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [None]:
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! \
The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. \
But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [None]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
#############################################################
### 문장 토큰화 - 토큰의 단위를 문장으로 하여 토큰화 수행 ###
#############################################################

text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [None]:
##########################
### 정제와 단어 토큰화 ###
##########################

vocab = {} ## 파이썬의 dictionary 자료형
sentences = []
stop_words = set(stopwords.words('english')) ## NLTK에서 정의한 불용어 패키지(I, my, me, over, 조사, 접미사 등 큰 의미가 없는 단어)

for i in text:
    ### 단어 토큰화 ###
    sentence = word_tokenize(i)
    # print(sentence)
    result = []

    ### 정제 작업 ### -> 불용어 / 빈도수가 낮은 단어 / 길이가 짧은 단어 제거
    for word in sentence: 
        word = word.lower() ## 소문자화하여 단어의 개수 줄이기 (동일한 단어가 대문자로 표기되어 다른 단어로 카운트 되는 경우 방지)
        if word not in stop_words: ## 불용어 제거
            if len(word) > 2: ## 단어 길이가 2 이하인 경우 추가로 제거
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1 ## vocab 사전에는 중복을 제거한 단어의 빈도수 저장

    sentences.append(result) 
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [None]:
########################################
### 빈도수가 저장된 vocab dictionary ###
########################################

print(vocab) ## 단어를 키(key)로, 단어에 대한 빈도수가 값(value)으로 저장됨

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [None]:
print(vocab["barber"]) ## 'barber'라는 단어의 빈도수 출력 (vocab에 단어를 입력하면 빈도수를 리턴)

8


In [None]:
##########################
### 빈도수 순으로 정렬 ### -> 빈도수가 높을수록 낮은 정수 인덱스를 부여하기 위해
##########################

vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [None]:
######################################
### 빈도수에 따른 정수 인덱스 부여 ###
######################################

word_to_index = {}
i=0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 빈도수 적은 단어는 제외 (등장 빈도가 낮은 단어는 자연어 처리에서 의미를 가지지 않을 가능성이 높기 때문)
        i=i+1
        word_to_index[word] = i ## 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [None]:
###################################
### 빈도수 상위 5개 단어만 저장 ###
###################################

vocab_size = 5
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del word_to_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [None]:
######################################
### word_to_index에 없는 단어 처리 ###
######################################

print(text[0], "=>", sentences[0], "=>", "[1,5]")
print(text[1], "=>", sentences[1], "=>", "[1,?,5]")

A barber is a person. => ['barber', 'person'] => [1,5]
a barber is good person. => ['barber', 'good', 'person'] => [1,?,5]


In [None]:
################################
### Out-Of-Vocabulary 인코딩 ###
################################

## good과 같이 단어 집합에 존재하지 않는 단어들을 Out-Of-Vocabulary(단어 집합에 없는 단어)의 약자로 'OOV'라고 함
## word_to_index에 'OOV'란 단어를 새롭게 추가하고, 단어 집합에 없는 단어들은 'OOV'의 인덱스로 인코딩
word_to_index['OOV'] = len(word_to_index) + 1
word_to_index

{'OOV': 6, 'barber': 1, 'huge': 3, 'kept': 4, 'person': 5, 'secret': 2}

In [None]:
#########################################################
### sentences에 있는 단어를 정수로 변환 = 정수 인코딩 ###
#########################################################

encoded = []
for s in sentences: ## word_to_index를 사용하여 sentences의 모든 단어들을 맵핑되는 정수로 인코딩
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


---
### **1.2) Counter 사용하기**

In [None]:
from collections import Counter
import numpy as np

In [None]:
print(sentences) ## 단어 토큰화 결과 저장 -> 단어 집합(vocabulary)를 만들기 위해 [,] 제거 필요 -> 하나의 리스트로 만들기

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [None]:
########################################
### sentences를 하나의 리스트로 변환 ###
########################################

words = np.hstack(sentences) ## 배열 결합 시 수평으로 결합
print(words)

['barber' 'person' 'barber' 'good' 'person' 'barber' 'huge' 'person'
 'knew' 'secret' 'secret' 'kept' 'huge' 'secret' 'huge' 'secret' 'barber'
 'kept' 'word' 'barber' 'kept' 'word' 'barber' 'kept' 'secret' 'keeping'
 'keeping' 'huge' 'secret' 'driving' 'barber' 'crazy' 'barber' 'went'
 'huge' 'mountain']


In [None]:
#################################################################
### 파이썬의 Counter() 모듈로 중복 제거 및 단어의 빈도수 기록 ###
#################################################################

vocab = Counter(words)
print(vocab) ## dictonary와 똑같이 단어를 키(key)로, 단어에 대한 빈도수가 값(value)으로 저장 + 빈도수 순으로 정렬

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [None]:
print(vocab["barber"])  ## 'barber'라는 단어의 빈도수 출력 (vocab에 단어를 입력하면 빈도수를 리턴)

8


In [None]:
###################################################
### most_common()로 빈도수 상위 5개 단어만 저장 ###
###################################################

vocab_size = 5
vocab = vocab.most_common(vocab_size) # most_common() -> 상위 빈도수를 가진 주어진 수의 단어만을 리턴
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [None]:
######################################
### 빈도수에 따른 정수 인덱스 부여 ###
######################################

word_to_index = {}
i = 0
for (word, frequency) in vocab : ## 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여
    i = i+1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


---
### **1.3) NLTK의 FreqDist 사용하기**

NLTK에서는 빈도수 계산 도구인 FreqDist()를 지원, 위에서 사용한 Counter()랑 같은 방법으로 사용 가능

In [None]:
from nltk import FreqDist
import numpy as np

In [None]:
################################################################
### NLTK의 FreqDist() 모듈로 중복 제거 및 단어의 빈도수 기록 ###
################################################################

vocab = FreqDist(np.hstack(sentences)) ## np.hstack으로 문장 구분을 제거하여 입력으로 사용
print(vocab)  ## dictonary, Counter()와 똑같이 단어를 키(key)로, 단어에 대한 빈도수가 값(value)으로 저장 + 빈도수 순으로 정렬

<FreqDist with 13 samples and 36 outcomes>


In [None]:
print(vocab["barber"])  ## 'barber'라는 단어의 빈도수 출력 (vocab에 단어를 입력하면 빈도수를 리턴)

8


In [None]:
###################################################
### most_common()로 빈도수 상위 5개 단어만 저장 ###
###################################################

vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [None]:
####################################################
### enumerate()로 빈도수에 따른 정수 인덱스 부여 ###
####################################################

word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


---
### **1.4) enumerate 이해하기**

enumerate()는 순서가 있는 자료형(list, set, tuple, dictionary, string)을 입력으로 받아 인덱스를 순차적으로 함께 리턴한다는 특징이 있음

In [None]:
test=['a', 'b', 'c', 'd', 'e']
for index, value in enumerate(test): # 입력의 순서대로 0부터 인덱스를 부여함
  print("value : {}, index: {}".format(value, index))

## 리스트의 모든 토큰에 대해서 인덱스가 순차적으로 증가되며 부여된 것을 보여줌

value : a, index: 0
value : b, index: 1
value : c, index: 2
value : d, index: 3
value : e, index: 4



> ## **2. 케라스(Keras)의 텍스트 전처리**



케라스(Keras)는 기본적인 전처리를 위한 도구들을 제공

때로는 정수 인코딩을 위해서 케라스의 전처리 도구인 토크나이저를 사용하기도 함

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
## 단어 토큰화까지 수행된 앞서 사용한 텍스트 데이터와 동일한 데이터 사용
sentences=[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'],
           ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'],
           ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [None]:
##############################################
### fit_on_texts()로 정수 인코딩 작업 수행 ###
##############################################
## fit_on_texts() : 입력한 텍스트로부터 단어 빈도수가 높은 순으로 낮은 정수 인덱스를 부여

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) ## fit_on_texts()안에 코퍼스를 입력하여 빈도수를 기준으로 단어 집합 생성

In [None]:
##################################################
### fit_on_texts 사용 후 빈도수 및 인덱스 확인 ###
##################################################

## word_counts로 각 단어가 카운트를 수행하였을 때 몇 개였는지 개수 확인 가능
print("< word_counts >")
print(tokenizer.word_counts)

## word_index로 각 단어에 인덱스가 어떻게 부여되는지 확인 가능
print("\n< word_index >")
print(tokenizer.word_index)

< word_counts >
OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])

< word_index >
{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [None]:
##########################################
### texts_to_sequences()로 정수 인코딩 ###
##########################################
## texts_to_sequences() : 입력으로 들어온 코퍼스에 대해서 각 단어를 이미 정해진 인덱스로 변환

print(tokenizer.texts_to_sequences(sentences)) ## --> 상위 빈도수에 상관없이 모든 단어에 인덱스 부여

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [None]:
###################################
### 빈도수 상위 5개 단어만 저장 ###
###################################
## tokenizer = Tokenizer(num_words=숫자)와 같은 방법으로 빈도수가 높은 상위 몇 개의 단어만 사용하겠다고 지정 가능

vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(sentences)

In [None]:
##################################################
### fit_on_texts 사용 후 빈도수 및 인덱스 확인 ### --> 상위 빈도수에 상관없이 13개의 단어 모두 출력
##################################################

## word_counts로 각 단어가 카운트를 수행하였을 때 몇 개였는지 개수 확인 가능
print("< word_counts >")
print(tokenizer.word_counts)

## word_index로 각 단어에 인덱스가 어떻게 부여되는지 확인 가능
print("\n< word_index >")
print(tokenizer.word_index)

< word_counts >
OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])

< word_index >
{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [None]:
##########################################
### texts_to_sequences()로 정수 인코딩 ### --> 상위 5개의 단어만 사용되어 1번 단어부터 5번 단어까지만 보존되고 나머지 단어들은 제거됨
##########################################

print(tokenizer.texts_to_sequences(sentences)) ## 케라스 토크나이저는 기본적으로 단어 집합에 없는 단어인 OOV에 대해서는 단어를 정수로 바꾸는 과정에서 아예 단어를 제거

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [None]:
##############################################################################
### word_counts와 word_index에서도 상위 빈도수 5개의 단어만 남기고 싶다면? ###
##############################################################################

tokenizer = Tokenizer() # num_words를 여기서는 지정하지 않은 상태
tokenizer.fit_on_texts(sentences)

vocab_size = 5
words_frequency = [w for w,c in tokenizer.word_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del tokenizer.word_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
    del tokenizer.word_counts[w] # 해당 단어에 대한 카운트 정보를 삭제

print("< word_index >")
print(tokenizer.word_index)
print("\n< word_counts >")
print(tokenizer.word_counts)

< word_index >
{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}

< word_counts >
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])


In [None]:
#####################################################
### 단어 집합에 없는 단어들을 OOV로 보존하는 방법 ### -> Tokenizer의 인자 oov_token 사용
#####################################################

vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
# 빈도수 상위 5개 단어만 사용. 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
tokenizer.fit_on_texts(sentences)

In [None]:
## 케라스 토크나이저는 기본적으로 'OOV'의 인덱스를 1로 함
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


In [None]:
##########################################
### texts_to_sequences()로 정수 인코딩 ### --> 상위 5개의 단어는 인덱스 2-6 부여, 나머지 단어들(OOV)은 인덱스 1을 부여
##########################################

print(tokenizer.texts_to_sequences(sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


# **07) 패딩(Padding)**

자연어 처리를 하다보면 각 문장(또는 문서)은 서로 길이가 다를 수 있음

그런데 기계는 길이가 전부 동일한 문서들에 대해서는 하나의 행렬로 보고, 한꺼번에 묶어서 처리할 수 있음

다시 말해 병렬 연산을 위해서 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요할 때가 있음

> ## **1. Numpy로 패딩하기**



In [None]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
## 단어 토큰화까지 수행된 앞서 사용한 텍스트 데이터와 동일한 데이터 사용
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'],
             ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'],
             ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [None]:
##############################################
### fit_on_texts()로 정수 인코딩 작업 수행 ###
##############################################
## fit_on_texts() : 입력한 텍스트로부터 단어 빈도수가 높은 순으로 낮은 정수 인덱스를 부여

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) ## fit_on_texts()안에 코퍼스를 입력하여 빈도수를 기준으로 단어 집합 생성

In [None]:
############################################################
### 텍스트 시퀀스의 모든 단어들을 각 정수로 맵핑 후 출력 ###
############################################################

encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [None]:
## 모두 동일한 길이로 맞춰주기 위해서 이 중에서 가장 길이가 긴 문장의 길이 계산
max_len = max(len(item) for item in encoded)
print(max_len)

7


In [None]:
#######################################################
### 모든 문장의 길이를 가장 긴 문장의 길이에 맞추기 ###
#######################################################

for item in encoded: # 각 문장에 대해서
    while len(item) < max_len:   # max_len보다 작으면
        item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

기계는 이제 이들을 하나의 행렬로 보고, 병렬 처리 가능

0번 단어는 사실 아무런 의미도 없는 단어이기 때문에 자연어 처리하는 과정에서 기계는 0번 단어를 무시함

이와 같이 데이터에 특정 값을 채워서 데이터의 크기(shape)를 조정하는 것 : 패딩(padding)

숫자 0을 사용하고 있다면 제로 패딩(zero padding)

> ## **2. 케라스 전처리 도구로 패딩하기**

케라스에서는 위와 같은 패딩을 위한 도구 pad_sequences() 제공

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [None]:
############################################################
### 텍스트 시퀀스의 모든 단어들을 각 정수로 맵핑 후 출력 ###
############################################################

encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [None]:
#######################################
### 케라스의 pad_sequences()로 패딩 ###
#######################################

padded = pad_sequences(encoded) ## pad_sequences는 Numpy로 패딩했을 때와 달리 기본적으로 문서의 앞을 0으로 채움
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

In [None]:
padded = pad_sequences(encoded, padding = 'post') ## padding='post' 인자를 이용해 문서의 뒤를 0으로 채움
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]], dtype=int32)

Numpy를 이용하여 패딩을 했을 때와 결과가 동일합니다. 실제로 결과가 동일한지 두 결과를 비교합니다.

In [None]:
(padded == padded_np).all()

True

지금까지는 가장 긴 길이를 가진 문서의 길이를 기준으로 패딩을 한다고 가정하였지만, 실제로는 꼭 가장 긴 문서의 길이를 기준으로 해야하는 것은 아님

가령, 모든 문서의 평균 길이가 20인데 문서 1개의 길이가 5,000이라고 해서 굳이 모든 문서의 길이를 5,000으로 패딩할 필요는 없을 수 있음

이와 같은 경우에는 길이에 제한을 두고 패딩할 수 있음

max_len의 인자로 정수를 주면, 해당 정수로 모든 문서의 길이를 동일하게 맞춤

In [None]:
#######################################
### 모든 문장의 길이를 5로 패딩하기 ###
#######################################

padded = pad_sequences(encoded, padding = 'post', maxlen = 5)
# truncating= 'post')
padded ## 길이가 5보다 짧은 문서들은 0으로 패딩되고, 기존에 5보다 길었다면 데이터가 손실됨

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]], dtype=int32)

In [None]:
#####################################
### 0이 아닌 다른 숫자로 패딩하기 ###
#####################################

last_value = len(tokenizer.word_index) + 1 ## 단어 집합의 크기보다 1 큰 숫자를 사용 (현재 사용된 정수들과 겹치지 않도록)

padded = pad_sequences(encoded, padding = 'post', value = last_value) ## pad_sequences의 인자로 value를 사용하여 0이 아닌 다른 숫자로 패딩 가능
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]], dtype=int32)

# **3. 원-핫 인코딩(One-Hot Encoding)**

원-핫 인코딩 : 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식

- 이렇게 표현된 벡터 -> 원-핫 벡터(One-Hot vector)

- 머신 러닝, 딥 러닝 등에서 사용

> ## **1. 원-핫 인코딩(One-Hot Encoding)이란?**

원-핫 인코딩을 두 가지 과정으로 정리

(1) 각 단어에 고유한 인덱스를 부여 (정수 인코딩)

(2) 표현하고 싶은 단어의 인덱스의 위치에 1을 부여, 다른 단어의 인덱스의 위치에는 0을 부여

---

*문장 : 나는 자연어 처리를 배운다*

위 문장에 대해서 원-핫 인코딩을 진행하는 코드는 아래와 같습니다.

In [None]:
pip install konlpy

Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.3 MB/s 
[?25hCollecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 5.3 MB/s 
[?25hCollecting colorama
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 69.2 MB/s 
Installing collected packages: JPype1, colorama, beautifulsoup4, konlpy
  Attempting uninstall: beautifulsoup4
    Found existing installation: beautifulsoup4 4.6.3
    Uninstalling beautifulsoup4-4.6.3:
      Successfully uninstalled beautifulsoup4-4.6.3
Successfully installed JPype1-1.3.0 beautifulsoup4-4.6.0 colorama-0.4.4 konlpy-0.5.2


In [None]:
########################
### 문장 토큰화 수행 ###
########################
## 코엔엘파이 Okt 형태소 분석기 사용

from konlpy.tag import Okt
okt=Okt()
token=okt.morphs("나는 자연어 처리를 배운다")  
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [None]:
###############################
### 토큰에 고유 인덱스 부여 ###
###############################
## 본 예제의 문장은 짧아서 단어의 빈도수 고려 X

word2index={}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [None]:
#################################
### 원-핫 벡터 생성 함수 정의 ###
#################################
## 토큰을 입력하면 해당 토큰에 대한 원-핫 벡터 생성

def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index=word2index[word]
       one_hot_vector[index]=1
       return one_hot_vector

In [None]:
############################################
### 토큰 '자연어'에 대한 원-핫 벡터 반환 ###
############################################

one_hot_encoding("자연어",word2index) ## 자연어는 단어 집합에서 인덱스가 2이므로, 자연어를 표현하는 원-핫 벡터는 인덱스 2의 값이 1이며, 나머지 값은 0인 벡터가 나옴

[0, 0, 1, 0, 0, 0]

> ## **2. 케라스(Keras)를 이용한 원-핫 인코딩(One-Hot Encoding)**

위에서는 원-핫 인코딩 이해를 위해 파이썬으로 코드를 작성하였지만, 케라스는 원-핫 인코딩을 수행하는 유용한 도구 to_categorical()를 지원함

In [None]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [None]:
##############################################
### fit_on_texts()로 정수 인코딩 작업 수행 ###
##############################################
## fit_on_texts() : 입력한 텍스트로부터 단어 빈도수가 높은 순으로 낮은 정수 인덱스를 부여

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [None]:
############################################################
### 텍스트 시퀀스의 모든 단어들을 각 정수로 맵핑 후 출력 ###
############################################################
## 생성된 단어 집합 내의 일부 단어들로만 구성된 서브 텍스트인 sub_text를 정수 시퀀스로 변환

sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [None]:
#####################################################
### 케라스의 to_categorical()로 원-핫 인코딩 수행 ###
#####################################################

one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


> ## **3. 원-핫 인코딩(One-Hot Encoding)의 한계**

#### **한계점**
**- 단어의 개수가 늘어날수록 벡터를 저장하기 위해 필요한 공간이 계속 늘어남 (벡터의 차원이 계속 늘어남)**

원 핫 벡터는 단어 집합의 크기 = 벡터의 차원 수

가령, 단어가 1,000개인 코퍼스를 가지고 원 핫 벡터를 만들면, 모든 단어 각각은 모두 1,000개의 차원을 가진 벡터가 됨

다시 말해 모든 단어 각각은 하나의 값만 1을 가지고, 999개의 값은 0의 값을 가지는 벡터가 되는데 이는 저장 공간 측면에서는 매우 비효율적인 표현 방법임

**- 원-핫 벡터는 단어의 유사도를 표현하지 못함**
예를 들어서 늑대, 호랑이, 강아지, 고양이라는 4개의 단어에 대해서 원-핫 인코딩을 해서 각각, [1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]이라는 원-핫 벡터를 부여받았다고 하면 이 때 원-핫 벡터로는 강아지와 늑대가 유사하고, 호랑이와 고양이가 유사하다는 것을 표현할 수가 없음

좀 더 극단적으로는 강아지, 개, 냉장고라는 단어가 있을 때 강아지라는 단어가 개와 냉장고라는 단어 중 어떤 단어와 더 유사한지도 알 수 없음

단어 간 유사성을 알 수 없다는 단점은 검색 시스템 등에서 심각한 문제

#### **해결방안**
이러한 단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 기법으로 크게 두 가지가 있음

첫째는 카운트 기반의 벡터화 방법인 LSA, HAL 등이 있으며, 둘째는 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText 등이 있음

카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 방법으로 GloVe라는 방법도 존재