## Numpy로 패딩

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [2]:
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

정수 인코딩(Integer Encoding) 수행

In [3]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

텍스트 시퀀스의 모든 단어를 정수로 맵핑 후 출력

In [4]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


이제 모두 동일한 길이로 맞춰주기 위해 이 중에서 가장 길이가 긴 문장의 길이를 계산

In [5]:
max_len = max(len(item) for item in encoded)
print(max_len)

7


모든 문장의 길이를 7로 맞추자.   
이 때 가상의 단어 'PAD'를 사용. 'PAD'라는 단어가 잇다 가정하고, 이 단어는 0번 단어라고 정의.   
이제 길이가 7보다 짧은 문장에는 숫자 0을 채워 전부 길이 7로 맞춤.

In [6]:
for item in encoded: # 각 문장에 대해서
    while len(item) < max_len:   # max_len보다 작으면
        item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

이제 기계는 이들을 하나의 matrix로 보고 병렬처리를 할 수 있게 됨.   
또한 0번 단어는 사실 아무런 의미 없는 데이터이기 대문에 NLP처리하는 기계에서 0번단어 무시.   
이와 같이 데이터를 특정 값을 채워 데이터의 크기(shape)를 조정하는 것을 패딩(padding)이라 한다.    
숫자 0을 사용하면 **제로 패딩(zero padding)** 이라함.

## Keras 전처리 도구로 패딩

케라스에서는 위와 같은 패딩을 위한 도구 pad_sequences()를 제공하고 있음.

In [7]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoded값이 위에서 이미 패딩 후의 결과로 저장되었기 때문에 패딩 이전 값으로 되돌리자.

In [8]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


케라스의 pad_sequences를 사용해 패딩을 해보자

In [9]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

numpy와 다르게 문서의 뒤가 아닌 앞을 0으로 채운다.   
뒤에 0을 채우고 싶으면 인자로 padding='post를 주면 됨.

In [10]:
padded = pad_sequences(encoded, padding = 'post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

numpy를 이용한 패딩과 같은지 비교

In [11]:
(padded == padded_np).all()

True