자연어 처리를 하다보면 각 문장(또는 문서)은 서로 길이가 다를 수 있다. 그런데 기계는 길이가 전부 동일한 문서들에 대해서는 하나의 행렬로 보고, 한꺼번에 묶어서 처리할 수 있다.

**여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요**

In [2]:
import warnings
warnings.filterwarnings('ignore')

## 1. Numpy로 패딩하기

In [3]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [4]:
sentences = [['barber', 'person'], ['barber', 'good', 'person'], 
             ['barber', 'huge', 'person'], ['knew', 'secret'], 
             ['secret', 'kept', 'huge', 'secret'], 
             ['huge', 'secret'], ['barber', 'kept', 'word'], 
             ['barber', 'kept', 'word'], 
             ['barber', 'kept', 'secret'], 
             ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], 
             ['barber', 'went', 'huge', 'mountain']]

In [5]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
# fit_on_texts() : 빈도수를 기준으로 단어 집합 생성

In [6]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [7]:
# 가장 길이가 긴 문장의 길이 계산
max_len = max(len(item) for item in encoded)
print(max_len)

7


In [8]:
# 모든 문장의 길이를 7로 맞춰주기
for item in encoded:
    while len(item) < max_len:
        item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

* 기계는 이제 이들을 하나의 행렬로 보고, 병렬 처리를 할 수 있다.
* 0번 단어는 사실 아무런 의미도 없는 단어이기 때문에 자연어 처리하는 과정에서 기계는 0번 단어를 무시하게 될 것이다.
* 숫자 0을 사용하고 있다면 제로 패딩(zero padding)이라고 한다.

## 2. 케라스 전처리 도구로 패딩하기
**pad_sequences()**

In [9]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [10]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [11]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

In [12]:
# 0을 뒤에 채우고 싶다면
padded = pad_sequences(encoded, padding = 'post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

In [13]:
# Numpy를 이용한 결과와 동일
(padded == padded_np).all()

True

* 꼭 가장 긴 문서의 길이를 기준으로 해야하는 것은 아니다.
* 길이에 제한을 두고 패딩 가능 -> maxlen

In [19]:
padded = pad_sequences(encoded, padding = 'post', maxlen = 5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

In [16]:
# 0 말고 다른 숫자 사용
last_value = len(tokenizer.word_index) + 1
print(last_value)

14


In [17]:
padded = pad_sequences(encoded, padding='post', value=last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]])