### 1. Numpy로 패딩

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [2]:
preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [3]:
preprocessed_sentences

[['barber', 'person'],
 ['barber', 'good', 'person'],
 ['barber', 'huge', 'person'],
 ['knew', 'secret'],
 ['secret', 'kept', 'huge', 'secret'],
 ['huge', 'secret'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'secret'],
 ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
 ['barber', 'went', 'huge', 'mountain']]

In [4]:
## 단어 집합 만들고 정수 인코딩 수행
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)

In [5]:
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [6]:
### 동일한 길이로 맞춰주기 위해 이중 가장 긴 문장의 길이를 계산
max_len = max(len(item) for item in encoded)
max_len

7

가장 길이가 긴 문장의 길이는 7입니다. 모든 문장의 길이를 7로 맞춰주겠습니다. 

이때 가상의 단어 'PAD'를 사용합니다. 'PAD'라는 단어가 있다고 가정하고, 이 단어는 0번 단어라고 정의합니다. 길이가 7보다 짧은 문장에는 숫자 0을 채워서 길이 7로 맞춰줍니다.

* 즉, 짧은 단어는 숫자 0 채우기

In [8]:
for li in encoded:
    print(li)
    while len(li) < max_len:  # 하나씩 0이 붙다가 길이가 7 이상이면 stop
        li.append(0)
        
encoded

[1, 5]
[1, 8, 5]
[1, 3, 5]
[9, 2]
[2, 4, 3, 2]
[3, 2]
[1, 4, 6]
[1, 4, 6]
[1, 4, 2]
[7, 7, 3, 2, 10, 1, 11]
[1, 12, 3, 13]


[[1, 5, 0, 0, 0, 0, 0],
 [1, 8, 5, 0, 0, 0, 0],
 [1, 3, 5, 0, 0, 0, 0],
 [9, 2, 0, 0, 0, 0, 0],
 [2, 4, 3, 2, 0, 0, 0],
 [3, 2, 0, 0, 0, 0, 0],
 [1, 4, 6, 0, 0, 0, 0],
 [1, 4, 6, 0, 0, 0, 0],
 [1, 4, 2, 0, 0, 0, 0],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13, 0, 0, 0]]

### 2. 케라스 전처리 도구로 패딩

In [9]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [10]:
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [11]:
padded = pad_sequences(encoded)
print(padded)

[[ 0  0  0  0  0  1  5]
 [ 0  0  0  0  1  8  5]
 [ 0  0  0  0  1  3  5]
 [ 0  0  0  0  0  9  2]
 [ 0  0  0  2  4  3  2]
 [ 0  0  0  0  0  3  2]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  2]
 [ 7  7  3  2 10  1 11]
 [ 0  0  0  1 12  3 13]]


In [12]:
padded = pad_sequences(encoded, padding='post')
print(padded)

[[ 1  5  0  0  0  0  0]
 [ 1  8  5  0  0  0  0]
 [ 1  3  5  0  0  0  0]
 [ 9  2  0  0  0  0  0]
 [ 2  4  3  2  0  0  0]
 [ 3  2  0  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  2  0  0  0  0]
 [ 7  7  3  2 10  1 11]
 [ 1 12  3 13  0  0  0]]


In [13]:
padded = pad_sequences(encoded, padding='post', maxlen=5)
print(padded)

[[ 1  5  0  0  0]
 [ 1  8  5  0  0]
 [ 1  3  5  0  0]
 [ 9  2  0  0  0]
 [ 2  4  3  2  0]
 [ 3  2  0  0  0]
 [ 1  4  6  0  0]
 [ 1  4  6  0  0]
 [ 1  4  2  0  0]
 [ 3  2 10  1 11]
 [ 1 12  3 13  0]]


* 5보다 짧은 문서들은 0으로 대체되고 5보다 큰 문서들은 삭제

In [14]:
### 다른 숫자로 패딩할 경우
last_value = len(tokenizer.word_index) + 1  # 단어 집합의 크기보다 1 큰 숫자 사용
print(last_value)

14


In [15]:
padded = pad_sequences(encoded, padding='post', value=last_value)
print(padded)

[[ 1  5 14 14 14 14 14]
 [ 1  8  5 14 14 14 14]
 [ 1  3  5 14 14 14 14]
 [ 9  2 14 14 14 14 14]
 [ 2  4  3  2 14 14 14]
 [ 3  2 14 14 14 14 14]
 [ 1  4  6 14 14 14 14]
 [ 1  4  6 14 14 14 14]
 [ 1  4  2 14 14 14 14]
 [ 7  7  3  2 10  1 11]
 [ 1 12  3 13 14 14 14]]
