### Padding
- 데이터에 특정값을 채워서 데이터 크기(shape)를 조정하는 것.
- 자연어 처리를 하다보면 각 문장(또는 문서)은 서로 길이가 다름. 
- 그러나 기계는 길이가 전부 동일한 문서들에 대해서는 하나의 행렬로 보고, 한꺼번에 묶어서 처리할 수 있음. 
- 즉, 병렬 연산을 위해서 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요.

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [2]:
text = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], 
         ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], 
         ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], 
         ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], 
         ['barber', 'went', 'huge', 'mountain']]

# 정수 인코딩.
tokenizer = Tokenizer()

# fit_on_texts() : 코퍼스를 입력값으로 하면 빈도수를 기준으로 단어 집합을 생성.
tokenizer.fit_on_texts(text)
encoded = tokenizer.texts_to_sequences(text)
print(encoded)

# 모두 동일한 길이를 맞추기 위한 가장 긴 문장의 길이를 찾음.
max_len =  max(len(i) for i in encoded)
print(f'최대 길이 : {max_len}')

# Padding : max_len 보다 짧은 문장의 길이를 가진 경우 0을 채워서 길이를 동일하게 작업.
for i in encoded :
    while len(i) < max_len :
        # zero padding.
        i.append(0)
        
padded_np = np.array(encoded)
print(padded_np)
print()

# keras -> pad_sequences() padding 기능을 제공.
padded = pad_sequences(encoded, padding='pre')
print(padded)
print()

# padding의 길이를 반드시 최대 길이로 설정할 필요는 없음.
# 극단적인 길이가 존재할 시 maxlen 옵션에 적당한 정수값을 설정하여 padding 가능.
padded2 = pad_sequences(encoded, padding='pre', maxlen = 5)
print(padded2)
print()

# 실제 한 열이 전부 0으로 이루어진다고 생각해야하므로, 단어 집합 크기보다 1 큰 수를 사용.
last_value = len(tokenizer.word_index) + 1
padded3 = pad_sequences(encoded, padding='pre', value = last_value)
print(padded3)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]
최대 길이 : 7
[[ 1  5  0  0  0  0  0]
 [ 1  8  5  0  0  0  0]
 [ 1  3  5  0  0  0  0]
 [ 9  2  0  0  0  0  0]
 [ 2  4  3  2  0  0  0]
 [ 3  2  0  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  2  0  0  0  0]
 [ 7  7  3  2 10  1 11]
 [ 1 12  3 13  0  0  0]]

[[ 1  5  0  0  0  0  0]
 [ 1  8  5  0  0  0  0]
 [ 1  3  5  0  0  0  0]
 [ 9  2  0  0  0  0  0]
 [ 2  4  3  2  0  0  0]
 [ 3  2  0  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  2  0  0  0  0]
 [ 7  7  3  2 10  1 11]
 [ 1 12  3 13  0  0  0]]

[[ 0  0  0  0  0]
 [ 5  0  0  0  0]
 [ 5  0  0  0  0]
 [ 0  0  0  0  0]
 [ 3  2  0  0  0]
 [ 0  0  0  0  0]
 [ 6  0  0  0  0]
 [ 6  0  0  0  0]
 [ 2  0  0  0  0]
 [ 3  2 10  1 11]
 [ 3 13  0  0  0]]

[[ 1  5  0  0  0  0  0]
 [ 1  8  5  0  0  0  0]
 [ 1  3  5  0  0  0  0]
 [ 9  2  0  0  0  0  0]
 [ 2  4  3  2  0  0  0]
 [ 