# 패딩 (padding)
- 자연어 처리를 하다보면 각 문장(또는 문서)은 서로 길이가 다른 경우가 있다.
- 기계는 길이가 전부 동일한 문서들에 대해서는 하나의 행렬로 보고, 한꺼번에 처리가 가능하다
    - 즉, 병렬 연산을 위해 길이를 동일하게 맞춰주는 작업이 필요할 수 있다.

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'],
                          ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], 
                          ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], 
                          ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

# 단어 집합 만들고, 정수 인코딩 해주기

tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)


[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


## 1. 제로 패딩
- 자연어 처리에서 기계는 0 을 무시한다

In [2]:
# 모두 동일한 길이로 맞춰주기 위해, 이중 가장 긴 길이 계산하여 통일시켜주기
max_len = max(len(item) for item in encoded)
print("최대 길이 :", max_len)

# 모든 문장 길이 통일시켜주기
for sentence in encoded:
    while len(sentence) < max_len:
        sentence.append(0)

padded_np = np.array(encoded)
print(padded_np)

최대 길이 : 7
[[ 1  5  0  0  0  0  0]
 [ 1  8  5  0  0  0  0]
 [ 1  3  5  0  0  0  0]
 [ 9  2  0  0  0  0  0]
 [ 2  4  3  2  0  0  0]
 [ 3  2  0  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  2  0  0  0  0]
 [ 7  7  3  2 10  1 11]
 [ 1 12  3 13  0  0  0]]


## 2. 케라스 전처리 도구로 패딩하기

In [6]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

# Numpy 와 다르게 앞에 0 으로 채워준다
padded = pad_sequences(encoded)
print(padded)

# Numpy 와 동일하게 뒤를 0으로 채우고 싶다면?
# padding='post' 추가
padded_2 = pad_sequences(encoded, padding='post')
print("두 번쨰 버전!\n",padded_2)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]
[[ 0  0  0  0  0  1  5]
 [ 0  0  0  0  1  8  5]
 [ 0  0  0  0  1  3  5]
 [ 0  0  0  0  0  9  2]
 [ 0  0  0  2  4  3  2]
 [ 0  0  0  0  0  3  2]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  2]
 [ 7  7  3  2 10  1 11]
 [ 0  0  0  1 12  3 13]]
두 번쨰 버전!
 [[ 1  5  0  0  0  0  0]
 [ 1  8  5  0  0  0  0]
 [ 1  3  5  0  0  0  0]
 [ 9  2  0  0  0  0  0]
 [ 2  4  3  2  0  0  0]
 [ 3  2  0  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  2  0  0  0  0]
 [ 7  7  3  2 10  1 11]
 [ 1 12  3 13  0  0  0]]


In [11]:
# 문장 길이 제한 두기
# 길이를 맞출 때 뒤의 단어부터 살려둔다
padded_3 = pad_sequences(encoded, padding='post', maxlen=5)
print(padded_3)

print("길이 맞출때 뒤에서부터 삭제하고 싶으면?")
padded_4 = pad_sequences(encoded, maxlen=5, padding='post', truncating='post')
print(padded_4)

[[ 1  5  0  0  0]
 [ 1  8  5  0  0]
 [ 1  3  5  0  0]
 [ 9  2  0  0  0]
 [ 2  4  3  2  0]
 [ 3  2  0  0  0]
 [ 1  4  6  0  0]
 [ 1  4  6  0  0]
 [ 1  4  2  0  0]
 [ 3  2 10  1 11]
 [ 1 12  3 13  0]]
길이 맞출때 뒤에서부터 삭제하고 싶으면?
[[ 1  5  0  0  0]
 [ 1  8  5  0  0]
 [ 1  3  5  0  0]
 [ 9  2  0  0  0]
 [ 2  4  3  2  0]
 [ 3  2  0  0  0]
 [ 1  4  6  0  0]
 [ 1  4  6  0  0]
 [ 1  4  2  0  0]
 [ 7  7  3  2 10]
 [ 1 12  3 13  0]]


In [13]:
# 0 퓨ㅐ딩 말고 다른 숫자로 하고 싶은 경우
last_value = len(tokenizer.word_index)+1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)

padded_5 = pad_sequences(encoded, maxlen=5, padding='post', value=last_value)
padded_5

# 0 이 아닌 가장 마지막 인덱스 +1 -> 여기서는 14 -> 로 채워짐

14


array([[ 1,  5, 14, 14, 14],
       [ 1,  8,  5, 14, 14],
       [ 1,  3,  5, 14, 14],
       [ 9,  2, 14, 14, 14],
       [ 2,  4,  3,  2, 14],
       [ 3,  2, 14, 14, 14],
       [ 1,  4,  6, 14, 14],
       [ 1,  4,  6, 14, 14],
       [ 1,  4,  2, 14, 14],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14]], dtype=int32)