<a href="https://colab.research.google.com/github/dak-sh-kim/selfstudy-wikidocs-tensorflow-nlp-tutorial-notebooks/blob/main/20220615_NLP_2_07)_Padding_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 07) 패딩 (Padding)

- 각 문장(문서)는 서로 길이가 다를 수 있음
- '길이'가 전부 동일한 문서들에 대해 '하나의 행렬'로 보고 묶어서 '병렬연산' 할 수 있음
- 기계가 한꺼번에 묶어 처리할 수 있도록 여러 문장의 길이를 임의로 동일하게 맞추는 작업

## 1.Numpy로 패딩하기

In [None]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
# 아래와 같은 텍스트 데이터가 있음
preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

- 단어집합 만들고, 정수 인코딩 수행

In [None]:
tokenizer = Tokenizer() # parameter; num_words = 숫자n ; 상위 n개만 
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


- 모두 동일한 길이로 맞추기 위해, 이 중에서 가장 길이가 긴 문장의 길이 출력

In [None]:
max_len = max(len(item) for item in encoded)
print("최대 길이:" , max_len)

최대 길이: 7


- 모든 문장의 길이를 7로 맞춰줌
- 이 때, 가상의 단어 'PAD': 0을 사용 (cf. OOV는 1이었지?)
- 길이가 7보다 짧은 문장에는 숫자 0을 채워서 길이를 7로 맞춰줌

In [None]:
for sentence in encoded:
  while len(sentence) < max_len:
    sentence.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

- 병렬처리가 가능함 + 기계는 0번 단어는 무시(아무 의미 없음)
- 이와 같이 데이터에 특정 값을 채워 데이터의 크기(shape) 조정하는 것을 패딩(padding)이라고 함.
- 숫자 0을 사용한다면 zero padding

## 케라스 전처리 도구로 패딩하기

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [None]:
# 위에서 이미 패딩 이후의 결과로 저장되어서 encoded를 패딩 이전 값으로 재 할당
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


- pad_sequences(): 케라스에서의 패딩

In [None]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

- 앞에 0을 채우느냐, 뒤에 0을 채우느냐는 parameter로 조정 가능
- padding = 'post'

In [None]:
padded = pad_sequences(encoded, padding = 'post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]], dtype=int32)

- Numpy로 했을때와 결과가 같음


In [None]:
(padded == padded_np).all()

True

- 지금까지는 가장 긴 길이를 가진 문서 기준 패딩
- BUT 항상 max일 필요 없음, e.g. 모든 문서 평균길이 20인데 1개가 5000이면 5000으로 패딩할 필요 없음 --> 길이 제한
- parameter: maxlen = 정수, 해당 정수로 모든 문서의 길이를 동일하게

In [None]:
padded = pad_sequences(encoded, padding = 'post', maxlen = 5)
padded 
  # 길이가 5보다 짧은 문서들은 0으로 패딩됨
  # 5보다 길었다면 데이터가 손실 됨
    # e.g. 뒤에서 두번째 문장은 본래 [7,7,3,2,10,1,11] --> [3,2,10,1,11]
    # 앞의 단어가 아니라 뒤의 단어가 삭제되게 하고 싶다면 parameter; truncating = 'post'

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]], dtype=int32)

In [None]:
padded = pad_sequences(encoded, padding = 'post', maxlen = 5, truncating = 'post')
padded 

    # ** 인덱스 낮은 순서대로 5개만 올라서 하고싶은데? 이건 따로 없나? 

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 7,  7,  3,  2, 10],
       [ 1, 12,  3, 13,  0]], dtype=int32)

- 숫자 0 패딩은 관례이긴 하나, 반드시 지켜야 하는 것은 아님.
- 0이 아니라 다른 숫자; e.g. 현재 사용된 정수들과 겹치지 않도록 단어집합 크기에 +1 을 한 숫자

In [None]:
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)

14


- pad_sequences의 인자로 value를 사용하면 0이 아닌 다른 숫자로 패딩 가능

In [None]:
padded = pad_sequences(encoded, padding = 'post', value = last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]], dtype=int32)