<h2>패딩(Padding)</h2>

<h3>1. Numpy로 패딩하기</h3>

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [2]:
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [4]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

<b>**fit_on_texts()안에 코퍼스 입력시 빈도수를 기준으로 단어 집합 생성**</b>

In [5]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


<b>모두 동일한 길이로 맞춰주기 위해 이 중에서 가장 길이가 긴 문장의 길이를 계산</b>

In [6]:
max_len = max(len(item) for item in encoded)
print(max_len)

7


<b>모든 문장의 길이를 7로 맞춤. 가상의 단어 'PAD'를 사용 이 단어는 0번 단어라고 정의</b>

In [7]:
for item in encoded: # 각 문장에 대해서
    while len(item) < max_len:   #max_len보다 작으면
        item.append(0)
        
padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

<i>데이터의 크기를 조정하는 것을 패딩, 숫자 0을 사용하고 있다면 <b>제로 패딩</b>이라고 한다.</i>

<h3>2. 케라스 전처리 도구로 패딩하기</h3>

In [8]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [9]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


<b>케라스의 pad_sequences를 사용하여 패딩하기</b>

In [10]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

<b>Numpy로 진행한 결과값이란 다를 이유는<br>
       pad_sequences는 문서의 뒤에 0을 채우는 것이 아니라앞에 0으로 채우기 때문이다<br>Numpy처럼 뒤에 0을 채우고 싶다면 인자로 padding='post'를 주면됩니다.
</b>

In [12]:
padded = pad_sequences(encoded, padding = 'post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

<b>가장 긴 문서의 길이를 기준으로 굳이 패딩 할 필요는없다.<br>
   길이에 제한을 두고 패딩할 수 있다.
</b>

In [13]:
padded = pad_sequences(encoded, padding = 'post', maxlen = 5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

<b>1. 5보다 짦은 문서들은 0으로 패딩,<br>
   2. 5보다 길었던 문서들은 데이터가 손실.<br>
   3. 숫자 0이 아니라 다른 숫자를 패딩을 위한 숫자로 사용 가능하다.
</b>

In [None]:
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 ㅋ