### 패딩(Padding)  
자연어 처리를 하다보면 각 문장은 서로 길이가 다를 수 있습니다.
그런데 기계는 길이가 전부 동일한 문서들에 대해서는 하나의 행열로 보고 
한꺼번에 묶어서 처리할 수 있습니다. 다시말해 병렬연산을 위해서 여러문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요할 떄가 있습니다.


### 1. Numpy 로 패딩하기

In [9]:
import numpy as np
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from tensorflow.keras.preprocessing.text import Tokenizer

In [17]:
# 1. 문장 토큰화
preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [15]:
# 정수인코딩 실행
tokenizer = Tokenizer()
# 단어 집합을 먼저 만들고
tokenizer.fit_on_texts(preprocessed_sentences)
# 만든 집합으로 정수 인코딩 실행
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [21]:
max_len = max(len(item) for item in encoded)

print("최대길이 ",max_len)

최대길이  7


In [25]:
# 최대길이가 될깨까지 각 sentence 마다 0을 append
# 0을 append 하는것은 제로패딩입니다.
for sentence in encoded:
    while len(sentence) < max_len:
        sentence.append(0)
        
padded_up = np.array(encoded)
padded_up

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

### 2. 케라스 전처리도구로 패딩하기

In [27]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [30]:
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [33]:
# padding = "post" 옵션을 주면 뒤에 0 이 append 되는식임
# 디폴트는 앞에 0이 붇음
padded = pad_sequences(encoded,padding = "post")
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]], dtype=int32)

In [37]:
# 넘파이 로 패딩한값과 케라스로 패딩한값은 같습니다.
(padded == padded_up).all()

True

In [38]:
# 규격을정해 패딩하기 
# 이러면 규격외의것들은 데이터가 손실됨
padded = pad_sequences(encoded, padding="post",maxlen=5)

padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]], dtype=int32)