<a href="https://colab.research.google.com/github/changyong93/Natural-language-processing-with-chat-bot/blob/main/%EB%94%A5%EB%9F%AC%EB%8B%9D%EC%9D%84_%EC%9D%B4%EC%9A%A9%ED%95%9C_%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC_%EC%9E%85%EB%AC%B8(2_7%2C_%ED%85%8D%EC%8A%A4%ED%8A%B8%EC%A0%84%EC%B2%98%EB%A6%AC_%ED%8C%A8%EB%94%A9).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  패딩(padding)
---
- 자연어 처리를 하다보면 각 문장(또는 문서)은 서로 길이가 다를 수 있음
- 하지만, 기계는 길이가 전부 동일한 문서들에 대해서 하나의 행렬로 보고, 한번에 묶어서 처리 가능
- 즉, 벙렬 연상늘 위해 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요하며 이를 '패딩'이라고 함

## Numpy로 패딩

In [2]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [3]:
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [5]:
# 정수 인코딩
tokenizer = Tokenizer() #상위 n개 선택 안함
tokenizer.fit_on_texts(sentences) #코퍼스의 단어별 빈도수 기준으로 단어 집합 생성

In [6]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


이제 동일한 길이로 맞춰주기 위해 이 중 가장 길이가 긴 문장의 길이를 계산

In [9]:
max_len = max(len(item) for item in encoded)
print(max_len)

7


- 모든 문장 중 길이가 가장 긴 문장의 길이는 7
- 이제 가상의 단어 'PAD'를 사용하는데, 'PAD"라는 단어가 있다고 가정하고, 이 단어를 전부 0번 단어라고 정의
- 문장의 길이가 7보다 짧은 문장에는 숫자 0을 채워서 전부 길이를 7로 맞추기

In [10]:
for item in encoded:
  while len(item) < max_len: #max_len보다 작으면
    item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

- 길이가 7보다 짧은 문장은 전부 숫자 0이 뒤로 붙어서 문자의 길이를 전부 7로 통일
- 기계는 이제 이들을 하나의 행렬로 보고 병렬 처리
- 단, 0번 단어는 아무런 의미도 없는 단어이기에 자연어 처리 과정에서 기계는 0번 단어 무시
- 이와 같이 데이터에 특정 값을 채워서 데이터의 크기(shape)를 조정하는 것을 (padding)이라고 함
- 숫자 0을 사용하고 있다면 제로 패딩(zero padding)

## 케라스 전처리 도구로 패딩
---
keras의 pad_sequences 활용

In [11]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoded 값이 위에서 이미 패딩 후의 결과로 저장되었기에 패딩 이전의 값으로 되돌리기

In [14]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


keras pad_sequences 사용

In [16]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

- keras의 pad_sequences는 기본적으로 앞에서 부터 채우는 방식
numpy를 이용한 방법과 같은 결과를 출력하고자 할 경우 padding = "post"

In [18]:
padded = pad_sequences(encoded, padding = "post")
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]], dtype=int32)

In [21]:
(padded == padded_np).all()

True

- 현재까지는, 가장 길이가 긴 단어를 기준으로 해딩을 했지만, 실제로는 꼭 긴문장 기준으로 해야하는 것은 아님
- 가평 평균 길이가 20인데, 최대가 5000이라고 해서 굳이 5000으로 패딩할 필요는 없음
- 이 경우 max_len의 인자를 정수로 주면 해당 정수로 모든 길이를 동일하게 함
- 단 그럴 경우 데이터 손실이 발생
- 패딩 시 0으로 하는 것이 관례지만, 반드시 지킬 필요는 없고 다른 숫자, 예를 들어 단어 집합의 크기 +1로도 가능

In [22]:
padded = pad_sequences(encoded, maxlen = 5, padding = 'post')
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]], dtype=int32)

In [26]:
last_value = len(tokenizer.word_index) + 1 #단어 집합 크기보다 1 큰 숫자를 사용
last_value

14

In [28]:
padded = pad_sequences(encoded, padding = "post", value = last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]], dtype=int32)