**07) 패딩(Padding)**

  여러 문자의 길이를 임의로 동일하게 맞춰주는 작업

In [None]:
# import nltk
# nltk.download('punkt')
# nltk.download('stopwords')

from nltk.tokenize import sent_tokenize # 구문을 문장 단위로 분리
from nltk.tokenize import word_tokenize # 문장을 단어 단위로 분리
from nltk.corpus import stopwords

text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."
print('text ---------------------------------------')
print(text)
print()

# 문장 토큰화
token_sent = sent_tokenize(text)
print('문장 토큰화 --------------------------------')
print(token_sent)
print()

# 정제와 단어 토큰화
vocab = {} # 파이썬의 dictionary 자료형
sentences = []
stop_words = set(stopwords.words('english')) # 불용어 리스트
print('불용어 리스트 -------------------------------')
print(stop_words)
print()

for i in token_sent:
  token_word = word_tokenize(i) # 단어 토큰화를 수행합니다
  result = []

  for word in token_word:
    word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다
    if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다
      if len(word) > 2: # 단어 길이가 2 이하인 경우에 대하여 추가로 단어를 제거합니다
        result.append(word)
        if word not in vocab:
          vocab[word] = 0
        vocab[word] += 1  

  sentences.append(result)

print('문장별 단어 토큰 결과(불용어 / 2글자 이하 제거) -------------')
print(sentences)
print()

1. Numpy로 패딩하기

In [None]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

print(sentences)
print()

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

encoded = tokenizer.texts_to_sequences(sentences)

print('단어별 정수 인덱스 부여 --------------')
print(encoded)
print()

max_len = max(len(item) for item in encoded)
print('가장 긴 문장의 길이 ------------------')
print(max_len)
print()

for item in encoded:  # 각 문장에 대해서
  while len(item) < max_len:  # max_len 보다 작으면
    item.append(0)

print(encoded)
print()

padded_np = np.array(encoded)
print('패딩 결과  ---------------------------')
print(padded_np)
print()

2. 케라스 전처리 도구로 패딩하기

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoded = tokenizer.texts_to_sequences(sentences)

print('단어별 정수 인덱스 부여 --------------')
print(encoded)
print()

padded = pad_sequences(encoded) # pad_sequences는 기본적으로 앞에서 0 을 채움
print('패딩 결과  ---------------------------')
print(padded)
print()

padded = pad_sequences(encoded, padding='post') # 뒤에서 0 을 채움
print('패딩 결과 (뒤에서 0 ) ----------------')
print(padded)
print()

print('numpy 결과와 비교 --------------------')
print(padded == padded_np)
print((padded == padded_np).all())


padded = pad_sequences(encoded, padding='post')
print('패딩 결과 (뒤에서 0 ) ----------------')
print(padded)
print()


padded = pad_sequences(encoded, padding='post', maxlen=5) # 5 개로 길이 제한
print('maxlen 을 5 로 정의 ------------------')
print(padded)
print()

print(tokenizer.word_index)
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)
print()

padded = pad_sequences(encoded, padding='post', value=last_value) # 패딩 숫자를 (단어 길이+1) 로 정의
print('패딩 숫자를 0이 아닌 숫자 -------------')
print(padded)
print()