# 패딩 (Padding)

자연어 처리 진행 중 각각의 문장마다 길이가 서로 다름

컴퓨터 입장 : 길이가 동일한 문장의 경우에는 하나의 행렬로 묶어서 보게 되고, 그걸로 한번에 처리가 가능

다양한 문장 길이를 임의적으로 동일하게 맞춰주는 작업을 패딩 (Padding)

In [None]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
final_sentence = [['looby', 'loo', 'looby', 'light'], ['looby', 'loo', 'saturday', 'night'], ['put', 'right', 'hand', 'put', 'right', 'hand'], ['give', 'right', 'hand', 'shake', 'shake', 'shake', 'turn'], [], ['looby', 'loo', 'looby', 'light'], ['looby', 'loo', 'saturday', 'night'], ['looby', 'loo', 'looby', 'light'], ['looby', 'loo', 'saturday', 'night'], ['put', 'right', 'hand', 'put', 'right', 'hand'], ['give', 'right', 'hand', 'shake', 'shake', 'shake', 'turn'], [], ['looby', 'loo', 'looby', 'light'], ['looby', 'loo', 'saturday', 'night']]
print(final_sentence)

[['looby', 'loo', 'looby', 'light'], ['looby', 'loo', 'saturday', 'night'], ['put', 'right', 'hand', 'put', 'right', 'hand'], ['give', 'right', 'hand', 'shake', 'shake', 'shake', 'turn'], [], ['looby', 'loo', 'looby', 'light'], ['looby', 'loo', 'saturday', 'night'], ['looby', 'loo', 'looby', 'light'], ['looby', 'loo', 'saturday', 'night'], ['put', 'right', 'hand', 'put', 'right', 'hand'], ['give', 'right', 'hand', 'shake', 'shake', 'shake', 'turn'], [], ['looby', 'loo', 'looby', 'light'], ['looby', 'loo', 'saturday', 'night']]


In [None]:
# 정수 인코딩
tokenizer = Tokenizer()
tokenizer.fit_on_texts(final_sentence)
aa = tokenizer.texts_to_sequences(final_sentence)
print(aa)

[[1, 2, 1, 6], [1, 2, 7, 8], [9, 3, 4, 9, 3, 4], [10, 3, 4, 5, 5, 5, 11], [], [1, 2, 1, 6], [1, 2, 7, 8], [1, 2, 1, 6], [1, 2, 7, 8], [9, 3, 4, 9, 3, 4], [10, 3, 4, 5, 5, 5, 11], [], [1, 2, 1, 6], [1, 2, 7, 8]]


In [None]:
# 가장 길이가 긴 문장이 길이가 얼마나 되는지

long_sentence = max(len(item) for item in aa)

print(long_sentence)

7


In [None]:
# 모든 문장의 길이를 가장 길이가 긴 문장의 크기만큼 맞춰주기
# 임의의(가상의) 단어가 있다고 가정한 후 => 이 단어의 인덱스는 0
# ex) 최대 길이가 4일때, 문장의 길이가 4보다 짧으면 4가 될때까지 0으로 채우는...

for item in aa:
  while len(item) < long_sentence:
    item.append(0)

n = np.array(aa)
n

# 패딩 : Data에 특정한 값을 넣어서 data의 shape(크기)를 조정하는 것!

array([[ 1,  2,  1,  6,  0,  0,  0],
       [ 1,  2,  7,  8,  0,  0,  0],
       [ 9,  3,  4,  9,  3,  4,  0],
       [10,  3,  4,  5,  5,  5, 11],
       [ 0,  0,  0,  0,  0,  0,  0],
       [ 1,  2,  1,  6,  0,  0,  0],
       [ 1,  2,  7,  8,  0,  0,  0],
       [ 1,  2,  1,  6,  0,  0,  0],
       [ 1,  2,  7,  8,  0,  0,  0],
       [ 9,  3,  4,  9,  3,  4,  0],
       [10,  3,  4,  5,  5,  5, 11],
       [ 0,  0,  0,  0,  0,  0,  0],
       [ 1,  2,  1,  6,  0,  0,  0],
       [ 1,  2,  7,  8,  0,  0,  0]])

# Keras의 pad_sequences

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [11]:
# 위에 있는 aa를 원상태로 복구
aa = tokenizer.texts_to_sequences(final_sentence)
print(aa)

[[1, 2, 1, 6], [1, 2, 7, 8], [9, 3, 4, 9, 3, 4], [10, 3, 4, 5, 5, 5, 11], [], [1, 2, 1, 6], [1, 2, 7, 8], [1, 2, 1, 6], [1, 2, 7, 8], [9, 3, 4, 9, 3, 4], [10, 3, 4, 5, 5, 5, 11], [], [1, 2, 1, 6], [1, 2, 7, 8]]


In [13]:
# kerasPadding = pad_sequences(aa) # 데이터의 앞에서부터 0을 채움
kerasPadding = pad_sequences(aa, padding='post') # 데이터의 뒤에 0을 채움
kerasPadding

array([[ 1,  2,  1,  6,  0,  0,  0],
       [ 1,  2,  7,  8,  0,  0,  0],
       [ 9,  3,  4,  9,  3,  4,  0],
       [10,  3,  4,  5,  5,  5, 11],
       [ 0,  0,  0,  0,  0,  0,  0],
       [ 1,  2,  1,  6,  0,  0,  0],
       [ 1,  2,  7,  8,  0,  0,  0],
       [ 1,  2,  1,  6,  0,  0,  0],
       [ 1,  2,  7,  8,  0,  0,  0],
       [ 9,  3,  4,  9,  3,  4,  0],
       [10,  3,  4,  5,  5,  5, 11],
       [ 0,  0,  0,  0,  0,  0,  0],
       [ 1,  2,  1,  6,  0,  0,  0],
       [ 1,  2,  7,  8,  0,  0,  0]], dtype=int32)

In [16]:
# 기준을 최대 길이로 할 필요가 없는 경우에 'maxlen'을 이용해서 원하는 길이 조절 가능
# 원하는 길이보다 긴 문장이 있는 경우, 데이터 해당하는 갯수만큼 손실
# 기본적으로 문장의 맨 앞에서부터 차례대로 데이터의 손실이 발생
# 데이터 손실을 맨 뒤에서부터 받고 싶다면, truncating='post' 옵션을 추가해서...!
kerasPadding2 = pad_sequences(aa, padding='post', truncating='post', maxlen=3)
kerasPadding2

True


# One-Hot Encoding (원-핫 인코딩)

컴퓨터 : 문자보다 숫자를 더 잘 처리함

문자를 숫자로 바꾸는 방법 중 하나

데이터를 수많은 0과 한개의 1값으로 데이터를 구별하는 인코딩

단어 집합의 크기를 vector의 차원(1차원)으로 지정하고, 표현하고자 하는 단어의 인덱스에 1로 부여 / 다른 단어에는 0을 부여하는 단어의 벡터

- 벡터(Vector) : 공간에서 크기와 방향을 가진 것
  
  순서가 존재하는 리스트 !

ex) [190.3, 81.4] != [81.4, 190.3]

In [17]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m47.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m27.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [18]:
from konlpy.tag import Okt

In [19]:
okt = Okt()
word_token = okt.morphs('오늘은 어째서 금요일이 아니죠?')
print(word_token)

['오늘', '은', '어째서', '금요일', '이', '아니죠', '?']


In [20]:
# 나눠진 단어에 각각 index 부여하기 (0부터 시작)
# enumerate를 통해서 자동으로 0부터 인덱스가 부여되도록
word_index = {w : i for i, w in enumerate(word_token)}
print(word_index)

{'오늘': 0, '은': 1, '어째서': 2, '금요일': 3, '이': 4, '아니죠': 5, '?': 6}


In [22]:
# 토큰을 입력하면, 토큰에 대한 원-핫 벡터를 뽑아내는 함수
def ohe(w, word_index):
  ohVector = [0] * len(word_index) # 위에서 만든 index의 길이만큼 0을 채운 list를 생성
  index = word_index[w]   # 파라미터로 넣은 단어를 넣은 변수
  ohVector[index] = 1     # 해당변수가 있는 위치를 1값으로 변경
  return ohVector


In [23]:
# '금요일' 이라는 단어의 원-핫 벡터
ohe('금요일', word_index)

[0, 0, 0, 1, 0, 0, 0]

# Keras를 이용한 원-핫 인코딩


In [25]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [27]:
text = "곰 세 마리가 한 집에 있어 아빠 곰 엄마 곰 애기 곰"

# 빈도수 기준으로 단어 집합 만들기
tokenizer = Tokenizer()
# fit_on_texts 함수가 리스트 형태의 입력을 요구함
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)

{'곰': 1, '세': 2, '마리가': 3, '한': 4, '집에': 5, '있어': 6, '아빠': 7, '엄마': 8, '애기': 9}


In [30]:
# 생성된 단어 집합 내의 일부 단어들로만 구성된 서브 텍스트를 하나 생성
text2 = "아빠 곰 세 마리가"

# texts_to_sequences는 리스트 ["아빠 곰 세마리가"]를 입력 (리스트 형태의 입력을 요구함)
# 이 함수는 입력 리스트의 각 요소(텍스트)를 숫자로 변환해서 리스트 형태로 반환
# 이 함수의 반환 값이 [[7, 1, 2, 3]]이므로, 이중 리스트 형태
# 즉, 리스트 안의 텍스트를 변환하여 리스트로 return하기 때문에,
#   단일 텍스트 변환 결과를 얻기 위해서 0번째 요소를 가져왔음

bear = tokenizer.texts_to_sequences([text2])[0]
print(bear)

[7, 1, 2, 3]


In [31]:
# to_categorical() : keras에서 원-핫 인코딩하는 함수
cate = to_categorical(bear)
print(cate)

# [7, 1, 2, 3] 을 표현한 결과
# 1. 단어 집합의 인덱스 시작 숫자는 1
# 2. 컴퓨터는 0부터 시작
# 3. 각 list의 0번째 자리는 임의적으로 0으로 채워두고
# 4. 각각의 인덱스에 해당하는 자리의 값이 1로 바뀌도록!!

[[0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]]


# 장점 :

  문자데이터 경우에는 컴퓨터가 처리하기 쉽게 숫자로 변환

# 단점 :

  1. 단어의 갯수가 늘어날수록, 벡터를 저장하기 위한 공간이 늘어남 (= 벡터의 차원이 늘어남)
  2. 원-핫 벡터는 단어의 유사도를 표현하지 못한다는 단점
  
  (추천 시스템의 경우)

  특정 검색어에 대해서 유사 단어에 대한 결과도 함께 보여줄 수 있어야 하는데, 단어간의 유사성을 계산할 수 없다면, 연관 검색어를 보여줄 수 없을 것!

  이러한 단점을 해결하기 위해서 단어의 잠재 의미를 반영해서 다차원 공간에 벡터화 하는 기법을 사용할건데 => 대표적으로 예측 기반으로 벡터화하는 Word2Vec(머신러닝 모델)이 있음