<a href="https://colab.research.google.com/github/kssyy9070/Colab/blob/main/16_Text_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 패딩(Padding)

자연어 처리 진행 중 각각의 문장마다 길이가 서로 다름

컴퓨터 입장 : 길이가 동일한 문장의 경우에는 하나의 행렬로 묶어서 보게 되고, 그걸로 한번에 처리가 가능

다양한 문장 길이를 임의적으로 동일하게 맞춰주는 작업을 패딩

In [None]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
final_sentence = [['done','gon','fun'],['time','stop'],['dance','gon','fun'],['time','stop'],["n't",'even','close','eyes'],["n't",'even','smile','smile'],["n't",'even','shed','tear'],['stop','right'],['dance','gon','fun'],['time','stop']]
print(final_sentence)

[['done', 'gon', 'fun'], ['time', 'stop'], ['dance', 'gon', 'fun'], ['time', 'stop'], ["n't", 'even', 'close', 'eyes'], ["n't", 'even', 'smile', 'smile'], ["n't", 'even', 'shed', 'tear'], ['stop', 'right'], ['dance', 'gon', 'fun'], ['time', 'stop']]


In [None]:
# 단어 집합 만들고 -> 정수인코딩
tokenizer = Tokenizer()
tokenizer.fit_on_texts(final_sentence)
aa = tokenizer.texts_to_sequences(final_sentence)
print(aa)

[[9, 2, 3], [4, 1], [7, 2, 3], [4, 1], [5, 6, 10, 11], [5, 6, 8, 8], [5, 6, 12, 13], [1, 14], [7, 2, 3], [4, 1]]


In [None]:
# 가장 길이가 긴 문장 찾기
long_sentence = max(len(item) for item in aa)
# for item in aa:
#   # print(item)
#   print(len(item))

print(long_sentence)

4


In [None]:
# 모든 문장의 길이를 4로 맞추기
# 임의의(가상의) 데이터를 만든 후 -> 이 단어의 인덱스는 0 
# 문장의 길이가 4보다 짧으면 그 문장의 길이가 4로 될때까지 0으로 채우는
for item in aa:
  while len(item) < long_sentence: # long_sentence보다 길이가 짧으면
    item.append(0)
n=np.array(aa)
n

# 패딩(Padding) Data에 특정한 값을 넣어서 data의 shape(크기)를 조정하는 것

array([[ 9,  2,  3,  0],
       [ 4,  1,  0,  0],
       [ 7,  2,  3,  0],
       [ 4,  1,  0,  0],
       [ 5,  6, 10, 11],
       [ 5,  6,  8,  8],
       [ 5,  6, 12, 13],
       [ 1, 14,  0,  0],
       [ 7,  2,  3,  0],
       [ 4,  1,  0,  0]])

# Keras의 pad_sequences

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [None]:
# 위에 있는 aa를 원상태로 복구
aa = tokenizer.texts_to_sequences(final_sentence)
print(aa)

[[9, 2, 3], [4, 1], [7, 2, 3], [4, 1], [5, 6, 10, 11], [5, 6, 8, 8], [5, 6, 12, 13], [1, 14], [7, 2, 3], [4, 1]]


In [None]:
# kerasPadding = pad_sequences(aa)              # 문서의 앞에 0 추가
kerasPadding = pad_sequences(aa, padding='post') # 문서의 뒤에 0 추가 (Numpy때와 동일한 결과값)

kerasPadding

array([[ 9,  2,  3,  0],
       [ 4,  1,  0,  0],
       [ 7,  2,  3,  0],
       [ 4,  1,  0,  0],
       [ 5,  6, 10, 11],
       [ 5,  6,  8,  8],
       [ 5,  6, 12, 13],
       [ 1, 14,  0,  0],
       [ 7,  2,  3,  0],
       [ 4,  1,  0,  0]], dtype=int32)

In [None]:
# 기준을 최대길이로 할 필요가 없는 경우에 'maxlen'을 이용해서 원하는 길이 조정 가능
# 원하는 길이보다 긴 문장이 있는 경우, 데이터 해당하는 갯수만큼 손실 
# 기본적으로 문장의 맨 앞부터 차례대로 데이터 손실이 일어나고,
# 데이터 손실을 맨 뒤에서부터 받고 싶다면 truncating='post' 옵션을 추가해서...!
kerasPadding2 = pad_sequences(aa, padding='post', truncating='post', maxlen=3) # 뒤에서부터 0채우기, 뒤에서부터 손실, 최대길이 3
kerasPadding2

array([[ 9,  2,  3],
       [ 4,  1,  0],
       [ 7,  2,  3],
       [ 4,  1,  0],
       [ 5,  6, 10],
       [ 5,  6,  8],
       [ 5,  6, 12],
       [ 1, 14,  0],
       [ 7,  2,  3],
       [ 4,  1,  0]], dtype=int32)

In [None]:
aaLength = len(tokenizer.word_index)
print(aaLength) # 가지고 있는 index최대길이 + 1

14


In [None]:
kerasPadding3 = pad_sequences(aa, padding='post',value=aaLength)
kerasPadding3 # 0 값이 아니라 최대길이를 넣기

array([[ 9,  2,  3, 14],
       [ 4,  1, 14, 14],
       [ 7,  2,  3, 14],
       [ 4,  1, 14, 14],
       [ 5,  6, 10, 11],
       [ 5,  6,  8,  8],
       [ 5,  6, 12, 13],
       [ 1, 14, 14, 14],
       [ 7,  2,  3, 14],
       [ 4,  1, 14, 14]], dtype=int32)

# One-Hot Encoding(원-핫 인코딩)

컴퓨터 : 문자보다 숫자를 더 잘 처리

문자를 숫자로 바꾸는 방법 중 하나 (기본적인 표현 방법)

단어 집합의 크기를 vector의 차원으로 지정하고, 표현하고자 하는 단어에 인덱스를 1로 부여 / 다른 단어에는 0을 부여하는 단어의 백터

* 백터 (Vector) :
  공간에서 크기와 방향을 가진 것 

  순서가 존재하는 리스트

  ex) [190.3,90.55] != [90.55,190.3] 같지않다. 요소는 같지만 순서가 다르기 때문에

In [None]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.2 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 56.3 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [None]:
from konlpy.tag import Okt

In [None]:
# 한국어 문장 => 형태소 분석
okt = Okt()
word_token = okt.morphs("너무 피곤한 하루하루를 보내고 있다.")
print(word_token)

['너무', '피곤한', '하루하루', '를', '보내고', '있다', '.']


In [None]:
# 나눠진 단어에 각각 index 부여하기 (0부터 시작)
# enumerate를 통해서 자동으로 0부터 인덱스 부여되도록
word_index = {w:i for (i,w) in enumerate(word_token)}
print(word_index)

{'너무': 0, '피곤한': 1, '하루하루': 2, '를': 3, '보내고': 4, '있다': 5, '.': 6}


In [None]:
# 토큰을 입력하면, 토큰에 대한 원-핫 벡터를 뽑아내는 함수
def ohe(w, word_index):
  ohVector = [0] * (len(word_index))  # 위에서 만든 index의 길이만큼 0을 채운 list 생성
  index = word_index[w]               # 파라미터로 넣은 단어를 넣은 변수
  ohVector[index] = 1                 # 해당하는 변수가 있는 위치를 1로 변경
  return ohVector

In [None]:
# '하루하루'라는 단어의 원-핫 벡터
ohe('하루하루',word_index)

[0, 0, 1, 0, 0, 0, 0]

# Keras를 이용한 원-핫 인코딩

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [None]:
text = "곰 세 마리가 한 집에 있어 아빠 곰 엄마 곰 애기 곰"

# 빈도수 기준으로 단어 집합 만들기
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)

{'곰': 1, '세': 2, '마리가': 3, '한': 4, '집에': 5, '있어': 6, '아빠': 7, '엄마': 8, '애기': 9}


In [None]:
# 생성된 단어 집합 내의 일부 단어블로만 구성된 서브 텍스트를 하나 생성
text2 = "엄마 곰 한 마리가 있어"
bear = tokenizer.texts_to_sequences([text2])[0]
print(bear)

[8, 1, 4, 3, 6]


In [None]:
# to_categorical() : keras에서 원-핫 인코딩하는 함수
cate = to_categorical(bear)
print(cate)

# [8, 1, 4, 3, 6] 를 표현한 결과
# 1. 단어 집합의 인덱스 시작 숫자가 1
# 2. 컴퓨터는 0부터 시작
# 3. 각 list의 0번째 자리는 임의적으로 0으로 채워두고
# 4. 각각의 인덱스에 해당하는 자리가 1로 바뀌도록

[[0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0.]]


원핫

단점 : 

단어의 개수가 늘어날수록, 벡터를 저장하기 위한 공간이 늘어난다.
(=벡터의 차원이 늘어난다.)