# 패딩   
   
자연어 처리 진행 중 각각의 문장마다 길이가 서로 다름   
(문장이 가진 단어의 갯수가 서로 상이함)   
   
길이가 동일한 문장의 집합이면 그냥 행렬 계산으로 처리가 가능함   
-> 문장의 길이를 우리가 동일하게 맞춰보자!

In [None]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
final_text = [['twinkle', 'twinkle', 'little', 'star'], ['wonder'], ['world', 'high'], ['like', 'diamond', 'sky'], ['blazing', 'sun', 'gone'], ['nothing', 'shines', 'upon'], ['show', 'little', 'light'], ['twinkle', 'twinkle', 'night'], ["trav'ller", 'dark'], ['thanks', 'tiny', 'spark'], ['could', 'see', 'way'], ['twinkle'], ['dark', 'blue', 'sky', 'keep'], ['often', 'thro', 'curtains', 'peep'], ['never', 'shut', 'eye'], ['till', 'sun', 'sky'], ['bright', 'tiny', 'spark'], ['lights', "trav'ller", 'dark'], ['tho', 'know'], ['twinkle', 'twinkle', 'little', 'star']]

In [None]:
# 정수 인코딩
tokenizer = Tokenizer()
tokenizer.fit_on_texts(final_text)
aa = tokenizer.texts_to_sequences(final_text)
print(aa)

[[1, 1, 2, 5], [10], [11, 12], [13, 14, 3], [15, 6, 16], [17, 18, 19], [20, 2, 21], [1, 1, 22], [7, 4], [23, 8, 9], [24, 25, 26], [1], [4, 27, 3, 28], [29, 30, 31, 32], [33, 34, 35], [36, 6, 3], [37, 8, 9], [38, 7, 4], [39, 40], [1, 1, 2, 5]]


In [None]:
# 가장 길이가 긴 문장의 길이가 얼마나 되는지
long_sentence = max(len(item) for item in aa)

print(long_sentence)

4


In [None]:
# 모든 문장의 길이를 가장 길이가 긴 문장으 길이만큼 맞춰주기
# 모든 문장의 길이를 가장 길이가 긴 문장의 길이만큼 맞춰주기 (패딩)
# 인덱스값이 0 인 가상의 단어를 끼워넣는 식으로 구현
# ex) 최대 길이가 4일때, 문장의 길이가 4보다 짧으면 4가 될때까지 0으로 채우기

for item in aa:
  while len(item) < long_sentence:
    item.append(0)
print(aa)

# 행렬로 변환해 처리

n = np.array(aa)
n

In [None]:
# keras 라이브러리를 활용해도 동일한 결과 도출 가능

In [11]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [13]:
# 위에 있는 aa를 원상태로 복구
aa = tokenizer.texts_to_sequences(final_text)
print(aa)

[[1, 1, 2, 5], [10], [11, 12], [13, 14, 3], [15, 6, 16], [17, 18, 19], [20, 2, 21], [1, 1, 22], [7, 4], [23, 8, 9], [24, 25, 26], [1], [4, 27, 3, 28], [29, 30, 31, 32], [33, 34, 35], [36, 6, 3], [37, 8, 9], [38, 7, 4], [39, 40], [1, 1, 2, 5]]


In [15]:
# 옵션에 아무것도 넣지 않은 경우, 앞에부터 0을 채움
# padding='post' 옵션 넣어야 뒤부터 처리
kerasPadding = pad_sequences(aa, padding='post')
kerasPadding

array([[ 1,  1,  2,  5],
       [10,  0,  0,  0],
       [11, 12,  0,  0],
       [13, 14,  3,  0],
       [15,  6, 16,  0],
       [17, 18, 19,  0],
       [20,  2, 21,  0],
       [ 1,  1, 22,  0],
       [ 7,  4,  0,  0],
       [23,  8,  9,  0],
       [24, 25, 26,  0],
       [ 1,  0,  0,  0],
       [ 4, 27,  3, 28],
       [29, 30, 31, 32],
       [33, 34, 35,  0],
       [36,  6,  3,  0],
       [37,  8,  9,  0],
       [38,  7,  4,  0],
       [39, 40,  0,  0],
       [ 1,  1,  2,  5]], dtype=int32)

In [16]:
# 패딩 기준 길이 maxlen 옵션으로 설정
# 원하는 길이보다 더 긴 문장이 있는 경우 -> 데이터 손실(잘려버림)
# 기본 옵션으로 패딩하면 데이터 손실이 문장 앞부터 발생
# 데이터 손실을 뒤 부터로 설정하려면 truncating='post'로 설정
kerasPadding2 = pad_sequences(aa, padding='post', maxlen=3, truncating='post')
kerasPadding2


array([[ 1,  1,  2],
       [10,  0,  0],
       [11, 12,  0],
       [13, 14,  3],
       [15,  6, 16],
       [17, 18, 19],
       [20,  2, 21],
       [ 1,  1, 22],
       [ 7,  4,  0],
       [23,  8,  9],
       [24, 25, 26],
       [ 1,  0,  0],
       [ 4, 27,  3],
       [29, 30, 31],
       [33, 34, 35],
       [36,  6,  3],
       [37,  8,  9],
       [38,  7,  4],
       [39, 40,  0],
       [ 1,  1,  2]], dtype=int32)

# One-Hot Encoding   
   
컴퓨터 : 문자보다 숫자를 더 잘 처리함   
문자를 숫자로 바꿔서 처리하는 기법   
데이터를 0(무효값), 1(유효값)으로 구분해 데이터를 구분하는 방식   
   
단어 집합의 크기를 vector로 지정 (One-hot vector)   
표현하고자 하는 타겟에는 1, 나머지 단어들에는 0을 부여   
   
- 벡터(Vector) : 공간에서 크기, 방향성을 가진 개체 -> 순서가 존재하는 리스트

In [17]:
pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m47.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m25.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [18]:
from konlpy.tag import Okt


In [19]:
okt = Okt()
word_token = okt.morphs("오늘은 어째서 금요일이 아니죠?")
print(word_token)

['오늘', '은', '어째서', '금요일', '이', '아니죠', '?']


In [21]:
# 분석된 문장에 인덱스 부여
# eumerate 활용
word_index = { w: i for i,w in enumerate(word_token)}
print(word_index)

{'오늘': 0, '은': 1, '어째서': 2, '금요일': 3, '이': 4, '아니죠': 5, '?': 6}


In [22]:
# 어떤 토큰을 입력하면, 토큰에 대한 one-hot vector를 생성하는 함수
def ohe(w, word_index):
  ohVector = [0] * len(word_index) # 위에서 만든 index의 길이만큼 0을 채운 list를 생성
  index = word_index[w] # 파라미터로 넣은 단어를 넣은 변수
  ohVector[index] = 1 # 해당 단어가 있는 위치를 1로 변경
  return ohVector


In [23]:
# 금요일 의 벡터 위치 확인
ohe('금요일', word_index)

[0, 0, 0, 1, 0, 0, 0]

# Keras 를 활용한 One-Hot Encoding

In [25]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [26]:
text = "곰 세 마리가 한 집에 있어 아빠 곰 엄마 곰 애기 곰"

# 빈도수 기반으로 단어 집합 만들기
tokenizer = Tokenizer()

# fit_on_texts 가 list 형태로 입력을 요구함
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)


{'곰': 1, '세': 2, '마리가': 3, '한': 4, '집에': 5, '있어': 6, '아빠': 7, '엄마': 8, '애기': 9}


In [29]:
# 생성된 단어 집합에서 집합 내의 일부 단어로만 구성된 서브 텍스트를 하나 생성
text2 = "아빠 곰 세 마리가"

# text_to_sequences : list를 입력받고, list를 리턴함
# 입력 리스트의 각 요소(텍스트)를 리스트 형태로 반환
# 반환이 리스트라 이중 리스트 형태로 반환됨 - 그래서 [0]번째 데이터를 가져오는 것
bear = tokenizer.texts_to_sequences([text2])[0]
print(bear)

[7, 1, 2, 3]


# to_categorical() : keras 의 One-Hot Encoding을 진행하는 함수

In [30]:
cate = to_categorical(bear)
print(cate)

# [7,1,2,3]
# 1. 단어 집합의 인덱스 시작 숫자는 1
# 2. 컴퓨터는 0 부터 시작
# 3. 그래서 각 리스트에 0번째 자리는 0으로 채워줌
# 4. 각각의 인덱스에 해당하는 자리값을 1로 변환

[[0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]]


# Ont-Hot Encoding   
- 장점 : 문자 데이터를 컴퓨터가 처리하기 쉬운 숫자 형태로 변환
- 단점 :  
 1. 단어의 갯수가 늘어날수록, 벡터의 길이가 길어짐 -> 벡터 차원의 증가로 필요한 공간이 점점 늘어남      
 2. One-Hot Vector는 단어간의 연결 관계에 관해서는 정보를 표현하지 못함   
    
( 추천 시스템의 경우 )   
특정 검색어에 대한 유사 단어에 대한 결과도 함께 보여줄 수 있어야 하는데, 그것이 불가능   
   
이러한 단점을 해결하기 위해 단어의 실제 의미를 반영해서 다차원 공간에 벡터화 하는 기법 사용   
=> 대표적으로 Word2Vec 모델