# 1. 패딩(Padding)
- 자연어 처리를 하다보면 각 문장(또는 문서)은 서로 길이가 다를 수 있음
- 병렬 연산을 위해서 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요

- 데이터에 특정 값을 채워서 데이터의 크기(shape)를 조정하는 것을 패딩(padding)이라 함.
- 숫자 0을 사용하고 있다면 제로 패딩(zero padding)

In [3]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

# 문장
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

# tokenizer
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

# 텍스트 시퀀스의 모든 단어들을 각 정수로 맵핑 후 출력
encoded = tokenizer.texts_to_sequences(sentences)
print('\n==모든 단어들을 각 정수로 매핑 후 출력==')
print(encoded)

# 모두 동일한 길이로 맞춰주기 위해서 이 중에서 가장 길이가 긴 문장의 길이를 계산
max_len = max(len(item) for item in encoded)
print('\n==가장 길이가 긴 문장의 길이==')
print(max_len)

# 문장의 길이를 7로 맞춰줌
for item in encoded: # 각 문장에 대해서
    while len(item) < max_len:   # max_len보다 작으면
        item.append(0)

padded_np = np.array(encoded)
print('\n==문장의 길이를 7로 맞춰줌==')
print(padded_np)


==모든 단어들을 각 정수로 매핑 후 출력==
[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]

==가장 길이가 긴 문장의 길이==
7

==문장의 길이를 7로 맞춰줌==
[[ 1  5  0  0  0  0  0]
 [ 1  8  5  0  0  0  0]
 [ 1  3  5  0  0  0  0]
 [ 9  2  0  0  0  0  0]
 [ 2  4  3  2  0  0  0]
 [ 3  2  0  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  2  0  0  0  0]
 [ 7  7  3  2 10  1 11]
 [ 1 12  3 13  0  0  0]]


# 2. 케라스 전처리 도구로 패딩하기

In [6]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

# encoding 한 값
encoded = tokenizer.texts_to_sequences(sentences)
print('\n==모든 단어들을 각 정수로 매핑 후 출력==')
print(encoded)

# 케라스의 pad_sequences를 사용하여 패딩
padded = pad_sequences(encoded)

# pad_sequences는 기본적으로 문서의 뒤에 0을 채우는 것이 아니라 앞에 0으로 채우기 때문
print('\n==keras의 pad_sequence를 사용한 패딩==')
print(padded)

padded = pad_sequences(encoded, padding = 'post')
print('\n==keras의 pad_sequence + post 옵션을 사용한 패딩==')
print(padded)

print('\n==keras의 pad_sequence + 길이5 + post 옵션을 사용한 패딩==')
padded = pad_sequences(encoded, padding = 'post', maxlen = 5)
print(padded)

print('\n==keras의 pad_sequence + 길이5 + post 옵션 + 임의정수값 을 사용한 패딩==')
padded = pad_sequences(encoded, padding = 'post', value = 10)
print(padded)



==모든 단어들을 각 정수로 매핑 후 출력==
[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]

==keras의 pad_sequence를 사용한 패딩==
[[ 0  0  0  0  0  1  5]
 [ 0  0  0  0  1  8  5]
 [ 0  0  0  0  1  3  5]
 [ 0  0  0  0  0  9  2]
 [ 0  0  0  2  4  3  2]
 [ 0  0  0  0  0  3  2]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  2]
 [ 7  7  3  2 10  1 11]
 [ 0  0  0  1 12  3 13]]

==keras의 pad_sequence + post 옵션을 사용한 패딩==
[[ 1  5  0  0  0  0  0]
 [ 1  8  5  0  0  0  0]
 [ 1  3  5  0  0  0  0]
 [ 9  2  0  0  0  0  0]
 [ 2  4  3  2  0  0  0]
 [ 3  2  0  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  6  0  0  0  0]
 [ 1  4  2  0  0  0  0]
 [ 7  7  3  2 10  1 11]
 [ 1 12  3 13  0  0  0]]

==keras의 pad_sequence + 길이5 + post 옵션을 사용한 패딩==
[[ 1  5  0  0  0]
 [ 1  8  5  0  0]
 [ 1  3  5  0  0]
 [ 9  2  0  0  0]
 [ 2  4  3  2  0]
 [ 3  2  0  0  0]
 [ 1  4  6  0  0]
 [ 1  4  6  0  0]
 [ 1  4  2  0  0]
 [ 3  2 10  1 11]
 [ 

## 3. One-hot encoding
- 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식입니다. 이렇게 표현된 벡터를 원-핫 벡터(One-Hot vector)라고 함.

In [11]:
from konlpy.tag import Okt  
okt=Okt()  
token=okt.morphs("나는 자연어 처리를 배운다")  
print('\n==Okt를 이용한 Token화==')
print(token)

word2index={}
for voca in token:
     if voca not in word2index.keys():
        word2index[voca]=len(word2index)
        
print('\n==Token 인덱스화==')
print(word2index)

def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index=word2index[word]
    one_hot_vector[index]=1
    return one_hot_vector

print('\n==One-hot-Encoding==')
print(one_hot_encoding("자연어",word2index))


==Okt를 이용한 Token화==
['나', '는', '자연어', '처리', '를', '배운다']

==Token 인덱스화==
{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}

==One-hot-Encoding==
[0, 0, 1, 0, 0, 0]


## 4. 케라스를 이용한 원-핫 인코딩
- to_categorical()

In [13]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print('\n==Token 인덱스화==')
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded=t.texts_to_sequences([sub_text])[0]
print('\n==정수 Sequence로 texts_to_sequences==')
print(encoded)

one_hot = to_categorical(encoded)
print('\n==One-hot-encoding-keras==')
print(one_hot)


==Token 인덱스화==
{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}

==정수 Sequence로 texts_to_sequences==
[2, 5, 1, 6, 3, 7]

==One-hot-encoding-keras==
[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


## 5. 원-핫 인코딩(One-Hot Encoding)의 한계
- 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점
- 저장 공간 측면에서는 매우 비효율적인 표현 방법
- 단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 기법으로 크게 두 가지
    - 첫째는 카운트 기반의 벡터화 방법인 LSA, HAL 
    - 둘째는 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText