# 07) 패딩(padding)

자연어 처리를 하다보면 각 문장(또는 문서)의 길이가 다릅니다. 기계는 길이가 같은 문서를 하나의 행렬로 보고 처리하기 때문에 임의로 동일하게 길이를 맞춰주는 작업이 필요할 수 있습니다. 이를 패딩이라 합니다.

## 07.1. Numpy로 패딩하기

In [2]:
import numpy as np
import keras
from keras.preprocessing.text import Tokenizer

In [3]:
sentences=[['barber', 'person'], ['barber', 'good', 'person'],
           ['barber', 'huge', 'person'], ['knew', 'secret'],
           ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'],
           ['barber', 'kept', 'word'], ['barber', 'kept', 'word'],
           ['barber', 'kept', 'secret'],
           ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
           ['barber', 'went', 'huge', 'mountain']]

In [4]:
# 정수 인코딩 실시

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)

In [5]:
# 센텐스를 정수로 맵핑.

encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [6]:
# 동일한 길이로 맞추기 위해 가장 긴 문장의 길이 출력

max_len = max(len(item) for item in encoded)
print(max_len)

7


In [7]:
# 7보다 짧은 문장은 전부 0으로 길이를 맞춥니다.

for item in encoded:
    while len(item) < max_len:
        item.append(0)
        
padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

## 07.2. 케라스로 패딩하기

In [8]:
from keras.preprocessing.sequence import pad_sequences

In [10]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [12]:
# pad_sequences 로 패딩

padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

케라스의 pad_sequences 는 기본적으로 앞에 0으로 채웁니다. 뒤를 채우고 싶다면 padding='post' 인자를 주면 됩니다.

In [13]:
padded = pad_sequences(encoded, padding='post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

Numpy로 패딩했을 때와 동일한지 봅니다.

In [14]:
(padded == padded_np).all()

True

꼭 가장 긴 길이의 문서에 맞출 필요는 없습니다. max_len 인자로 정수를 주면, 해당 정수로 모든 문서의 길이를 통일시킵니다.

In [15]:
padded = pad_sequences(encoded, padding='post', maxlen = 5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

0으로 패딩하는 제로패딩이 관례이지만, 꼭 다른 숫자로 하고 싶다면 가능합니다.

In [16]:
last_value = len(tokenizer.word_index)
print(last_value)

13


In [17]:
padded = pad_sequences(encoded, padding='post', value=last_value+1)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]])

# 08) 원-핫 인코딩

텍스트에 대한 원핫인코딩을 실시해봅니다.

In [18]:
from konlpy.tag import Okt

In [19]:
# 토큰화

okt = Okt()
token = okt.morphs("나는 자연어 처리를 배운다.")
print(token)

['나', '는', '자연어', '처리', '를', '배운다', '.']


In [20]:
# 인덱싱

word2index = {}
for voca in token:
    if voca not in word2index.keys():
        word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5, '.': 6}


In [21]:
def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [22]:
one_hot_encoding("자연어", word2index)

[0, 0, 1, 0, 0, 0, 0]

## 08.2. 케라스를 이용한 원핫인코딩

to_categorical() 이라는 함수로 케라스도 지원합니다.

In [23]:
from keras.preprocessing.text import Tokenizer
from keras.utils import to_categorical

In [24]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [26]:
t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [27]:
sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [28]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


# 10) 단어 분리하기(Byte Pair Encoding, BPE)

워낙에 어려워서 책이나 논문을 참고합시다. 여기선 코드 실습만 진행합니다.

In [29]:
import re, collections

In [30]:
# BPE 수행 횟수

num_merges = 10

In [32]:
# BPE에 사용할 단어가 low, lower, newest, widest일 때,
# BPE의 입력으로 사용하는 실제 단어 집합은 아래와 같습니다.
# </w>는 단어의 맨 끝에 붙이는 특수 문자이며,
# 각 단어는 글자(character) 단위로 분리합니다.


vocab = {'l o w </w>' : 5,
         'l o w e r </w>' : 2,
         'n e w e s t </w>':6,
         'w i d e s t </w>':3
         }

In [33]:
# BPE의 코드는 아래와 같습니다.
# 알고리즘은 위에서 설명했던 것과 동일하게 가장 빈도수가 높은
# 유니그램의 쌍을 하나의 유니그램으로 통합하는 과정으로 num_merges회 반복합니다.


def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq
    return pairs

def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out

for i in range(num_merges):
    pairs = get_stats(vocab)
    best = max(pairs, key=pairs.get)
    vocab = merge_vocab(best, vocab)
    print(best)

('e', 's')
('es', 't')
('est', '</w>')
('l', 'o')
('lo', 'w')
('n', 'e')
('ne', 'w')
('new', 'est</w>')
('low', '</w>')
('w', 'i')


## 10.2. WPM(Wordpiece Model)

비슷한 WPM 알고리즘이 있지만 오픈소스가 아니랍니다. 이론만 참고하세요

## 10.3. 센텐스피스(Sentencepiece)

논문 : https://arxiv.org/pdf/1808.06226.pdf

센텐스피스 깃허브 : https://github.com/google/sentencepiece

실제로 구글의 센텐스피스를 실무에서 많이 쓴다고 합니다!