<a href="https://colab.research.google.com/github/Youngmi-Park/Coursera-DeepLearning.AI-TensorFlow-Developer/blob/main/Course3/2_sequences_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

이미지에서는 입력크기를 정의한 것 처럼 최소한 모든 문장을 같은 길이로 만들기 위해 이 목록을 조작해야 할 수도 있다. 그렇지 않으면 신경망을 훈련시키기 어려울 수 있다.

광범위한 어휘를 얻기 위해 많은 훈련 데이터가 필요하다. 그렇지 않으면 문장 단어의 손실이 있을 수 있다. 아니면 특별한 값을 지정해 줄 수도 있다.

In [18]:
import tensorflow as tf
from tensorflow import keras

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [19]:
sentences = [
    'I love my dog',
    'I love my cat',
    'You love my dog!',
    'Do you think my dog is amazing?'
]

이제 단어 색인에 없는 단어에 대해 외부 어휘에 대한 토큰 oov를 사용하도록 지정할 수 있다. 여기서 원하는 값을 사용할 수 있지만 실제 단어와 혼동되지 않는 고유한 것이어야 한다.

In [16]:
tokenizer = Tokenizer(num_words=100, oov_token='<OOV>') # 토크나이저 생성자에 oov 토큰을 추가
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

단어를 인코딩한다.

In [21]:
sequences = tokenizer.texts_to_sequences(sentences)

다음은 패딩이다. 훈련을 위해 네트워크에 공급할 때 텍스트의 경우 텍스트로 훈련하기 전에 어느 정도 크기의 균일성이 필요하므로 패딩을 사용한다.

In [24]:
padded = pad_sequences(sequences, maxlen=5) # 문장 앞에 0으로 padding, default = pre
# maxlen 문장 최대 길이를 5로 설정, 문장에 최대 5개의 단어만 포함한다.

In [25]:
print("\nWord Index = " , word_index)
print("\nSequences = " , sequences)
print("\nPadded Sequences:")
print(padded)


Word Index =  {'<OOV>': 1, 'my': 2, 'love': 3, 'dog': 4, 'i': 5, 'you': 6, 'cat': 7, 'do': 8, 'think': 9, 'is': 10, 'amazing': 11}

Sequences =  [[5, 3, 2, 4], [5, 3, 2, 7], [6, 3, 2, 4], [8, 6, 9, 2, 4, 10, 11]]

Padded Sequences:
[[ 0  5  3  2  4]
 [ 0  5  3  2  7]
 [ 0  6  3  2  4]
 [ 9  2  4 10 11]]


Padded Sequences를 보면 문장 목록이 행렬로 채워지고 행렬의 각 행 길이가 동일한 것을 볼 수 있다.패딩을 문장 뒤에 넣고 싶다면 `padding=post`를 추가하면 된다. 

행렬의 너비는 가장 긴 문장과 같아지는데, `maxlen` 매개변수를 사용하여 이를 재정의할 수 있다.

maxlength보다 긴 문장이 있으면 정보를 잃게된다. 이때, 패딩과 마찬가지로 기본값은 pre이다. 즉, 문장의 시작 부분부터 잃게 된다. 끝에서 잃도록 하려면 `truncating=post`를 사용하면 된다.

In [26]:
# Try with words that the tokenizer wasn't fit to
test_data = [
    'i really love my dog',
    'my dog loves my manatee'
]

In [27]:
test_seq = tokenizer.texts_to_sequences(test_data)
print("\nTest Sequence = ", test_seq)


Test Sequence =  [[5, 1, 3, 2, 4], [2, 4, 1, 2, 1]]


In [28]:
padded = pad_sequences(test_seq, maxlen=10)
print("\nPadded Test Sequence: ")
print(padded)


Padded Test Sequence: 
[[0 0 0 0 0 5 1 3 2 4]
 [0 0 0 0 0 2 4 1 2 1]]
