**단어 기반 인코딩**

In [1]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'I love my dog',
    'I love my cat'
]

tokenizer = Tokenizer(num_words= 100)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

print(word_index)

{'i': 1, 'love': 2, 'my': 3, 'dog': 4, 'cat': 5}


**Tokenizer**는 문장으로부터 단어를 토큰화 하고 숫자에 대응시키는 딕셔너리를 사용

**Tokenizer**의 인스턴스를 만들면서 **num_words** 파라미터를 이용해서 단어의 개수를 제한

**fit_on_texts()** 메서드는 문자 데이터를 입력받아서 리스트의 형태로 반환

In [3]:
sentences = [
    'I love my dog',
    'I love my cat',
    'You love my dog!'
]

tokenizer = Tokenizer(num_words= 100)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

print(word_index)

{'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6}


느낌표, 마침표와 같은 구두점은 인코딩에 영향 X

**텍스트를 시퀀스로 변환**

**text_to_sequences()** 메서드를 이용해서 단어를 시퀀스의 형태로 변환

In [4]:
sentences = [
    'I love my dog',
    'I love my cat',
    'You love my dog!',
    'Do you think my dog is amazing?'
]

tokenizer = Tokenizer(num_words= 100)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

sequences = tokenizer.texts_to_sequences(sentences)

print(word_index)
print(sequences)

{'my': 1, 'love': 2, 'dog': 3, 'i': 4, 'you': 5, 'cat': 6, 'do': 7, 'think': 8, 'is': 9, 'amazing': 10}
[[4, 2, 1, 3], [4, 2, 1, 6], [5, 2, 1, 3], [7, 5, 8, 1, 3, 9, 10]]


In [5]:
test_sentences = [
    'i really love my dog',
    'my dog loves my friend'
]

test_sentences = tokenizer.texts_to_sequences(test_sentences)
print(test_sentences)

[[4, 2, 1, 3], [1, 3, 1]]


미리 토큰화 되어 있지 않은 'really', 'loves'는 시퀀스에 포함 X

**토큰화 단어 처리하기**

사전에 토큰화 되어 있지 않은 단어들을 무시하지 않고 **oov_token** 인자를 사용해서 특수한 값으로 처리

In [10]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'I love my dog',
    'I love my cat',
    'You love my dog!',
    'Do you think my dog is amazing?'
]

tokenizer = Tokenizer(num_words= 100, oov_token="<OOV>")
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

sequences = tokenizer.texts_to_sequences(sentences)

test_sentences = [
    'i really love my dog',
    'my dog loves my friend'
]

test_sentences = tokenizer.texts_to_sequences(test_sentences)
print(test_sentences)
print(word_index)

[[5, 1, 3, 2, 4], [2, 4, 1, 2, 1]]
{'<OOV>': 1, 'my': 2, 'love': 3, 'dog': 4, 'i': 5, 'you': 6, 'cat': 7, 'do': 8, 'think': 9, 'is': 10, 'amazing': 11}


**패딩 설정하기**

서로다른 개수의 단어로 이루어진 문장을 같은 길이로 만들어주기 위해 패딩을 사용

**pad_sequences** 함수 사용

In [16]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

sentences = [
    'I love my dog',
    'I love my cat',
    'You love my dog!',
    'Do you think my dog is amazing?'
]

tokenizer = Tokenizer(num_words= 100, oov_token="<OOV>")

tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index

sequences = tokenizer.texts_to_sequences(sentences)
padded = pad_sequences(sequences)

print(word_index)
print(sequences)
print(padded)


{'<OOV>': 1, 'my': 2, 'love': 3, 'dog': 4, 'i': 5, 'you': 6, 'cat': 7, 'do': 8, 'think': 9, 'is': 10, 'amazing': 11}
[[5, 3, 2, 4], [5, 3, 2, 7], [6, 3, 2, 4], [8, 6, 9, 2, 4, 10, 11]]
[[ 0  0  0  5  3  2  4]
 [ 0  0  0  5  3  2  7]
 [ 0  0  0  6  3  2  4]
 [ 8  6  9  2  4 10 11]]
