### 토큰화 처리 & 임베딩 

In [44]:
import tensorflow as tf

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical 

In [45]:
text = ['You are very handsome.',
       'Thank you, you too.']

tokenizer = Tokenizer(num_words = 10, oov_token='<00V>')
tokenizer.fit_on_texts(text)

In [46]:
sequences = tokenizer.texts_to_sequences(text)

In [47]:
sequences

[[2, 3, 4, 5], [6, 2, 2, 7]]

In [48]:
# one-hot encoding 
binary = tokenizer.sequences_to_matrix(sequences, mode = 'binary')

In [49]:
binary

array([[0., 0., 1., 1., 1., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 1., 1., 0., 0.]])

In [50]:
tokenizer.word_index

{'<00V>': 1,
 'you': 2,
 'are': 3,
 'very': 4,
 'handsome': 5,
 'thank': 6,
 'too': 7}

### IMDB 데이터셋 

In [51]:
from tensorflow.keras.datasets import imdb

In [52]:
num_words = 10000

In [53]:
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=num_words)

In [54]:
print(X_train.shape, y_train.shape)

(25000,) (25000,)


In [84]:
len(X_train)

TypeError: 'int' object is not callable

###### 빈도에 따른 단어 추출

In [56]:
imdb_get_word_index = {}

In [57]:
for key, value in imdb.get_word_index().items():
    imdb_get_word_index[value] = key
    
for i in range(1,6):
    print('{} 번째 사용 빈도 높은 단어:{}'.format(i, imdb_get_word_index[i]))

1 번째 사용 빈도 높은 단어:the
2 번째 사용 빈도 높은 단어:and
3 번째 사용 빈도 높은 단어:a
4 번째 사용 빈도 높은 단어:of
5 번째 사용 빈도 높은 단어:to


###### 데이터를 같은 길이로 맞추기 

In [62]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [92]:
maxlen = 500

print('pad sequence 사용 전 : ', len(X_train[0]))

pad_X_train = pad_sequences(X_train, maxlen=maxlen)
pad_X_test = pad_sequences(X_test, maxlen=maxlen)

print('pad sequence 사용 전 : ', len(pad_X_train[0]))


TypeError: 'int' object is not callable

### Embedding 층으로 모델 만들기 

###### 영어단어 : 이미 단어 유사도 임베딩이 되어있는 것 

In [None]:
from tensorflow.keras.models import Sequential 
from tensorflow.keras.layers import Dense, Embedding, Flatten

model = Sequential([
    Embedding(input_dim = num_words, output_dim = 32, input_length = maxlen),
    Flatten(),
    Dense(1, activation = 'sigmoid' )
])

In [None]:
model.compile(optimizer = 'adam',
             loss = 'binary_crossentropy',
             metrics='accuracy')

model.summary()

In [81]:
history = model.fit(pad_X_train, y_train,
                   batch_size = 32,
                   epochs = 10,
                   validation_split = 0.2)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [86]:
model.evaluate(pad_X_test, y_test)



[0.4566253125667572, 0.8740400075912476]