In [1]:
import keras

Using TensorFlow backend.


In [0]:
# Camadas diferentes servem para processar tipos de dados diferentes. Tensores 2D sao usados em Dense Layers, 3D tensors usam recurrent layers
# Dados de imagens, que sao armazenados em 4D tensors sao processados geralmente por layers convolucionais 2D

from keras import layers
from keras import models

model = models.Sequential()
# criando uma layer que aceita como input 2D tensors com first dimmension sendo 784
layer = layers.Dense(32, input_shape=(784,)) # Dense layer com 32 unidades de outputs
model.add(layer)
model.add(layers.Dense(32)) # Como nao tem input especifico, o Keras interpreta que o input sera no formato de output da layer que vem antes

In [3]:
from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

Downloading data from https://s3.amazonaws.com/text-datasets/imdb.npz


In [5]:
train_data[0][0:5] # Aqui eh uma lista com o indice das palavras, sendo que essas palavras nunca excederao 10000 porque so usamos as 10k mais frequentes

[1, 14, 22, 16, 43]

In [0]:
# Como as layers so aceitam tensores de tamanho pre definido e nao listas de indices variaveis, precisaremos fazer one hot encoding

import numpy as np

def vectorize_sequences(sequences, dimension = 10000):
  results = np.zeros((len(sequences), dimension))
  for i, sequence in enumerate(sequences):
    results[i, sequence] = 1.
  return results

x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

In [9]:
x_train[0]

array([0., 1., 1., ..., 0., 0., 0.])

In [11]:
train_labels

array([1, 0, 0, ..., 0, 1, 0])

In [0]:
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

In [13]:
y_train

array([1., 0., 0., ..., 0., 1., 0.], dtype=float32)

In [0]:
model_imdb = models.Sequential()
model_imdb.add(layers.Dense(16, activation = 'relu', input_shape=(10000,))) # 16 eh o numero de neuronios da camada intermediaria
model_imdb.add(layers.Dense(16, activation= 'relu'))
model_imdb.add(layers.Dense(1, activation='sigmoid')) # aqui no caso so tera um neuronio de output que tera como activation func a sigmoid

In [0]:
# Como estamos lidando com probabilidades de ser 0 ou 1 na output layer, a melhor loss function eh a entropia cruzada em binarios
# como a sigmoid retorna valores de 0 a 1, podem ser interpretados como probabilidades.

model_imdb.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])