## Redes Neurais Profundas aplicadas a Retenção de Clientes - Model and Evaluation

### Criamos a classe que irá ler os dados dos arquivos de treino, validação e teste e alimentar o modelo

In [1]:
import numpy as np

# Esta classe irá fazer o batch dos dados para o algoritmo. Ela sera um iterator.
class Churn_Data_Reader():
    
    # O método init serve para carregar os dados dos arquivos .npz
    # Precisamos passar o nome do dataset que queremos carregar.
    # Se não colocar nada como parametro para o batch_size, então carregamos todos os dados de uma vez.
    # Por exemplo, se passarmos: x = Churn_Data_Reader('Churn_data_train.npz', 10), ele ira carregar 10 amostras por vez
    def __init__(self, dataset, batch_size = None):
    
        # Os datasets que serão utilizados são: Churn_data_test.npz, Churn_data_train.npz e Churn_data_validation.npz
        # Os arquivos que geramos anteriormente.
        npz = np.load('Churn_data_{0}.npz'.format(dataset))
        
        # Os valores provenientes do dataset serão armazenados nas variáveis abaixo.
        # Aqui extraimmos os inputs (variaveis que irão alimentar o modelo).
        # Como os valores estão em float, então, usamos np.float.
        self.inputs = npz['inputs'].astype(np.float)
        
        # Aqui extraimos os targets, que em nosso caso são valores booleanos, 1 para ficou e 0 para saiu.
        # Como são booleanos, podemos representar como int
        self.targets = npz['targets'].astype(np.int)
        
        # Counts the batch number, given the size you feed it later
        # If the batch size is None, we are either validating or testing, so we want to take the data in a single batch
        if batch_size is None:
            self.batch_size = self.inputs.shape[0]
        else:
            self.batch_size = batch_size
            
        self.curr_batch = 0
        self.batch_count = self.inputs.shape[0] // self.batch_size
    
    # Carrega o próximo lote de dados (batch) do arquivo .npz
    def __next__(self):
        
        if self.curr_batch >= self.batch_count:
            self.curr_batch = 0
            raise StopIteration()
            
        # You slice the dataset in batches and then the "next" function loads them one after the other
        batch_slice = slice(self.curr_batch * self.batch_size, (self.curr_batch + 1) * self.batch_size)
        inputs_batch = self.inputs[batch_slice]
        targets_batch = self.targets[batch_slice]
        self.curr_batch = self.curr_batch + 1
        
        # One-hot encode the targets. In this example it's a bit superfluous since we have a 0/1 column 
        # as a target already but we're giving you the code regardless, as it will be useful for any 
        # classification task with more than one target column
        classes_num = 2
        targets_one_hot = np.zeros((targets_batch.shape[0], classes_num))
        targets_one_hot[range(targets_batch.shape[0]), targets_batch] = 1
        
        # The function will return the inputs batch and the one-hot encoded targets
        return inputs_batch, targets_one_hot
    
        # Método para iterar os lotes, pois os colocaremos em um loop.
        # Isso diz ao Python que a classe que estamos definindo é iterável, ou seja, podemos usá-la da seguinte forma:
        # Para entrada, saída em dados, etc
        # Esse método apenas diz que essa classe é um iterator. Mas quem diz como iterar, é o método __next__

    def __iter__(self):
        return self

### Definimos os parametros para nossa Rede Neural

In [3]:
# Importamos o Tensorflow
import tensorflow as tf

# Quantidade de variáveis de input - No dataset que estamos utilizando, são 10
input_size = 10

# Quantidade de Classes que teremos. Apenas 2, pois serão 0 ou 1.
output_size = 2

# Quantidade de neuronios da camada oculta
hidden_layer_size = 50

# Resetamos o grafo, para que possamos mexer com os hiperparâmetros e executar novamente o código.
tf.reset_default_graph()

# Criamos os placeholders - Reservamos o local de armazenamento dos dados no Grafo
# Inputs
inputs = tf.placeholder(tf.float32, [None, input_size])

# Targets - Alvos
targets = tf.placeholder(tf.int32, [None, output_size])

# Camadas Ocultas
# Criaremos uma rede neural com 2 camadas ocultas, com 50 neurons, cada uma
# A primeira camada terá relu como função de ativação
weights_1 = tf.get_variable("Peso01", [input_size, hidden_layer_size])
biases_1 = tf.get_variable("Tendencia01", [hidden_layer_size])
outputs_1 = tf.nn.relu(tf.matmul(inputs, weights_1) + biases_1)

# A primeira camada terá sigmoid como função de ativação - Testar ambas com relu
weights_2 = tf.get_variable("Peso02", [hidden_layer_size, hidden_layer_size])
biases_2 = tf.get_variable("Tendencia02", [hidden_layer_size])
outputs_2 = tf.nn.sigmoid(tf.matmul(outputs_1, weights_2) + biases_2)

# Camada de saída
weights_3 = tf.get_variable("Peso03", [hidden_layer_size, output_size])
biases_3 = tf.get_variable("Tendencia03", [output_size])

# We will incorporate the softmax activation into the loss, as in the previous example
outputs = tf.matmul(outputs_2, weights_3) + biases_3

# Use the softmax cross entropy loss with logits
loss = tf.nn.softmax_cross_entropy_with_logits(logits=outputs, labels=targets)
mean_loss = tf.reduce_mean(loss)

# Get a 0 or 1 for every input indicating whether it output the correct answer
out_equals_target = tf.equal(tf.argmax(outputs, 1), tf.argmax(targets, 1))
accuracy = tf.reduce_mean(tf.cast(out_equals_target, tf.float32))

# Optimize with Adam
optimize = tf.train.AdamOptimizer(learning_rate = 0.0005).minimize(mean_loss)

### Iniciamos o sessão do Tensorflow

In [4]:
# Inicializamos nosso modelo e fazemos a carga dos dados
# Cria a sessão no tensorflow
sess = tf.InteractiveSession()

# Informamos o diretório para gravar os dados que serão lidos pelo tensorboard
writer = tf.summary.FileWriter("./tensorboard", sess.graph)

# Inicializamos as variáveis
initializer = tf.global_variables_initializer()
sess.run(initializer)

# Escolhemos o tamanho do batch que iremos carregar, em cada iteração.
batch_size = 32

# Quantidade de Epochs - Passadas que iremos dar através de nossa rede neural.
max_epochs = 50
prev_validation_loss = 9999999.

# Carregamos o primeiro lote de treinamento e validação, usando a classe que criamos.
train_data = Churn_Data_Reader('train', batch_size)
validation_data = Churn_Data_Reader('validation')

### Iniciamos o treino e a validação do modelo

In [5]:
# Crie o loop para epoch
for epoch_counter in range(max_epochs):
    
    # Definimos a perda atual para o epoch como 0.
    # Fazemos como float.
    curr_epoch_loss = 0.
    
    # Iterate over the training data 
    # Iteramos sobre os dados de treinamento, uma vez que os dados de treinamento, na verdade é uma instancia de Churn_Data_Reader
    # Since train_data is an instance of the Audiobooks_Data_Reader class,
    # we can iterate through it by implicitly using the __next__ method we defined above.
    # As a reminder, it batches samples together, one-hot encodes the targets, and returns
    # inputs and targets batch by batch
    for input_batch, target_batch in train_data:
        _, batch_loss = sess.run([optimize, mean_loss], feed_dict={inputs: input_batch, targets: target_batch})
        
        # Atualizamos a perda atual
        curr_epoch_loss = curr_epoch_loss + batch_loss
    
    # Encontramos a média da perda atual
    # batch_count é uma variavel, definido na classe Churn_Data_Reader
    curr_epoch_loss = curr_epoch_loss / train_data.batch_count
    
    # Definimos a perda e a acurácia da validação para 0
    validation_loss = 0.
    validation_accuracy = 0.
    
    # Use the same logic of the code to forward propagate the validation set
    # Usamos a mesma lógica do código para encaminhar a propagação do conjunto de validação
    
    for input_batch, target_batch in validation_data:
        validation_loss, validation_accuracy = sess.run([mean_loss, accuracy], feed_dict={inputs: input_batch, targets: target_batch})
    
    # Imprime as estatísticas de perda e acurácia para a epoch atual
    print('Epoca ' + str(epoch_counter + 1) + 
          '. Treinamento - Loss: '+'{0:.3f}'.format(curr_epoch_loss) + 
          '. Validação - Loss: '+'{0:.3f}'.format(validation_loss) + 
          '. Validação - Accuracy: '+'{0:.2f}'.format(validation_accuracy * 100.) + '%')
    
    # Trigger early stopping if validation loss begins increasing.
    if validation_loss > prev_validation_loss:
        break
        
    # Store this epoch's validation loss to be used as previous in the next iteration.
    prev_validation_loss = validation_loss
    
print('Final do Treinamento.')

Epoca 1. Treinamento - Loss: 0.730. Validação - Loss: 0.636. Validação - Accuracy: 66.58%
Epoca 2. Treinamento - Loss: 0.622. Validação - Loss: 0.584. Validação - Accuracy: 72.73%
Epoca 3. Treinamento - Loss: 0.591. Validação - Loss: 0.553. Validação - Accuracy: 74.69%
Epoca 4. Treinamento - Loss: 0.575. Validação - Loss: 0.536. Validação - Accuracy: 75.18%
Epoca 5. Treinamento - Loss: 0.566. Validação - Loss: 0.526. Validação - Accuracy: 75.68%
Epoca 6. Treinamento - Loss: 0.558. Validação - Loss: 0.518. Validação - Accuracy: 76.41%
Epoca 7. Treinamento - Loss: 0.551. Validação - Loss: 0.510. Validação - Accuracy: 76.90%
Epoca 8. Treinamento - Loss: 0.542. Validação - Loss: 0.502. Validação - Accuracy: 77.64%
Epoca 9. Treinamento - Loss: 0.534. Validação - Loss: 0.494. Validação - Accuracy: 77.89%
Epoca 10. Treinamento - Loss: 0.525. Validação - Loss: 0.486. Validação - Accuracy: 78.13%
Epoca 11. Treinamento - Loss: 0.517. Validação - Loss: 0.479. Validação - Accuracy: 78.87%
Epoca 12

### Testamos o modelo

In [6]:
# Carregamos os dados de teste, seguindo a mesma lógica que fizemos para os dados de treino e validação
test_data = Churn_Data_Reader('test')

# Fazemos a propagação através do conjunto de treinamento. Desta vez só precisamos da acurácia
for inputs_batch, targets_batch in test_data:
    test_accuracy = sess.run([accuracy], feed_dict={inputs: inputs_batch, targets: targets_batch})

# Define a acurácia do teste em percentual.
# Quando o sess.run tem uma única saída, obtemos uma lista, em vez de um float.
# Portanto, devemos pegar o primeiro valor da lista (o valor na posição 0)
test_accuracy_percent = test_accuracy[0] * 100.

# Imprime a acurácia do teste
print('Teste. Precisão - Accuracy: '+'{0:.2f}'.format(test_accuracy_percent)+'%')

Teste. Precisão - Accuracy: 78.68%
