<i>Entende bem o que eu quero dizer. O Senhor há de dar-te inteligência em tudo.
    
   2 Timóteo 2:7</i>

# Montando a primeira Rede Neural
#### Oferecimento: Caio International Productions and Business

<div id="introducao"></div>

___

## Introdução

<div id="vamos-aprender"></div>

### O que vamos aprender:

- Você vai aprender a fazer uma rede neural artificial (ANN, da sigla em inglês)
- Você vai aprender a treinar e tunnar os parâmetros dessa rede neural

<div id="n-vamos-aprender"></div>

### O que não vamos aprender

- Você não vai aprender a criar outras redes neurais

No universo de redes neurais existem diversos tipos de redes. Só pra você ter uma ideia, olhe a seguinte imagem:

<img src="https://www.asimovinstitute.org/wp-content/uploads/2019/04/NeuralNetworkZoo20042019-1400x2380.png" height="680" width="400">

E essas são só algumas redes neurais e neurônios existentes. Você pode ler mais sobre isso no excelentíssimo <a href="https://www.asimovinstitute.org/neural-network-zoo/" target="blank_">artigo</a> <i>The Neural Network Zoo</i> do Instituto Asimov.

- Você não vai aprender Deep Learning

É fato que redes neurais são amplamente utilizadas no conceito de Deep Learning. Entretanto, para falarmos de aprendizagem profunda precisamos introduzir outros conceitos e especificações que não veremos aqui.

- Você não vai aprender TensorFlow

Usaremos Keras e TensorFlow para construirmos nossa rede, mas você não irá aprender todo o arsenal de ferramentas que essas duas maravilhas do Google oferecem.

<div id="o-que-fazer"></div>

___

## Entendendo o que vamos fazer

Simbora então pro código

<div id="bibliotecas"></div>

### Importando bibliotecas e dataset

Por agora só irei importar as bibliotecas mais básicas para o projeto

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [2]:
dataset = pd.read_csv('Churn_Modelling.csv')
dataset.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [3]:
X = dataset.drop(['RowNumber','CustomerId','Surname','Exited'], axis=1)
y = dataset['Exited']

<div id="dataset"></div>

### Trabalhando um pouco com o dataset

In [4]:
from sklearn.preprocessing import LabelEncoder
labelencoder_X_1 = LabelEncoder()
X['Geography'] = labelencoder_X_1.fit_transform(X['Geography'])
labelencoder_X_2 = LabelEncoder()
X['Gender'] = labelencoder_X_2.fit_transform(X['Gender'])
X.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,619,0,0,42,2,0.0,1,1,1,101348.88
1,608,2,0,41,1,83807.86,1,0,1,112542.58
2,502,0,0,42,8,159660.8,3,1,0,113931.57
3,699,0,0,39,1,0.0,2,0,0,93826.63
4,850,2,0,43,2,125510.82,1,1,1,79084.1


In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [6]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

---

## Começando a rede neural

### O neurônio

<img src="https://www.scielo.br/img/revistas/jmoea/v16n3//2179-1074-jmoea-16-03-0628-gf02.jpg" height="208" width="438">

Entender um único neurônio por si só não é muito mais complicado do que calcular o lucro de uma simples lanchonete pequena. Imagine que você tenha uma lanchonete e você só venda três itens: suco, coxinha e cachorro-quente. Cada um custa dois, cinco e quatro reais respectivamente. Para calcular o seu lucro mensal é bem simples: você deve calcular a soma de quanto vendeu de cada item vezes o valor do item e subtrair disso suas despesas.

Imagine que depois você queira saber se teve prejuízo ou não. Você vai olhar pro resultado da conta acima e se perguntar: esse número é maior ou menor que zero? (na prática ninguém se pergunta isso, é algo tão banal que você faz como respirar)

Em seguida, você pode se deparar com um prejuízo e ficar muito triste com isso. Imagine que você queira ter um lucro positivo todo mês (não importa quão grande, você se contenta com um real que seja). Para isso você resolve ajustar os preços todo mês com base nos resultados do mês passado visando maximizar suas chances de obter um lucro maior que zero.

O neurônio é basicamente isso. Formalmente, ele é uma função que recebe uma série de números (que podem vir na forma de vetores, matrizes, tensores, etc) e multiplica estes por outra série de pesos. A este produto somamos um outro parâmetro conhecido como <i>bias</i>. Em seguida, este resultado passa pelo que chamamos de função de ativação e esta é responsável por nos dar um output (o veredito sobre o lucro).
Treinar um único neurônio significa, com base nos resultados anteriores já vistos por este, escolher uma nova série de pesos que maximize a chance de obter o output desejado.

Se quiser entender mais sobre isso, você pode ler este <a href="https://towardsdatascience.com/perceptron-the-artificial-neuron-4d8c70d5cc8d" target="blank_">artigo</a> sobre o Perceptron, um classificador muito simples que exemplifica bem o fundamento de um neurônio artificial.

A associação de vários neurônios nós chamaremos de camada e a associação destas camadas é o que chamaremos finalmente de rede neural.

De agora em diante vamos não só construir como explicar cada parte desse processo de treinar uma rede neural

In [7]:
import keras
from keras.models import Sequential
from keras.layers import Dense

Using TensorFlow backend.


### Adicionando a primeira layer

In [8]:
classifier = Sequential()
classifier.add(Dense(units = 6, kernel_initializer = 'uniform', activation = 'relu', input_dim = 10))

Um parâmetro dessa layer é muito importante de entendermos, então vou fazer uma pausa para estudarmos um pouco dele:

### Funções de ativação

Como foi dito antes, para saber se você teve lucro ou prejuízo na sua lanchonete você comparava o valor obtido com zero para saber se ele foi positivo ou negativo. Escrevendo isso de um jeito matemático, podemos dizer:

$$f(n) = \begin{cases} n  > 0, & \mbox{lucro! :D} \\ n < 0, & \mbox{prejuízo :(} \end{cases}$$

Podemos dizer que $f(n)$ é nossa função de ativação.

A função de ativação é responsável por definir o output de cada neurônio em nossa rede neural.
Alguns exemplos (e os mais comuns) de funções de ativação são:

#### ReLU

ReLU, abreviação de <i>Restricted Linear Unit</i>, é a mais comum e mais simples função de ativação. Principalmente pelo fato que requer menos poder computacional o que reduz o tempo e memória durante a criação de redes maiores e mais complexas ou realizar tarefas de backpropagation.
A função ReLU é simplesmente:

$$f(x) = max(0, x)$$

E seu gráfico então:

<img src="https://www.researchgate.net/profile/Leo_Pauly/publication/319235847/figure/fig3/AS:537056121634820@1505055565670/ReLU-activation-function.png" width=400 height=400>

#### Sigmoid

Sigmoid é outra função muito usada, principalmente para problemas não lineares e que envolvam uma ou mais possíveis classes. Sua função é:

$$f(x) = \frac{1}{1+e^{-x}}$$

E seu gráfico:

<img src="https://www.dobitaobyte.com.br/wp-content/uploads/2018/12/sigmoid.png" width=400 height=400>

#### Hyperbolic tangent

Essa é bem parecida com a função sigmoid, por isso você pode se perguntar "e por quê usá-la?". Bom, isso tem a ver com sua derivada e como a derivada das funções de ativação afetam seu modelo. Isso quem sabe eu não explico em outra aula, daria algumas boas horas.

Sua função:

$$f(x) = tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$$

E seu gráfico:

<img src="https://mathworld.wolfram.com/images/interactive/TanhReal.gif" height=400 width=400>

In [9]:
classifier.add(Dense(units = 6, kernel_initializer = 'uniform', activation = 'relu'))
classifier.add(Dense(units = 1, kernel_initializer = 'uniform', activation = 'sigmoid'))

Agora vamos compilar nosso modelo

In [10]:
classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

Aqui tem mais explicações...

### Optimizadores



Ou algoritmos optimizadores, são algoritmos que comparam a cada nova iteração o valor de uma variável com um valor ideal ou correto para aquela variável e, com isto, faz alterações nos parâmetros a fim de obter melhores resultados. A lista de optimizadores é muito grande e, diferente das funções de ativação, é bem mais difícil explicar. Por isso, vou focar no que eu vou usar (e o mais popular de todos).

#### ADAM optimizer

<img src="https://br.web.img2.acsta.net/pictures/17/06/20/16/57/103535.jpg" width=150 height=200>

Derivado de <i>Adaptative Moment Estimation</i>, ADAM é um optimizador baseado em dois muito famosos: <i>Adaptive Gradient Algorithm</i> e <i>Root Mean Square Propagation</i>. Diferente de modelos mais populares usados em Machine Learning como <i>Stochastic Gradient Descent</i>, ADAM tem a vantagem de não manter a taxa de aprendizagem constante, mas mudá-la para obter resultados mais rápidos com base nas iterações passadas e esse é o motivo de ser tão popular. Além disso, outras vantagens de ADAM são:
- Aloca pouca memória durante a execução
- Simples de implementar
- Muito mais. Vale muito a pena ler o artigo do criador do algoritmo:
    - https://arxiv.org/abs/1412.6980
- E esse outro texto que é bem mais resumido:
    - https://towardsdatascience.com/adam-latest-trends-in-deep-learning-optimization-6be9a291375c

Vamos finalmente treinar nosso modelo:

In [11]:
classifier.fit(X_train, y_train, batch_size = 10, epochs = 50)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.callbacks.History at 0x7f7390676e90>

In [12]:
y_pred = classifier.predict(X_test)
y_pred = (y_pred > 0.5)

In [13]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
cm

array([[1553,   42],
       [ 275,  130]])