### Fundamentos teóricos:
- Prceptron
- Treinamento/ajuste dos pesos
- Gradient descent (descida do gradiente)
- Cálculo do Delta
- Learning rate (taxa de aprendizagem)
- Momentum (momento)
- Backpropagation

OBS: Redes neurais são muito eficientes quando temos um grande volume de dados e para problemas complexos

### Redes neurais 
- Não possi algoritmos pré-estabelecidos para solucionar os problemas
- Imitar o sistema nervoso de humanos no processo de aprendizagem
- Inspirada em redes neurais biológicas
- Parecido com  a troca de informações em uma rede biológica 
- Com deep Learning as redes neurais ficaram populares novamente
- pesos (são o conhecimento da rede neural) amplificam ou reduzem o sinal de entrada.

OBS: step function (função degrau) é uma função em que pequenas modificações podem modificar o resultado final, que não é tão boa para uma rede neural. Necessita de uma função mais complexa em que pequenas modificações não tenham grande impacto no resultado final.

OBS: Redes neurais multicamadas possui camada oculta (hidden layer) 

OBS: Operador XOR não se adequa a uma rede neural de uma só camada pois é um problema não linearmente separável

### Funções de ativação (mais comuns)
- Step Function (retorna valor 0 ou 1)
- Sigmoid (valores entre 0 e 1)
- Hyperbolic tangent (valores entre -1 e 1)


### Algoritmo:
- Inicializa os pesos com valores aleatórios
- Baseado nos dados (aprendizagem supervisionada), realiza os cáluclos com os pesos e calcula o erro
- Calcula as mudanças nos pesos e os atualiza (backpropagation)
- O algoritmo termina quando o erro é pequeno

OBS: Função que calcula o erro é chamada de cost function

Gradiente -> encontrar a combinação de pesos que o erro é o menor possível e é calculado para saber quanto ajustar os pesos

### Taxa de aprendizagem (Learning rate)
- Define o quão rápido o algoritmo vai aprender
- Alto: A convergência é rápida mas pode perder o mínimo global
- Baixo: Será mais lento mas tem mais chances de chegar no mínimo global

### Momento (Momentum)
- Escapar de mínimos locais (nem sempre funciona)
- Define o quão confiável é a última alteração
- Alto: Aumenta a velocidade da convergencia
- Baixo: Pode evitar mínimos locais

### Mean square Error (MSE) e Root Mean square Error (RMSE)
- Média da diferença entre o esperado e o que foi previsto pela rede
- Erros maiores contam mais que erros  menores
- Penaliza erros maiores

OBS: Quando temos problemas mais complexos é necessário colocar mais neurônios na camada de saída.A abordagem mais comum é utilizar para a camada de saída a mesma quantidade de classes que temos.Por exemplo, na classificação de risco de crédito onde temos [ALTO, MÈDIO, BAIXO] (3 classes) utilizamos geralmente 3 neurônios na camada de saída.

### Deep Learning
- "Problema do gradiente desaparecendo" - vanishinggradiente problem - gradiente fica muito pequeno, mudança nos pesos ficam pequena
- Utilização de outras técnicas e funções de ativação
- Por onde seguir
    - Redes neurais convolucionais
    - Redes neurais recorrentes
    - Keras, TensorFlow, Theano
    - GPU
### Camadas ocultas
- Não existe um número exato de neurônios que deve ser usado mas existe uma fórmula bem classica que pode ser utilizada $Neuronios = \frac{Entradas + Saídas}{2} $
- Para descobrir qual a melhor parametrização pode ser utilizada a técnica de validação cruzada (cross validation)
- Em geral, duas camadas funcionam bem para poucos dados

OBS: Problemas linearmente separáveis não necessitam de camadas ocultas (operadores AND e OR)
OBS: Quanto maior o valor da ativação, mais impacto o neurônio possui

Podemos utilizar diferentes funções de ativação para a Camada oculta e para a camada de saída. Por exemplo utilizar a função de ativação Relu (Rectifier, muito utilizada em deep learning) para a camada oculta e a função sigmoide para a camada de saída. Para 1 neurônio de saida podemos utilizar a sigmoide e para mais de 1 neurônio podemos utilizar a função softmax (muito utlizada em Deep Learning, também)

OBS: Para camada de saída categórica podemos fazer um Encoding, quando temos de 3 ou mais neurônios na camada de saída

- Batch Gradiente Descent - Calcula o erro para todos os registros e atualiza os pesos
    - Mini Batch Gradient Descent - Escolhe um número de registros para rodar e atualizas os pesos
- Stochastic Gradient Descent - Calcula o erro para cada registro e atualiza os pesos
    - Ajuda a prevenir minímos locais (superfícies não convexas)
    - Mais rápido (não precisa carregar todos os dados em memória)
    
# Base de dados crédito

In [1]:
# Redes neurais artificiais (MLP = multilayer perceptron)

from sklearn.neural_network import MLPClassifier

In [2]:
import pickle 
with open('credit.pkl', 'rb') as f:
    x_df_train, y_df_train, x_df_test, y_df_test = pickle.load(f)

In [7]:
neural_network = MLPClassifier()
neural_network.fit(x_df_train, y_df_train)
#Stochastic Optimizer: Maximum iterations (200) reached and the optimization hasn't converged yet.
# AQui vemos que a otimização ainda n convergiu entao aumentaremos o numero maximo de iteracoes



MLPClassifier()

In [8]:
neural_network = MLPClassifier(max_iter=1000, verbose=True)#verbose mostra as msg epoca por epoca
neural_network.fit(x_df_train, y_df_train)

Iteration 1, loss = 0.70639853
Iteration 2, loss = 0.64166365
Iteration 3, loss = 0.58576731
Iteration 4, loss = 0.53747080
Iteration 5, loss = 0.49522885
Iteration 6, loss = 0.45958523
Iteration 7, loss = 0.42766289
Iteration 8, loss = 0.40051574
Iteration 9, loss = 0.37621202
Iteration 10, loss = 0.35464003
Iteration 11, loss = 0.33531262
Iteration 12, loss = 0.31762453
Iteration 13, loss = 0.30133985
Iteration 14, loss = 0.28626154
Iteration 15, loss = 0.27229772
Iteration 16, loss = 0.25923142
Iteration 17, loss = 0.24734944
Iteration 18, loss = 0.23621782
Iteration 19, loss = 0.22589197
Iteration 20, loss = 0.21623713
Iteration 21, loss = 0.20724447
Iteration 22, loss = 0.19873579
Iteration 23, loss = 0.19078728
Iteration 24, loss = 0.18347338
Iteration 25, loss = 0.17651975
Iteration 26, loss = 0.17001859
Iteration 27, loss = 0.16416478
Iteration 28, loss = 0.15856581
Iteration 29, loss = 0.15330485
Iteration 30, loss = 0.14838612
Iteration 31, loss = 0.14388866
Iteration 32, los

Iteration 264, loss = 0.02222461
Iteration 265, loss = 0.02218597
Iteration 266, loss = 0.02208945
Iteration 267, loss = 0.02197227
Iteration 268, loss = 0.02188528
Iteration 269, loss = 0.02187366
Iteration 270, loss = 0.02175655
Iteration 271, loss = 0.02169588
Iteration 272, loss = 0.02163517
Iteration 273, loss = 0.02156247
Iteration 274, loss = 0.02145483
Iteration 275, loss = 0.02133060
Iteration 276, loss = 0.02128811
Iteration 277, loss = 0.02122498
Iteration 278, loss = 0.02120736
Iteration 279, loss = 0.02109608
Iteration 280, loss = 0.02096636
Iteration 281, loss = 0.02095340
Iteration 282, loss = 0.02086195
Iteration 283, loss = 0.02077974
Iteration 284, loss = 0.02070194
Iteration 285, loss = 0.02064996
Iteration 286, loss = 0.02057619
Iteration 287, loss = 0.02053319
Iteration 288, loss = 0.02042266
Iteration 289, loss = 0.02033048
Iteration 290, loss = 0.02024858
Iteration 291, loss = 0.02018438
Iteration 292, loss = 0.02014647
Iteration 293, loss = 0.02005855
Iteration 

MLPClassifier(max_iter=1000, verbose=True)

In [11]:
#calculo do numero de neuronios na camada oculta (3 entradas + 1 neuronio na camada de saida)
(3+1)/2

2.0

In [12]:
neural_network = MLPClassifier(max_iter=1000, verbose=True,tol=0.0000100, hidden_layer_sizes=(2,2))#aumentando a tolerancia pra ver se o erro diminui
neural_network.fit(x_df_train, y_df_train)                    # hidden layer (100,100) significa que temos 2 camadas com 100 neuronios cada


Iteration 1, loss = 1.05081518
Iteration 2, loss = 1.04350196
Iteration 3, loss = 1.03594632
Iteration 4, loss = 1.02775905
Iteration 5, loss = 1.01935608
Iteration 6, loss = 1.01069509
Iteration 7, loss = 1.00193423
Iteration 8, loss = 0.99274919
Iteration 9, loss = 0.98353771
Iteration 10, loss = 0.97396818
Iteration 11, loss = 0.96435712
Iteration 12, loss = 0.95428819
Iteration 13, loss = 0.94396410
Iteration 14, loss = 0.93344448
Iteration 15, loss = 0.92251573
Iteration 16, loss = 0.91128171
Iteration 17, loss = 0.89964183
Iteration 18, loss = 0.88782467
Iteration 19, loss = 0.87555647
Iteration 20, loss = 0.86318304
Iteration 21, loss = 0.85052888
Iteration 22, loss = 0.83750624
Iteration 23, loss = 0.82412513
Iteration 24, loss = 0.81082194
Iteration 25, loss = 0.79725647
Iteration 26, loss = 0.78346298
Iteration 27, loss = 0.76952634
Iteration 28, loss = 0.75551726
Iteration 29, loss = 0.74151759
Iteration 30, loss = 0.72731567
Iteration 31, loss = 0.71316314
Iteration 32, los

Iteration 257, loss = 0.15946092
Iteration 258, loss = 0.15901350
Iteration 259, loss = 0.15855657
Iteration 260, loss = 0.15811142
Iteration 261, loss = 0.15766577
Iteration 262, loss = 0.15722368
Iteration 263, loss = 0.15678836
Iteration 264, loss = 0.15635376
Iteration 265, loss = 0.15590964
Iteration 266, loss = 0.15548890
Iteration 267, loss = 0.15506572
Iteration 268, loss = 0.15464677
Iteration 269, loss = 0.15421698
Iteration 270, loss = 0.15380262
Iteration 271, loss = 0.15338896
Iteration 272, loss = 0.15298015
Iteration 273, loss = 0.15256857
Iteration 274, loss = 0.15215873
Iteration 275, loss = 0.15175022
Iteration 276, loss = 0.15135989
Iteration 277, loss = 0.15095785
Iteration 278, loss = 0.15055483
Iteration 279, loss = 0.15017686
Iteration 280, loss = 0.14978205
Iteration 281, loss = 0.14938410
Iteration 282, loss = 0.14899092
Iteration 283, loss = 0.14860593
Iteration 284, loss = 0.14820958
Iteration 285, loss = 0.14781448
Iteration 286, loss = 0.14742334
Iteration 

Iteration 505, loss = 0.11285538
Iteration 506, loss = 0.11271572
Iteration 507, loss = 0.11259192
Iteration 508, loss = 0.11241839
Iteration 509, loss = 0.11226501
Iteration 510, loss = 0.11212950
Iteration 511, loss = 0.11199849
Iteration 512, loss = 0.11185030
Iteration 513, loss = 0.11172160
Iteration 514, loss = 0.11158046
Iteration 515, loss = 0.11143903
Iteration 516, loss = 0.11127215
Iteration 517, loss = 0.11114772
Iteration 518, loss = 0.11096106
Iteration 519, loss = 0.11080103
Iteration 520, loss = 0.11063402
Iteration 521, loss = 0.11046545
Iteration 522, loss = 0.11032591
Iteration 523, loss = 0.11012319
Iteration 524, loss = 0.10994141
Iteration 525, loss = 0.10976084
Iteration 526, loss = 0.10964297
Iteration 527, loss = 0.10940164
Iteration 528, loss = 0.10916999
Iteration 529, loss = 0.10897297
Iteration 530, loss = 0.10874312
Iteration 531, loss = 0.10849995
Iteration 532, loss = 0.10827438
Iteration 533, loss = 0.10805192
Iteration 534, loss = 0.10779079
Iteration 

Iteration 756, loss = 0.04502482
Iteration 757, loss = 0.04488085
Iteration 758, loss = 0.04473429
Iteration 759, loss = 0.04459336
Iteration 760, loss = 0.04445780
Iteration 761, loss = 0.04431714
Iteration 762, loss = 0.04416361
Iteration 763, loss = 0.04407571
Iteration 764, loss = 0.04392747
Iteration 765, loss = 0.04376977
Iteration 766, loss = 0.04361732
Iteration 767, loss = 0.04351500
Iteration 768, loss = 0.04331802
Iteration 769, loss = 0.04318755
Iteration 770, loss = 0.04302557
Iteration 771, loss = 0.04290371
Iteration 772, loss = 0.04276888
Iteration 773, loss = 0.04261523
Iteration 774, loss = 0.04247952
Iteration 775, loss = 0.04233309
Iteration 776, loss = 0.04218528
Iteration 777, loss = 0.04204360
Iteration 778, loss = 0.04189921
Iteration 779, loss = 0.04176562
Iteration 780, loss = 0.04162542
Iteration 781, loss = 0.04148508
Iteration 782, loss = 0.04136800
Iteration 783, loss = 0.04123437
Iteration 784, loss = 0.04106983
Iteration 785, loss = 0.04093428
Iteration 



MLPClassifier(hidden_layer_sizes=(2, 2), max_iter=1000, tol=1e-05, verbose=True)

In [14]:
previsoes = neural_network.predict(x_df_test)
previsoes

array([1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,

In [15]:
from sklearn.metrics import accuracy_score, classification_report

In [16]:
accuracy_score(y_df_test, previsoes)

0.996

In [18]:
print(classification_report(y_df_test, previsoes))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       436
           1       0.98      0.98      0.98        64

    accuracy                           1.00       500
   macro avg       0.99      0.99      0.99       500
weighted avg       1.00      1.00      1.00       500



# Base census

In [19]:
import pickle 
with open('census.pkl', 'rb') as f:
    x_df_train, y_df_train, x_df_test, y_df_test = pickle.load(f)

In [21]:
x_df_train.shape

(27676, 108)

In [22]:
#hidden layer size
(108+1)/2

54.5

In [23]:
neural_network = MLPClassifier(verbose=True, max_iter=1000, tol=0.000010,
                              hidden_layer_sizes = (55,55))
neural_network.fit(x_df_train, y_df_train)

Iteration 1, loss = 0.41758301
Iteration 2, loss = 0.33025875
Iteration 3, loss = 0.31730405
Iteration 4, loss = 0.30964575
Iteration 5, loss = 0.30369766
Iteration 6, loss = 0.29927631
Iteration 7, loss = 0.29611590
Iteration 8, loss = 0.29318700
Iteration 9, loss = 0.29045462
Iteration 10, loss = 0.28802768
Iteration 11, loss = 0.28658234
Iteration 12, loss = 0.28374992
Iteration 13, loss = 0.28233889
Iteration 14, loss = 0.28039215
Iteration 15, loss = 0.27890077
Iteration 16, loss = 0.27702232
Iteration 17, loss = 0.27592822
Iteration 18, loss = 0.27518167
Iteration 19, loss = 0.27221542
Iteration 20, loss = 0.27156222
Iteration 21, loss = 0.26968185
Iteration 22, loss = 0.26777587
Iteration 23, loss = 0.26613316
Iteration 24, loss = 0.26529471
Iteration 25, loss = 0.26376765
Iteration 26, loss = 0.26290485
Iteration 27, loss = 0.26063976
Iteration 28, loss = 0.25952721
Iteration 29, loss = 0.25726743
Iteration 30, loss = 0.25641742
Iteration 31, loss = 0.25489662
Iteration 32, los

Iteration 253, loss = 0.15271160
Iteration 254, loss = 0.15484693
Iteration 255, loss = 0.15266564
Iteration 256, loss = 0.15440565
Iteration 257, loss = 0.15291413
Iteration 258, loss = 0.15301758
Iteration 259, loss = 0.15207113
Iteration 260, loss = 0.15289914
Iteration 261, loss = 0.15514596
Iteration 262, loss = 0.15163168
Iteration 263, loss = 0.15148264
Iteration 264, loss = 0.15292856
Iteration 265, loss = 0.15218300
Iteration 266, loss = 0.15153581
Iteration 267, loss = 0.15096189
Iteration 268, loss = 0.15226867
Iteration 269, loss = 0.15207123
Iteration 270, loss = 0.15137895
Iteration 271, loss = 0.15060792
Iteration 272, loss = 0.15077759
Iteration 273, loss = 0.15010057
Iteration 274, loss = 0.15123283
Iteration 275, loss = 0.14967968
Iteration 276, loss = 0.15014879
Iteration 277, loss = 0.14886275
Iteration 278, loss = 0.15041472
Iteration 279, loss = 0.14902032
Iteration 280, loss = 0.14885586
Iteration 281, loss = 0.14934019
Iteration 282, loss = 0.14842725
Iteration 

MLPClassifier(hidden_layer_sizes=(55, 55), max_iter=1000, tol=1e-05,
              verbose=True)

In [24]:
previsoes = neural_network.predict(x_df_test)
previsoes

array([' <=50K', ' <=50K', ' <=50K', ..., ' <=50K', ' <=50K', ' >50K'],
      dtype='<U6')

In [25]:
accuracy_score(y_df_test, previsoes)

0.8182190378710338

In [27]:
print(classification_report(y_df_test, previsoes))

              precision    recall  f1-score   support

       <=50K       0.87      0.89      0.88      3693
        >50K       0.64      0.60      0.62      1192

    accuracy                           0.82      4885
   macro avg       0.75      0.74      0.75      4885
weighted avg       0.81      0.82      0.82      4885

