# Neural network models

In [21]:
%matplotlib inline 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
import random

## 1. Importando dataset

In [22]:
dataset = pd.read_csv('eda/dataset.csv')
dataset.head()

Unnamed: 0,age,default,balance,housing,loan,day,month,campaign,pdays,previous,...,marital_divorced,marital_married,marital_single,education_primary,education_secondary,education_tertiary,education_unknown,contact_cellular,contact_telephone,contact_unknown
0,58,0,2143,1,0,5,5,1,-1,0,...,0,1,0,0,0,1,0,0,0,1
1,44,0,29,1,0,5,5,1,-1,0,...,0,0,1,0,1,0,0,0,0,1
2,33,0,2,1,1,5,5,1,-1,0,...,0,1,0,0,1,0,0,0,0,1
3,47,0,1506,1,0,5,5,1,-1,0,...,0,1,0,0,0,0,1,0,0,1
4,33,0,1,0,0,5,5,1,-1,0,...,0,0,1,0,0,0,1,0,0,1


## 2. Preparando dataset

1. Remover atributo target do dataset X (usando drop) 
2. Obter coluna target do dataset
3. Separar dados de treino de dados de teste (nesse caso 77% para treino e 33% para teste)

In [23]:
X = dataset.drop('aceitaram',axis=1)
y = dataset['aceitaram']
X_train, X_test, y_train, y_test = train_test_split(X.values,y,test_size=0.33,random_state=42)

## 3. Criando modelo
1. Definir o método de aprendizagem (árvore de decisões)
2. Definir hiperparâmetros (inicialmente default)
3. "Ajustar" modelo (.fit) com os dados de treino

In [24]:
clf = MLPClassifier(solver='adam', hidden_layer_sizes=(15,15,15), random_state=42)
clf = clf.fit(X_train, y_train)

## 4. Testando modelo
1. Com o modelo criado, a partir dos dados de treino, pode-se testar o modelo com os dados de teste
2. Aplicando os dados de teste é possível verificar o desempenho do modelo
    * **precision**: A precisão é a capacidade de um classificador de não rotular uma instância positiva que seja realmente negativa."Para todas as instâncias classificadas como positivas, qual porcentagem estava correta?"  **precision = tp/(tp+fp)**
    * **recall**: É a capacidade de um classificador para encontrar todas as instâncias positivas. Para cada classe, é definida como a proporção de verdadeiros positivos para a soma de verdadeiros positivos e falsos negativos. "Para todas as instâncias que foram realmente positivas, qual porcentagem foi classificada corretamente?" **recall = tp/(tp+fn)**
    * **f1-score**: É uma média harmônica ponderada de _precision_ e _recall_ de tal forma que o melhor escore é 1,0 e o pior é 0,0. De um modo geral, as pontuações F1 são inferiores às medidas de precisão.
    * **support**:Suporte é o número de ocorrências reais da classe no conjunto de dados especificado. 

In [25]:
y_predict = clf.predict(X_test)
print(classification_report(y_test, y_predict,target_names=['Recusaram','Aceitaram']))
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_predict))

             precision    recall  f1-score   support

  Recusaram       0.89      0.96      0.92     13134
  Aceitaram       0.28      0.11      0.16      1786

avg / total       0.82      0.86      0.83     14920

0.8589142091152815


### 4.1. Testando modelo
1. Foram testados os solver's disponíveis do MLPClassifier, sendo eles 'lbfgs','sgd','adam'.
2. Usando como base hidden_layer_sizes, como (30,15,5) e (15,15,15).
3. Demostrando maior variação o solver 'adam'.

In [29]:
HLZ=(30,15,5)
for i in ['lbfgs','sgd','adam']:
    print "No solver %s"%i
    print HLZ
    clf = MLPClassifier(solver=i, hidden_layer_sizes=HLZ, random_state=42)
    clf = clf.fit(X_train, y_train)
    y_predict = clf.predict(X_test)
    print(classification_report(y_test, y_predict,target_names=['Recusaram','Aceitaram']))
    print(accuracy_score(y_test, y_predict))


HLZ=(15,15,15)
for i in ['lbfgs','sgd','adam']:
    print "No solver %s"%i
    print HLZ
    clf = MLPClassifier(solver=i, hidden_layer_sizes=HLZ, random_state=42)
    clf = clf.fit(X_train, y_train)
    y_predict = clf.predict(X_test)
    print(classification_report(y_test, y_predict,target_names=['Recusaram','Aceitaram']))
    print(accuracy_score(y_test, y_predict))

No solver lbfgs
(30, 15, 5)
             precision    recall  f1-score   support

  Recusaram       0.88      1.00      0.94     13134
  Aceitaram       0.00      0.00      0.00      1786

avg / total       0.77      0.88      0.82     14920

0.8802949061662199
No solver sgd
(30, 15, 5)
             precision    recall  f1-score   support

  Recusaram       0.88      1.00      0.94     13134
  Aceitaram       0.00      0.00      0.00      1786

avg / total       0.77      0.88      0.82     14920

0.8802949061662199
No solver adam
(30, 15, 5)
             precision    recall  f1-score   support

  Recusaram       0.88      0.98      0.93     13134
  Aceitaram       0.29      0.04      0.08      1786

avg / total       0.81      0.87      0.83     14920

0.8723190348525469
No solver lbfgs
(15, 15, 15)
             precision    recall  f1-score   support

  Recusaram       0.86      0.61      0.71     13134
  Aceitaram       0.08      0.26      0.13      1786

avg / total       0.77     

### 4.2. Explorando o solver 'adam'
1. Pela sua varaiação foi escolhido como foco.
2. Criado o código para teste
3. Procura accuracy_score maior que 0.87

In [27]:
#código apoio
def gerarHLZ():
    return (random.randint(20,40),random.randint(20,40),random.randint(1,5))

In [28]:
#for _ in xrange(500):
for _ in xrange(5):
    HLZ=gerarHLZ()
    clf = MLPClassifier(solver='adam', hidden_layer_sizes=HLZ, random_state=42)
    clf = clf.fit(X_train, y_train)
    y_predict = clf.predict(X_test)
    if accuracy_score(y_test, y_predict) > 0.87:
        print HLZ
        print(classification_report(y_test, y_predict,target_names=['Recusaram','Aceitaram']))
        print(accuracy_score(y_test, y_predict))


(28, 25, 3)
             precision    recall  f1-score   support

  Recusaram       0.88      1.00      0.94     13134
  Aceitaram       0.00      0.00      0.00      1786

avg / total       0.77      0.88      0.82     14920

0.8802949061662199
(32, 25, 2)
             precision    recall  f1-score   support

  Recusaram       0.88      1.00      0.94     13134
  Aceitaram       0.00      0.00      0.00      1786

avg / total       0.77      0.88      0.82     14920

0.8802949061662199
(23, 20, 4)
             precision    recall  f1-score   support

  Recusaram       0.88      1.00      0.94     13134
  Aceitaram       0.00      0.00      0.00      1786

avg / total       0.77      0.88      0.82     14920

0.8802949061662199
(34, 28, 3)
             precision    recall  f1-score   support

  Recusaram       0.88      1.00      0.94     13134
  Aceitaram       0.00      0.00      0.00      1786

avg / total       0.77      0.88      0.82     14920

0.8802949061662199
