### Base de dados census

In [26]:
import pandas as pd

df = pd.read_csv('census.csv')

In [27]:
df.head(3)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K


Temos 14 colunas presentes no dataset fornecido, sendo 13 delas variáveis características (dados de entrada) e um delas uma variável-alvo (que queremos que o nosso modelo seja capaz de prever).

As variáveis características são:

    age             - A idade do usuário
    Workclass       - Profissão do usuário
    final-weight    - Renda final do usuário
    education       - Educação do usuário
    education-num   - ID da educação do usuário
    marital-status  - Estado-civil do usuário
    occupation      - Ocupação do usuário
    relationship    - Relacionamento do usuário
    race            - Raça do usuário
    sex             - Sexo do usuário
    capital-gain    - Capital ganho
    capital-loss    - Capital perdido
    hour-per-week   - Horas por semana
    native-country  - Cidade natal

A variável-alvo é:

    income    - um tipo *binário* que indica a renda do usuário: 
            <=50k      - Usuário com renda menor ou igual a 50000
             >50k      - Usuário com renda maior a 50000

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
age               32561 non-null int64
workclass         32561 non-null object
final-weight      32561 non-null int64
education         32561 non-null object
education-num     32561 non-null int64
marital-status    32561 non-null object
occupation        32561 non-null object
relationship      32561 non-null object
race              32561 non-null object
sex               32561 non-null object
capital-gain      32561 non-null int64
capital-loos      32561 non-null int64
hour-per-week     32561 non-null int64
native-country    32561 non-null object
income            32561 non-null object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


É notado que existem variáveis do tipo ``float64`` (números "decimais"), variáveis do tipo ``int64`` (números inteiros) e do tipo ``object`` (nesse caso são *strings*, ou texto). 

Como a maioria dos algoritmos de aprendizado estatístico supervisionado só aceita valores numéricos como entrada, é necessário então o pré-processamento das variáveis do tipo "object" antes de usar esse dataset como entrada para o treinamento de um modelo.

A função ``describe()`` gera várias informações sobre as variáveis numéricas que também podem ser úteis:

In [29]:
df.describe()

Unnamed: 0,age,final-weight,education-num,capital-gain,capital-loos,hour-per-week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0


### Definição das features do nosso modelo
Para isso, criaremos a váriavel X que receberá as variáveis características do nosso modelo, e a variavel y que receberá a variável-alvo do nosso modelo.

Também retiraremos as colunas 'clientid' que não terá relevância no nosso modelo

In [30]:
# Checando as colunas do nosso dataset
df.columns

Index(['age', 'workclass', 'final-weight', 'education', 'education-num',
       'marital-status', 'occupation', 'relationship', 'race', 'sex',
       'capital-gain', 'capital-loos', 'hour-per-week', 'native-country',
       'income'],
      dtype='object')

In [31]:
# Definição das colunas que serão features (nota-se que a coluna 'clientid' não está presente)
features = [
    'age', 'workclass', 'final-weight', 'education', 'education-num',
    'marital-status', 'occupation', 'relationship', 'race', 'sex',
    'capital-gain', 'capital-loos', 'hour-per-week', 'native-country'
]

# Definição da variável-alvo
target = ["income"]

# Preparação dos argumentos para os métodos da biblioteca ``scikit-learn``
X = df[features].values
y = df[target].values

### Tratamento de variáveis categóricas

Como mencionado antes, os computadores não são bons com variáveis "categóricas" (ou strings).

Dado uma coluna com variável categórica, o que podemos realizar é a codificação dessa coluna em múltiplas colunas contendo variáveis binárias. Esse processo é chamado de "one-hot-encoding" ou "dummy encoding".

In [32]:
from sklearn.preprocessing import LabelEncoder

lbp = LabelEncoder()

In [33]:
# Parte da transformação de categóricos para inteiros

X[:, 1] = lbp.fit_transform(X[:, 1])

X[:, 3] = lbp.fit_transform(X[:, 3])

X[:, 5] = lbp.fit_transform(X[:, 5])

X[:, 6] = lbp.fit_transform(X[:, 6])

X[:, 7] = lbp.fit_transform(X[:, 7])
X
X[:, 8] = lbp.fit_transform(X[:, 8])

X[:, 9] = lbp.fit_transform(X[:, 9])

X[:, 13] = lbp.fit_transform(X[:, 13])

###### Checando se os dados foram alterados das três primeiras linhas

In [34]:
df.head(3)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K


In [35]:
X[0:3]

array([[39, 7, 77516, 9, 13, 4, 1, 1, 4, 1, 2174, 0, 40, 39],
       [50, 6, 83311, 9, 13, 2, 4, 0, 4, 1, 0, 0, 13, 39],
       [38, 4, 215646, 11, 9, 0, 6, 1, 4, 1, 0, 0, 40, 39]], dtype=object)

Dados alterados :D

#### Observação:
Não fizemos isso certo totalmente, pois colocamos todas as variavéis do tipo catégorico como ordinal, como por exemplo:
O sexo Masculino está com o valor 0, e o sexo Feminino está com o valor 1, assim, o sexo Feminino teria maior influência do que o sexo masculino.
##### por isso devemos usar as variaveis do tipo 'dummy' que não tem relevância no treinamento dos modelos de Machine Learning

In [36]:
from sklearn.preprocessing import OneHotEncoder

In [37]:
# Transformação do tipo 'race' para tipo dummy, que seria sem importância
ohe_x = OneHotEncoder(categorical_features=[1, 3, 5, 6, 7, 8, 9, 13])

X = ohe_x.fit_transform(X).toarray()

# transformando a classe
ohe_y = LabelEncoder()

y = ohe_y.fit_transform(y)

In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.
  y = column_or_1d(y, warn=True)


#### Escalonamento dos dados númericos
Como podemos ver nos dados há uma grande diferença de números altos e números baixos, por isso devemos fazer o escalonamento dos dados para deixa-los na mesma escala.

In [38]:
from sklearn.preprocessing import StandardScaler

In [39]:
scaler = StandardScaler()

In [40]:
X = scaler.fit_transform(X)

In [41]:
X

array([[-0.2444502 , -0.17429511, -0.26209736, ...,  0.1484529 ,
        -0.21665953, -0.03542945],
       [-0.2444502 , -0.17429511, -0.26209736, ..., -0.14592048,
        -0.21665953, -2.22215312],
       [-0.2444502 , -0.17429511, -0.26209736, ..., -0.14592048,
        -0.21665953, -0.03542945],
       ...,
       [-0.2444502 , -0.17429511, -0.26209736, ..., -0.14592048,
        -0.21665953, -0.03542945],
       [-0.2444502 , -0.17429511, -0.26209736, ..., -0.14592048,
        -0.21665953, -1.65522476],
       [-0.2444502 , -0.17429511, -0.26209736, ...,  1.88842434,
        -0.21665953, -0.03542945]])

### Treinando os modelos de classificação
Finalizado o pré-processamento, já temos o conjunto de dados no formato necessário para o treinamento do nosso modelo

### Importações dos algoritmos de ML

In [42]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
# Redes neurais com keras
import keras
from keras.models import Sequential
from keras.layers import Dense

#### Separando o dataset em um conjunto de treino e um conjunto de teste
Iremos separar o dataset fornecido em dois grupos: um para treinar nosso modelo, e outro para testarmos o resultado através de um teste cego.

In [43]:
# Separação dos dados em um conjunto de treino e um conjunto de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

### Naive Bayes 
O algoritmo Naive Bayes é um algoritmo simples de classificação, que utiliza dados históricos para prever a classificação de um novo dado. Ele funciona calculando a probabilidade de um evento ocorrer dado que outro evento já ocorreu

In [44]:
nb = GaussianNB()

In [45]:
# Parte do treinamento
nb.fit(X_train, y_train)
# Parte do teste, predict serve para testar
y_pred_nb = nb.predict(X_test)

In [46]:
# Acurácia alcançada pelo algortimo Naive Bayes
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_nb), 2)))

Acurácia: 48.0%


In [47]:
print(classification_report(y_test, y_pred_nb))

              precision    recall  f1-score   support

           0       0.97      0.32      0.48      6159
           1       0.32      0.97      0.48      1982

   micro avg       0.48      0.48      0.48      8141
   macro avg       0.64      0.65      0.48      8141
weighted avg       0.81      0.48      0.48      8141



In [48]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_nb)

array([[1978, 4181],
       [  55, 1927]], dtype=int64)

#### Resultados Finais do algoritmo Naive Bayes
Tive que fazer vários testes cada um com a transformação diferente, e cheguei a estes resultados:

    47,67% Naive Bayes (labelencoder + onehotencoder + escalonamento)
    79,52% Naive Bayes (labelencoder)
    79,50% Naive Bayes (labelencoder + onehotencoder)
    80,57% Naive Bayes (labelencoder + escalonamento)

### Decision Tree
O algoritmo Decision Tree são modelos estatísticos que utilizam um treinamento supervisionado para a classificação e previsão de dados, Estes modelos utilizam a estratégia de dividir para conquistar: um problema complexo é decomposto em sub-problemas mais simples e recursivamente esta técnica é aplicada a cada sub-problema

In [49]:
dt = DecisionTreeClassifier(criterion='entropy', random_state = 0)

In [50]:
dt.fit(X_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=0,
            splitter='best')

In [51]:
y_pred_dt = dt.predict(X_test)

In [52]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_dt), 2)))

Acurácia: 82.0%


In [53]:
print(classification_report(y_test, y_pred_dt))

              precision    recall  f1-score   support

           0       0.88      0.88      0.88      6159
           1       0.62      0.63      0.62      1982

   micro avg       0.82      0.82      0.82      8141
   macro avg       0.75      0.75      0.75      8141
weighted avg       0.82      0.82      0.82      8141



In [54]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_dt)

array([[5407,  752],
       [ 742, 1240]], dtype=int64)

#### Resultados Finais do algoritmo Decision Tree
Fiz vários testes porém com o algoritmo Decision Tree não houve tanta diferença nos resultados, como podemos observar abaixo:

    81,02% Árvore de decisão (labelencoder + onehotencoder + escalonamento)
    81,28% Árvore de decisão (labelencoder)
    81,02% Árvore de decisão (labelencoder + onehotencoder)
    81,28% Árvore de decisão (labelencoder + escalonamento) 

### Random Forest
O algoritmo Random Forest cria uma floresta de um modo aleatório, criando várias árvores de decisão e as combinando,cada árvore tenta estimar uma classificação e isso é chamado como “voto”, assim, para obter uma predição com maior acurácia e mais estável.

In [55]:
rf = RandomForestClassifier(n_estimators=40, criterion= 'entropy', random_state= 0)

In [56]:
rf.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='entropy',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=40, n_jobs=None,
            oob_score=False, random_state=0, verbose=0, warm_start=False)

In [57]:
y_pred_rf = rf.predict(X_test)

In [58]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_rf), 2)))

Acurácia: 85.0%


In [59]:
print(classification_report(y_test, y_pred_rf))

              precision    recall  f1-score   support

           0       0.88      0.93      0.90      6159
           1       0.73      0.61      0.66      1982

   micro avg       0.85      0.85      0.85      8141
   macro avg       0.80      0.77      0.78      8141
weighted avg       0.84      0.85      0.84      8141



In [60]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_rf)

array([[5714,  445],
       [ 782, 1200]], dtype=int64)

#### Resultados Finais do algoritmo Random Forest
No algoritmo Random Forest como já era esperado, não houve tanta diferença, e cheguei a estes resultados:
    
    84.76% Random Forest (labelencoder + onehotencoder + escalonamento)
    84.81% Random Forest (labelencoder)
    84.89% Random Forest (labelencoder + onehotencoder)
    84.79% Random Forest (labelencoder + escalonamento)

### kNN (Vizinhos mais próximos)
O algoritmo KNN ou k-vizinhos mais próximos é um algoritmo bem simples de machine learning. Ele usa algum tipo de medida de similaridade para dizer em qual classe o novo dado se classifica, neste caso utilizaremos 5 vizinhos mais próximos.

In [61]:
knn = KNeighborsClassifier(n_neighbors=5, metric = 'minkowski', p = 2)

In [62]:
knn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=5, p=2,
           weights='uniform')

In [63]:
y_pred_knn = knn.predict(X_test)

In [64]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_knn), 2)))

Acurácia: 82.0%


In [65]:
print(classification_report(y_test, y_pred_knn))

              precision    recall  f1-score   support

           0       0.87      0.90      0.88      6159
           1       0.65      0.57      0.61      1982

   micro avg       0.82      0.82      0.82      8141
   macro avg       0.76      0.74      0.75      8141
weighted avg       0.81      0.82      0.82      8141



In [66]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_dt)

array([[5407,  752],
       [ 742, 1240]], dtype=int64)

#### Resultados Finais do algoritmo kNN
Aqui podemos observar que houve diferença dos resultados, com os testes feitos cheguei a estes resultados:
    
    82.23% kNN  (labelencoder + onehotencoder + escalonamento)
    77.46% kNN (labelencoder)
    77.60% kNN  (labelencoder + onehotencoder)
    82.19% kNN (labelencoder + escalonamento)

### Regressão Logistica
O algoritmo de regressão logística é usada onde uma saída discreta é esperada, (ex. Prever se um usuário é um bom ou mal pagador).Normalmente, a regressão logística usa alguma função para espremer valores para um determinado intervalo.

In [67]:
rl = LogisticRegression(random_state=0)

In [68]:
rl.fit(X_test, y_test)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=0, solver='warn',
          tol=0.0001, verbose=0, warm_start=False)

In [69]:
y_pred_rl = rl.predict(X_test)

In [70]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_rl), 2)))

Acurácia: 85.0%


In [71]:
print(classification_report(y_test, y_pred_rl))

              precision    recall  f1-score   support

           0       0.88      0.93      0.91      6159
           1       0.74      0.61      0.67      1982

   micro avg       0.85      0.85      0.85      8141
   macro avg       0.81      0.77      0.79      8141
weighted avg       0.85      0.85      0.85      8141



In [72]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_rl)

array([[5741,  418],
       [ 767, 1215]], dtype=int64)

#### Resultados Finais do algoritmo Regressão Logística
Na regressão Logística houve diferença apenas utilizando todos os pré-processamentos, assim cheguei a estes resultados:

    84.95% Regressão Log  (labelencoder + onehotencoder + escalonamento)
    79.09% Regressão Log (labelencoder)
    79.54% Regressão Log (labelencoder + onehotencoder)
    81.84% Regressão Log (labelencoder + escalonamento)

### SVM (Máquinas de vetores de suporte)
O algoritmo de SVM separa os pontos de dados usando uma linha. Esta linha é escolhida de tal forma que será mais importante dos pontos de dados mais próximos em 2 categorias.

In [73]:
svm = SVC(kernel = 'linear', random_state=0)

In [74]:
svm.fit(X_train, y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='linear', max_iter=-1, probability=False, random_state=0,
  shrinking=True, tol=0.001, verbose=False)

In [75]:
y_pred_svm = svm.predict(X_test)

In [76]:
# Acurácia alcançada pelo algortimo SVM
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_svm), 2)))

Acurácia: 85.0%


In [77]:
print(classification_report(y_test, y_pred_svm))

              precision    recall  f1-score   support

           0       0.88      0.94      0.90      6159
           1       0.75      0.58      0.66      1982

   micro avg       0.85      0.85      0.85      8141
   macro avg       0.81      0.76      0.78      8141
weighted avg       0.84      0.85      0.84      8141



In [78]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_svm)

array([[5767,  392],
       [ 823, 1159]], dtype=int64)

#### Resultados Finais do algoritmo SVM
Tive que fazer vários testes cada um com a transformação diferente, e cheguei a estes resultados:

     0.8507% SVM(labelencoder + onehotencoder + escalonamento)
     ? SVM (labelencoder) - Muito lento
     ? SVM (labelencoder + onehotencoder) - Muito lento
     0.8507% SVM (labelencoder + escalonamento)

### Redes Neurais
O objetivo do algoritmo de Redes neurais é imitar o sistema nervoso de humanos no processo de aprendizagem, ela é inspirada nas redes neurais biológicas

Redes Neurais com a biblioteca ``sklearn``

In [79]:
rn_sk = MLPClassifier(verbose = True, max_iter= 1000, tol = 0.000010)

In [80]:
rn_sk.fit(X_train, y_train)

Iteration 1, loss = 0.37773631
Iteration 2, loss = 0.32775564
Iteration 3, loss = 0.31885236
Iteration 4, loss = 0.31164835
Iteration 5, loss = 0.30672537
Iteration 6, loss = 0.30252327
Iteration 7, loss = 0.29880388
Iteration 8, loss = 0.29695049
Iteration 9, loss = 0.29397236
Iteration 10, loss = 0.29175833
Iteration 11, loss = 0.28963984
Iteration 12, loss = 0.28803503
Iteration 13, loss = 0.28665784
Iteration 14, loss = 0.28498709
Iteration 15, loss = 0.28250970
Iteration 16, loss = 0.28204775
Iteration 17, loss = 0.28012706
Iteration 18, loss = 0.27855067
Iteration 19, loss = 0.27792460
Iteration 20, loss = 0.27614555
Iteration 21, loss = 0.27541728
Iteration 22, loss = 0.27386782
Iteration 23, loss = 0.27349508
Iteration 24, loss = 0.27172983
Iteration 25, loss = 0.27084700
Iteration 26, loss = 0.27072783
Iteration 27, loss = 0.26905047
Iteration 28, loss = 0.26843675
Iteration 29, loss = 0.26734871
Iteration 30, loss = 0.26687094
Iteration 31, loss = 0.26584830
Iteration 32, los

Iteration 253, loss = 0.19418277
Iteration 254, loss = 0.19253436
Iteration 255, loss = 0.19354540
Iteration 256, loss = 0.19368541
Iteration 257, loss = 0.19301223
Iteration 258, loss = 0.19206748
Iteration 259, loss = 0.19296638
Iteration 260, loss = 0.19099608
Iteration 261, loss = 0.19254234
Iteration 262, loss = 0.19211566
Iteration 263, loss = 0.19122621
Iteration 264, loss = 0.19221314
Iteration 265, loss = 0.19150479
Iteration 266, loss = 0.19163912
Iteration 267, loss = 0.19232325
Iteration 268, loss = 0.19200426
Iteration 269, loss = 0.19073671
Iteration 270, loss = 0.19098809
Iteration 271, loss = 0.19226113
Iteration 272, loss = 0.19097243
Iteration 273, loss = 0.19112130
Iteration 274, loss = 0.19183469
Iteration 275, loss = 0.18997281
Iteration 276, loss = 0.19198454
Iteration 277, loss = 0.18992767
Iteration 278, loss = 0.19150587
Iteration 279, loss = 0.18904338
Iteration 280, loss = 0.18991324
Iteration 281, loss = 0.19049473
Iteration 282, loss = 0.18834128
Iteration 

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(100,), learning_rate='constant',
       learning_rate_init=0.001, max_iter=1000, momentum=0.9,
       n_iter_no_change=10, nesterovs_momentum=True, power_t=0.5,
       random_state=None, shuffle=True, solver='adam', tol=1e-05,
       validation_fraction=0.1, verbose=True, warm_start=False)

In [81]:
y_pred_rn_sk = rn_sk.predict(X_test)

In [82]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_rn_sk), 2)))

Acurácia: 82.0%


In [83]:
print(classification_report(y_test, y_pred_rn_sk))

              precision    recall  f1-score   support

           0       0.88      0.89      0.88      6159
           1       0.64      0.61      0.63      1982

   micro avg       0.82      0.82      0.82      8141
   macro avg       0.76      0.75      0.76      8141
weighted avg       0.82      0.82      0.82      8141



In [84]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_rn_sk)

array([[5482,  677],
       [ 766, 1216]], dtype=int64)

#### Resultados Finais do algoritmo Redes Neurais com sklearn
Desta maneira podemos observar que não fazer o escalonamento e o onehotencoder nas Redes Neurais pode ter uma diferença grande, com os testes cheguei a estes resultados:

    83.5% Neural Networks(labelencoder + onehotencoder + escalonamento)
    24.4% Neural Networks (labelencoder) - Muito lento
    78.8% Neural Networks (labelencoder + onehotencoder) - Muito lento
    84.8% Neural Networks (labelencoder + escalonamento)

Redes Neurais com a biblioteca ``Keras``

In [85]:
rn_kr = Sequential()

In [86]:
# Camada inicial
rn_kr.add(Dense(units = 55, activation = 'relu', input_dim = 108))
# Camada oculta
rn_kr.add(Dense(units = 55, activation = 'relu'))
# Camada de saida
rn_kr.add(Dense(units = 1, activation = 'sigmoid'))
# Compilação
rn_kr.compile(optimizer='adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

In [87]:
rn_kr.fit(X_train, y_train, batch_size=10, epochs = 100)

Epoch 1/100
Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'
Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epo

Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78/100
Epoch 79/100
Epoch 80/100
Epoch 81/100
Epoch 82/100
Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0xf60ee7fc8>

In [88]:
y_pred_rn_kr = rn_kr.predict(X_test)
y_pred_rn_kr = (y_pred_rn_kr > 0.5)

Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'
Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'


In [89]:
# Acurácia alcançada pelo algortimo Decision Tree
print("Acurácia: {}%".format(100*round(accuracy_score(y_test, y_pred_rn_kr), 2)))

Acurácia: 82.0%


In [90]:
print(classification_report(y_test, y_pred_rn_kr))

              precision    recall  f1-score   support

           0       0.88      0.89      0.88      6159
           1       0.64      0.63      0.63      1982

   micro avg       0.82      0.82      0.82      8141
   macro avg       0.76      0.76      0.76      8141
weighted avg       0.82      0.82      0.82      8141



In [91]:
# matriz de confusão de acertos
confusion_matrix(y_test, y_pred_rn_kr)

array([[5458,  701],
       [ 740, 1242]], dtype=int64)

#### Resultados Finais do algoritmo Redes Neurais com Keras
Tive que fazer vários testes cada um com a transformação diferente, e cheguei a estes resultados:

    81.7% Neural Networks(labelencoder + onehotencoder + escalonamento)
    75.5%Neural Networks (labelencoder) - Muito lento
    24.4% Neural Networks (labelencoder + onehotencoder) - Muito lento
    85.1% Neural Networks (labelencoder + escalonamento)