# Estudo Biblioteca Keras
- O objetivo deste notebook é o estudo da Biblioteca Keras.
- Keras é uma biblioteca para rede neural de alto-nível escrita em Python. Ela roda como frontend em TensorFlow ou Theano. 
- Uma das grandes vantagens de utilizar essa biblioteca é que podemos substituir uma rede neural por outra de maneira muito fácil, pois ela foi criada com intuito de tornar essas experimentações mais fáceis, rápidas e eficientes. Com o Keras você pode abstrair tudo que acontece em background e focar no seu problema.
- Mais detalhes na página do projeto disponível neste <a href="https://keras.io/">link</a>.

<h3> Onde usar o Keras? </h3>

- Prototipagem rápida e fácil (total modularidade, minimalismo e extensibilidade).
- Suporte a redes convolucionais e recorrentes, incluindo combinação de ambas.
- Suporte a esquemas de conectividade arbitrária (incluindo treino de N para N).
- Rodar na CPU ou GPU.

<h3> DataSet </h3>
- Para este estudo vamos utilizar o data set 'census.csv'.</br>
- Este dataset contém 15 atributos e 32.561 instâncias (linhas). </br>


In [1]:
# Importando as bibliotecas iniciais
import pandas as pd
import numpy as np


In [2]:
# Importa o dataset
base = pd.read_csv('./census.csv')

In [3]:
# Verificando o shape do dataset
base.shape

(32561, 15)

In [4]:
# Visualiza as primeira linhas
base.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [5]:
# Verificando os atributos núméricos.
base.describe()

Unnamed: 0,age,final-weight,education-num,capital-gain,capital-loos,hour-per-week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0


# Pré-processamento - Tratamento dos dados

In [6]:
# Seleciona os atributos previsores
previsores = base.iloc[:, 0:14].values
previsores

array([[39, ' State-gov', 77516, ..., 0, 40, ' United-States'],
       [50, ' Self-emp-not-inc', 83311, ..., 0, 13, ' United-States'],
       [38, ' Private', 215646, ..., 0, 40, ' United-States'],
       ...,
       [58, ' Private', 151910, ..., 0, 40, ' United-States'],
       [22, ' Private', 201490, ..., 0, 20, ' United-States'],
       [52, ' Self-emp-inc', 287927, ..., 0, 40, ' United-States']],
      dtype=object)

In [7]:
# Seleciona a classe alvo (target)
classe = base.iloc[:,14]
classe.head()

0     <=50K
1     <=50K
2     <=50K
3     <=50K
4     <=50K
Name: income, dtype: object

In [8]:
# Realiza a codificação dos atributos categóricos. Transforma as categorias em códigos.
from sklearn.preprocessing import LabelEncoder

label_encoder_previsores = LabelEncoder()
previsores[:,1] = label_encoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = label_encoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = label_encoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = label_encoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = label_encoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = label_encoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = label_encoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = label_encoder_previsores.fit_transform(previsores[:,13])
previsores

array([[39, 7, 77516, ..., 0, 40, 39],
       [50, 6, 83311, ..., 0, 13, 39],
       [38, 4, 215646, ..., 0, 40, 39],
       ...,
       [58, 4, 151910, ..., 0, 40, 39],
       [22, 4, 201490, ..., 0, 20, 39],
       [52, 5, 287927, ..., 0, 40, 39]], dtype=object)

In [9]:
# Realiza a codificação da classe (target). Transforma as categorias em códigos.
labelencoder_classe = LabelEncoder()
classe = labelencoder_classe.fit_transform(classe)

In [10]:
# StandardScaler para colocar todos os valores na mesma escala (escalonamento).
# Teste do escalonamente somente dos atributos inteiros, também tivemos o mesmo resultado da padronização total. Tivemos praticamente o mesma Acurácia com o escalonamento total. 

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

previsores[:,0] =  scaler.fit_transform(previsores[:,0].reshape(-1,1)).ravel()
previsores[:,2] =  scaler.fit_transform(previsores[:,2].reshape(-1,1)).ravel()
previsores[:,4] =  scaler.fit_transform(previsores[:,4].reshape(-1,1)).ravel()
previsores[:,10] =  scaler.fit_transform(previsores[:,10].reshape(-1,1)).ravel()
previsores[:,11] =  scaler.fit_transform(previsores[:,11].reshape(-1,1)).ravel()
previsores[:,12] =  scaler.fit_transform(previsores[:,12].reshape(-1,1)).ravel()

In [11]:
# Separa os dados pata treinamento e teste
from sklearn.model_selection import train_test_split
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe , test_size = 0.25, random_state = 0)


# Criando o Modelo de Previsão

In [12]:
# Cria o modelo de previsão 
import keras
from keras.models import Sequential
from keras.layers import Dense
import warnings
warnings.filterwarnings('ignore')

# Cria camada de entrada da rede
classificador = Sequential()

# Cria a 1 camada oculta da rede
classificador.add(Dense(units = 8, activation = 'relu', input_dim = 14))

# Cria a 2 camada oculta da rede
classificador.add(Dense(units = 8, activation = 'relu'))

# Cria a camada de saida da rede
classificador.add(Dense(units = 1, activation = 'sigmoid'))

# Aplica as configurações no modelo para o treinamento.
classificador.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy']);



Using TensorFlow backend.
W0807 17:22:46.191937 140649831995200 deprecation_wrapper.py:119] From /home/charles/anaconda3/lib/python3.7/site-packages/keras/backend/tensorflow_backend.py:74: The name tf.get_default_graph is deprecated. Please use tf.compat.v1.get_default_graph instead.

W0807 17:22:46.202063 140649831995200 deprecation_wrapper.py:119] From /home/charles/anaconda3/lib/python3.7/site-packages/keras/backend/tensorflow_backend.py:517: The name tf.placeholder is deprecated. Please use tf.compat.v1.placeholder instead.

W0807 17:22:46.203797 140649831995200 deprecation_wrapper.py:119] From /home/charles/anaconda3/lib/python3.7/site-packages/keras/backend/tensorflow_backend.py:4138: The name tf.random_uniform is deprecated. Please use tf.random.uniform instead.

W0807 17:22:46.228935 140649831995200 deprecation_wrapper.py:119] From /home/charles/anaconda3/lib/python3.7/site-packages/keras/optimizers.py:790: The name tf.train.Optimizer is deprecated. Please use tf.compat.v1.trai

In [13]:
# Realiza o treinamento da rede.
classificador.fit(previsores_treinamento, classe_treinamento, batch_size = 10, epochs = 200)

W0807 17:22:46.360275 140649831995200 deprecation_wrapper.py:119] From /home/charles/anaconda3/lib/python3.7/site-packages/keras/backend/tensorflow_backend.py:986: The name tf.assign_add is deprecated. Please use tf.compat.v1.assign_add instead.



Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

<keras.callbacks.History at 0x7feb655ebc50>

In [14]:
# Realizando o testes do modelo
classe_prevista_teste = classificador.predict(previsores_teste)
classe_prevista_teste

array([[0.01231509],
       [0.01502642],
       [0.1445502 ],
       ...,
       [0.13671987],
       [0.541988  ],
       [0.03438146]], dtype=float32)

In [15]:
# Converte os resultados para conferencia
classe_prevista_teste = (classe_prevista_teste > 0.5)
classe_prevista_teste

array([[False],
       [False],
       [False],
       ...,
       [False],
       [ True],
       [False]])

# Verificando a performance do Modelo

In [16]:
# Analisando a performance do Modelo
from sklearn.metrics import confusion_matrix, accuracy_score,classification_report
precisao_modelo = accuracy_score(classe_teste, classe_prevista_teste)
print('Acurácia do Modelo: %.2f%% ' % (precisao_modelo*100))


Acurácia do Modelo: 84.50% 


In [17]:
# Relatório de Classificação
from sklearn.metrics import classification_report

#precision -  daqueles que classifiquei como corretos, quantos efetivamente estavam corretos? 
#recall    -  quando realmente é da classe XPTO, o quão frequente você classifica como XPTO?
#f1-score  -  balanço entre a precisão e o recall. Combina precisão e recall em um número único que indique a qualidade geral do seu modelo (quanto maior melhor o modelo).
#support   -  número de ocorrência de cada classe.

relatorio_classificacao = classification_report(classe_teste, classe_prevista_teste ,digits=4)

# Imprimindo o relatório
print('\tRelatório de Classificação do modelo')
print(relatorio_classificacao)

	Relatório de Classificação do modelo
              precision    recall  f1-score   support

           0     0.8558    0.9562    0.9032      6159
           1     0.7857    0.4995    0.6107      1982

    accuracy                         0.8450      8141
   macro avg     0.8208    0.7278    0.7570      8141
weighted avg     0.8388    0.8450    0.8320      8141



In [18]:
# Visualizando a Matriz de confusão (confusion matrix)
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(classe_teste, classe_prevista_teste) 

df_cm = pd.DataFrame(cm)

print('\n')
print('Obs.: Nas linhas temos as Classes reais e nas colunas as Classes previstas.\n')
print('Matriz de Confusão')
df_cm



Obs.: Nas linhas temos as Classes reais e nas colunas as Classes previstas.

Matriz de Confusão


Unnamed: 0,0,1
0,5889,270
1,992,990


In [29]:
# Comparando a Classe Prevista com a Classe Real

df = pd.DataFrame( )
df['Classe_Prevista'] = classe_prevista_teste.ravel()
df['Classe_Real'] = classe_teste
df['Comparacao'] = df['Classe_Prevista'] == df['Classe_Real']

df_comparacao = df.groupby(by='Comparacao').count()

print('De %d classes o modelo ACERTOU %d classes e ERROU %d classes.\n ' % (df_comparacao['Classe_Prevista'].sum(), df_comparacao.iloc[[1], [0]].values, df_comparacao.iloc[[0], [0]].values))

df_comparacao

De 8141 classes o modelo ACERTOU 6879 classes e ERROU 1262 classes.
 


Unnamed: 0_level_0,Classe_Prevista,Classe_Real
Comparacao,Unnamed: 1_level_1,Unnamed: 2_level_1
False,1262,1262
True,6879,6879
