In [1]:
#Bibliotecas
import pandas as pd
import numpy as np
import pickle
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score
from keras.models import Sequential
from keras.layers import Dense
from keras.utils import np_utils

In [2]:
#Carregamento da base de dados
base = pd.read_csv('idh_classificado.csv')
base.head()

Unnamed: 0,PAÍS,PIB,ILE,IPC,ClassIDH
0,África do Sul,0.004457,6.97,44,Médio
1,Albânia,0.000182,7.81,35,Médio
2,Alemanha,0.045774,7.91,80,Alto
3,Angola,0.001282,5.5,26,Médio
4,Arábia Saudita,0.008244,6.85,53,Alto


In [3]:
#Analisando o formato
base.shape

(156, 5)

In [4]:
#Definindo variáveis independentes e variáveis dependentes
previsores = base.iloc[:,2:4].values
classe = base.iloc[:,4].values
classe

array(['Médio', 'Médio', 'Alto', 'Médio', 'Alto', 'Médio', 'Alto',
       'Médio', 'Alto', 'Alto', 'Médio', 'Alto', 'Alto', 'Médio', 'Alto',
       'Alto', 'Médio', 'Alto', 'Médio', 'Médio', 'Médio', 'Médio',
       'Alto', 'Alto', 'Baixo', 'Baixo', 'Médio', 'Médio', 'Médio',
       'Médio', 'Alto', 'Alto', 'Alto', 'Baixo', 'Alto', 'Médio', 'Alto',
       'Médio', 'Médio', 'Baixo', 'Alto', 'Alto', 'Alto', 'Alto', 'Médio',
       'Médio', 'Médio', 'Alto', 'Médio', 'Alto', 'Alto', 'Alto', 'Alto',
       'Alto', 'Baixo', 'Médio', 'Alto', 'Alto', 'Médio', 'Baixo',
       'Médio', 'Alto', 'Alto', 'Médio', 'Médio', 'Baixo', 'Baixo',
       'Médio', 'Alto', 'Médio', 'Alto', 'Alto', 'Baixo', 'Alto', 'Médio',
       'Médio', 'Médio', 'Médio', 'Alto', 'Alto', 'Alto', 'Alto', 'Médio',
       'Alto', 'Médio', 'Alto', 'Médio', 'Médio', 'Alto', 'Médio',
       'Baixo', 'Médio', 'Alto', 'Alto', 'Médio', 'Médio', 'Alto',
       'Baixo', 'Baixo', 'Alto', 'Médio', 'Médio', 'Médio', 'Baixo',
       'Médi

In [5]:
#Codificando a coluna categórica (classe)
labelencoding = LabelEncoder()
base["ClassIDH"] = labelencoding.fit_transform(base["ClassIDH"])

In [6]:
#Criação da classe dummy
classe_dummy = np_utils.to_categorical(base["ClassIDH"])
classe_dummy

array([[0., 0., 1.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [1., 0

In [7]:
#Dividindo dados entre treino e teste definindo 30% para teste
X_treino, X_teste, y_treino, y_teste = train_test_split(previsores,
                                                       classe_dummy,
                                                       test_size = 0.4,
                                                       random_state = 0)

In [8]:
#Criação da estrutura da rede neural com a classe Sequential (sequência de camadas)
modelo = Sequential()
#Primeira camada oculta e camada de entrada
modelo.add(Dense(units = 3, input_dim = 2))
#Segunda camada oculta
modelo.add(Dense(units = 3))
#Função de ativação Softmax para classificação de mais de duas classes (é gerada uma probablidade em cada neurônio)
modelo.add(Dense(units = 3, activation = 'softmax'))

In [9]:
#Sumário da estrutura
modelo.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 3)                 9         
                                                                 
 dense_1 (Dense)             (None, 3)                 12        
                                                                 
 dense_2 (Dense)             (None, 3)                 12        
                                                                 
Total params: 33
Trainable params: 33
Non-trainable params: 0
_________________________________________________________________


In [10]:
#Configuração de parâmetros da rede neural (adam = algoritmo de ajuste de pesos, loss = cálculo do erro)
modelo.compile(optimizer = 'adam', loss = 'categorical_crossentropy', metrics = ['accuracy'])
#Treinamento, dividindo a base de treino com uma porção para validação (validation_data)
modelo.fit(X_treino, y_treino, epochs = 500, 
           validation_data = (X_teste, y_teste))

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

<keras.callbacks.History at 0x1c2b2d2f8e0>

In [11]:
previsoes = modelo.predict(X_teste)
previsoes = (previsoes > 0.5)
previsoes



array([[ True, False, False],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [ True, False, False],
       [False, False,  True],
       [ True, False, False],
       [ True, False, False],
       [False, False,  True],
       [ True, False, False],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [ True, False, False],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [ True, False, False],
       [ True, False, False],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [Fa

In [12]:
'''Precisamos criar uma Matriz de Confudão para comparar a taxa 
de acerto das previsoes, para isso é necessário passar os dados 
reais de teste(y_teste) para uma variável(y_teste_matriz) e os 
dados das previsões para a variável(y_previsão_matriz)'''
y_teste_matriz = [np.argmax(t) for t in y_teste]
y_previsao_matriz = [np.argmax(t) for t in previsoes]

In [13]:
#Criando a Matriz de Confusão para verificar a taxa de acerto
confusao = confusion_matrix(y_teste_matriz, y_previsao_matriz)
confusao

array([[17,  0,  3],
       [ 0,  0,  8],
       [ 5,  0, 30]], dtype=int64)

In [14]:
#Verificando a performance de acerto das previsoes dos dados de teste
taxa_acerto = accuracy_score(y_teste_matriz, y_previsao_matriz)
taxa_acerto

0.746031746031746

In [15]:
#Prevendo um novo registro
ile = 5.60
ipc = 40
novo = np.array([[ile, ipc]])
previsao = modelo.predict(novo)
if previsao[:, 0] >= 0.50:
     print('O IDH tende a ser ALTO!')
elif previsao[:, 1] >= 0.50:
     print('O IDH tende a ser BAIXO!')
else:
     print('O IDH tende a ser MÉDIO!')

O IDH tende a ser MÉDIO!


In [17]:
#pickle.dump(modelo, open('modelo.pkl', 'wb'))

In [None]:
# path = 'modelo.h5'
# modelo.save(path)