In [1]:
#Bibliotecas
import pandas as pd
import numpy as np
import pickle
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score
from keras.models import Sequential
from keras.layers import Dense
from keras.utils import np_utils

In [2]:
#Carregamento da base de dados
base = pd.read_csv('idh_classificado.csv')
base.head()

Unnamed: 0.1,Unnamed: 0,PAÍS,PIB,ILE,IPC,ClassIDH
0,47,Emirados Árabes Unidos,0.005014,7.28,71,Alto
1,121,Polônia,0.007092,7.2,58,Alto
2,122,Portugal,0.002916,7.79,62,Alto
3,57,França,0.030892,7.55,69,Alto
4,56,Finlândia,0.000332,7.92,86,Alto


In [3]:
#Analisando o formato
base.shape

(155, 6)

In [4]:
#Dropando a coluna Unnamed
base.drop(['Unnamed: 0'], axis = 1, inplace = True)

In [5]:
#Definindo variáveis independentes e variáveis dependentes
previsores = base.iloc[:,2:4].values
classe = base.iloc[:,4].values
classe

array(['Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto',
       'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto',
       'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto',
       'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto',
       'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto',
       'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto',
       'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto',
       'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Alto', 'Médio', 'Médio',
       'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio',
       'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio',
       'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio',
       'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio',
       'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio',
       'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio', 'Médio',
       'Mé

In [6]:
#Codificando a coluna categórica (classe)
labelencoding = LabelEncoder()
base["ClassIDH"] = labelencoding.fit_transform(base["ClassIDH"])

In [7]:
#Criação da classe dummy
classe_dummy = np_utils.to_categorical(base["ClassIDH"])
classe_dummy

array([[1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0

In [8]:
#Normalizando os dado na lista previsores
normalizar = MinMaxScaler(feature_range = (0,1))
normalizados = normalizar.fit_transform(previsores)

In [9]:
#Previsores originais
previsores

array([[ 7.28, 71.  ],
       [ 7.2 , 58.  ],
       [ 7.79, 62.  ],
       [ 7.55, 69.  ],
       [ 7.92, 86.  ],
       [ 8.11, 74.  ],
       [ 8.24, 69.  ],
       [ 7.89, 62.  ],
       [ 7.43, 60.  ],
       [ 7.61, 50.  ],
       [ 8.15, 77.  ],
       [ 8.03, 54.  ],
       [ 7.87, 56.  ],
       [ 7.88, 44.  ],
       [ 8.17, 87.  ],
       [ 7.36, 47.  ],
       [ 8.26, 56.  ],
       [ 7.15, 48.  ],
       [ 7.79, 36.  ],
       [ 6.69, 52.  ],
       [ 7.84, 80.  ],
       [ 8.21, 60.  ],
       [ 7.94, 56.  ],
       [ 6.72, 40.  ],
       [ 7.64, 45.  ],
       [ 7.98, 73.  ],
       [ 7.61, 53.  ],
       [ 7.68, 56.  ],
       [ 7.63, 60.  ],
       [ 8.21, 74.  ],
       [ 8.16, 52.  ],
       [ 7.72, 84.  ],
       [ 7.53, 44.  ],
       [ 8.91, 76.  ],
       [ 7.96, 82.  ],
       [ 8.56, 87.  ],
       [ 7.9 , 78.  ],
       [ 7.61, 59.  ],
       [ 7.52, 53.  ],
       [ 8.2 , 77.  ],
       [ 6.85, 53.  ],
       [ 7.3 , 60.  ],
       [ 7.76, 43.  ],
       [ 7.

In [10]:
#np.save('previsores.npy', previsores)

In [11]:
#Previsores normalizados
normalizados

array([[0.65466102, 0.78378378],
       [0.63771186, 0.60810811],
       [0.76271186, 0.66216216],
       [0.71186441, 0.75675676],
       [0.79025424, 0.98648649],
       [0.83050847, 0.82432432],
       [0.85805085, 0.75675676],
       [0.78389831, 0.66216216],
       [0.68644068, 0.63513514],
       [0.72457627, 0.5       ],
       [0.83898305, 0.86486486],
       [0.81355932, 0.55405405],
       [0.77966102, 0.58108108],
       [0.78177966, 0.41891892],
       [0.84322034, 1.        ],
       [0.67161017, 0.45945946],
       [0.86228814, 0.58108108],
       [0.62711864, 0.47297297],
       [0.76271186, 0.31081081],
       [0.52966102, 0.52702703],
       [0.77330508, 0.90540541],
       [0.85169492, 0.63513514],
       [0.79449153, 0.58108108],
       [0.53601695, 0.36486486],
       [0.7309322 , 0.43243243],
       [0.8029661 , 0.81081081],
       [0.72457627, 0.54054054],
       [0.73940678, 0.58108108],
       [0.72881356, 0.63513514],
       [0.85169492, 0.82432432],
       [0.

In [12]:
#np.save('normalizados.npy', normalizados)

In [13]:
#Dividindo dados entre treino e teste definindo 30% para teste
X_treino, X_teste, y_treino, y_teste = train_test_split(normalizados,
                                                       classe_dummy,
                                                       test_size = 0.2,
                                                       random_state = 1)

In [14]:
#Criação da estrutura da rede neural com a classe Sequential (sequência de camadas)
modelo = Sequential()
#Primeira camada oculta e camada de entrada
modelo.add(Dense(units = 3, input_dim = 2))
#Segunda camada oculta
modelo.add(Dense(units = 3))
#Função de ativação Softmax para classificação de mais de duas classes (é gerada uma probablidade em cada neurônio)
modelo.add(Dense(units = 3, activation = 'softmax'))

In [15]:
#Sumário da estrutura
modelo.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 3)                 9         
                                                                 
 dense_1 (Dense)             (None, 3)                 12        
                                                                 
 dense_2 (Dense)             (None, 3)                 12        
                                                                 
Total params: 33
Trainable params: 33
Non-trainable params: 0
_________________________________________________________________


In [16]:
#Configuração de parâmetros da rede neural (adam = algoritmo de ajuste de pesos, loss = cálculo do erro)
modelo.compile(optimizer = 'adam', loss = 'categorical_crossentropy', metrics = ['accuracy'])
#Treinamento, dividindo a base de treino com uma porção para validação (validation_data)
modelo.fit(X_treino, y_treino, epochs = 500, 
           validation_data = (X_teste, y_teste))

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

<keras.callbacks.History at 0x20677887040>

In [17]:
#Testando o modelo com os dados de teste
previsoes = modelo.predict(X_teste)
previsoes = (previsoes > 0.5)
previsoes



array([[False, False,  True],
       [False, False,  True],
       [ True, False, False],
       [ True, False, False],
       [ True, False, False],
       [ True, False, False],
       [ True, False, False],
       [False, False,  True],
       [ True, False, False],
       [False, False,  True],
       [False, False,  True],
       [False,  True, False],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [ True, False, False],
       [False, False,  True],
       [ True, False, False],
       [False, False, False],
       [ True, False, False],
       [ True, False, False],
       [False,  True, False],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True],
       [ True, False, False],
       [False, False,  True],
       [False, False,  True],
       [False, False,  True]])

In [18]:
'''
Precisamos criar uma Matriz de Confusão para comparar a taxa 
de acerto das previsoes, para isso é necessário passar os dados 
reais de teste(y_teste) para uma variável(y_teste_matriz) e os 
dados das previsões para a variável(y_previsão_matriz)
'''
y_teste_matriz = [np.argmax(t) for t in y_teste]
y_previsao_matriz = [np.argmax(t) for t in previsoes]

In [19]:
#Criando a Matriz de Confusão para verificar a taxa de acerto
confusao = confusion_matrix(y_teste_matriz, y_previsao_matriz)
confusao

array([[12,  0,  1],
       [ 0,  1,  3],
       [ 0,  1, 13]], dtype=int64)

In [20]:
#Verificando a taxa de acerto das previsoes
taxa_acerto = accuracy_score(y_teste_matriz, y_previsao_matriz)
taxa_acerto

0.8387096774193549

In [21]:
#Salvando o modelo com pickle
#pickle.dump(modelo, open('modelo.pkl', 'wb'))

In [22]:
#Salvando o modelo em formato .h5
#path = 'modelo.h5'
#modelo.save(path)

In [26]:
#Função de previsão
def prever(x):
    previsao = modelo.predict(x)
    if previsao[:,0] > 0.50:
        print('O IDH tende a ser ALTO!')
    elif previsao[:,1] > 0.50:
        print('O IDH tende a ser BAIXO!')
    else:
        print('O IDH tende a ser MÉDIO!')

In [46]:
'''
Não podemos prever novos dados utilizando os dados reais de ILE e IPC
porque nosso modelo foi construído com base em dados normalizados, sendo 
assim, precisamos passar para o modelo o dado normalizado correspondente 
ao dado real inserido pelo usuário e, caso um dado inserido não exista, 
então teremos que atualizar a lista previsores e em seguida normalizar 
essa lista atualizada.
'''
#Novos dados
ile = 6.63
ipc = 35
#Array dos novos dados
novo = [[ile, ipc]]
#Laço para percorrer a lista previsores
for i in range(len(previsores)):
    cont = i + 1
    #Lógica para verificar se os novos dados já existem na lista previsores
    if np.all(novo[0] == previsores[i]):
        #Se existirem, a variável x recupera os dados normalizados na lista normalizados
        x = np.array([normalizados[i]])
        #Realizando a nova previsão
        prever(x)
        break
    #Se o contador finalizar a lista, significa que os dados novos ainda não existem
    #Se isso ocorrer precisamos atualizar a lista previsores e a lista normalizados
    else:
        cont == len(previsores)
        #Atualizando a lista previsores, inserindo os novos dados
        previsores = np.append(previsores, novo, axis = 0)
        #Atualizando a lista normalizados com a lista previsores atualizada
        normalizados = normalizar.fit_transform(previsores)
        #Recuperando na variável x o último registro que foi inserido na lista normalizados
        x = np.array([normalizados[-1]])
        #Realizando a nova previsão
        prever(x)
        break

O IDH tende a ser MÉDIO!
