In [None]:
"""
SCRIPT DE EXECUÇÃO DO MODELO PREDITOR DO IDSUS 2010 A 
PARTIR DOS DADOS DO CENSO 2010
"""

In [None]:
## IMPORTAÇÕES 

import pandas as pd
import numpy as np

from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
""" CARREGAR A BASE
    Escolher enter o caminho para Windows ou Linux (deixar um dos dois comentado).
    Carrega TABELA_CENSO_IDSUS_2010.csv em base como um dataframe.
"""
mainFolderpath = %pwd

# opção WINDOWS ---------------------------------------------------------
caminho_idSUS_Censo2010 = mainFolderpath + "\\TABELA_CENSO_IDSUS_2010.csv"
# -----------------------------------------------------------------------

# # LINUX ----------------------------------------------------------------
# caminho_idSUS_Censo2010 = mainFolderpath + "/TABELA_CENSO_IDSUS_2010.csv"
# -----------------------------------------------------------------------

base = pd.read_csv(caminho_idSUS_Censo2010)

# TRATAMENTO DOS DADOS

In [None]:
"""
Observação --> Executar apenas as seguintes opções abaixo isoladamento:
Opção 1, 
Opção 2,
Opção 3,
Opção 3 com a opção 4,
Opção 5

Escolher qual(is) caixa(s) de texto abaixo operar e 
comentar as outras (ctrl + '/' do teclado numérico) 
""""

In [None]:
# """
# OPÇÃO 1: CASO SE DESEJE EXCLUIR TODAS AS COLUNAS QUE TENHAM ALGUM VALOR FALTANTE
# -- Reduz o dataset de 185 var. preditoras para 61 var.

# """
# # Exclui as colunas com valores NaN
# base = base.dropna(axis = 1)

# # INSTRUÇÕES IMPORTANTES:
# # Utilizar '1' no @@@ para predizer o 'idsus_fx' ou
# # '2' para predizer o 'Grupo Homogêneo'
# # -----------------------------------------------------
# classe = base.iloc[:, @@@].values
# # -----------------------------------------------------
# previsores = base.iloc[:, np.r_[3:base.shape[1]]].values

# # PREVISORES: Escalonamento das variáveis
# scaler = StandardScaler()
# previsores = scaler.fit_transform(previsores)

# # CLASSE: Transformação de ordinal para discreta
# labelencorder_classe = LabelEncoder()
# classe = labelencorder_classe.fit_transform(classe)

In [None]:
# """ 
# OPÇÃO 2: SELECIONAR AS VARIÁVEIS PREDITORES POR UM NÚMERO FIXO (K) A 
# PARTIR DO SelectKBest
# """

# # INSTRUÇÕES IMPORTANTES:
# # Utilizar '2' no @@@ para predizer o 'idsus_fx' ou
# # '3' para predizer o 'Grupo Homogêneo'
# # -----------------------------------------------------
# classe = base.iloc[:, @@@].values
# # -----------------------------------------------------
# previsores = base.iloc[:, np.r_[1,4:base.shape[1]]].values

# # PREVISORES: SimpleImputer
# totalColunas = len(previsores[0])
# imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
# imputer = imputer.fit(previsores[:, 0:totalColunas])
# previsores[:,0:totalColunas] = imputer.transform(previsores[:,0:totalColunas])

# # SelectKBest
# # INSTRUÇÕES IMPORTANTES:
# # mudar o valor de k (atual = 60) para o número de variáveis a serem utilizadas.
# # -----------------------------------------------------
# previsores = SelectKBest(chi2, k=60).fit_transform(previsores, classe)
# # -----------------------------------------------------

# # PREVISORES: Escalonamento das variáveis
# scaler = StandardScaler()
# previsores = scaler.fit_transform(previsores)

# # CLASSE: Transformação de ordinal para discreta
# labelencorder_classe = LabelEncoder()
# classe = labelencorder_classe.fit_transform(classe)

In [None]:
# """ 
# OPÇÃO 3: UTILIZA TODAS AS 185 VARIÁVEIS PREDITORAS DO DATASET
# """

# # INSTRUÇÕES IMPORTANTES:
# # Utilizar '2' no @@@ para predizer o 'idsus_fx' ou
# # '3' para predizer o 'Grupo Homogêneo'
# # -----------------------------------------------------
# classe = base.iloc[:, @@@].values
# # -----------------------------------------------------
# previsores = base.iloc[:, np.r_[1,4:base.shape[1]]].values

# # PREVISORES: Substituição de valores faltantes
# totalColunas = len(previsores[0])
# imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
# imputer = imputer.fit(previsores[:, 0:totalColunas])
# previsores[:,0:totalColunas] = imputer.transform(previsores[:,0:totalColunas])

# # PREVISORES: Escalonamento das variáveis
# scaler = StandardScaler()
# previsores = scaler.fit_transform(previsores)

# # CLASSE: Transformação de ordinal para discreta
# labelencorder_classe = LabelEncoder()
# classe = labelencorder_classe.fit_transform(classe)

In [None]:
# """ 
# OPÇÃO 4: EXECUTA FEATURE SELECTION A PARTIR DE UM PARÂMETRO DE IMPORTANCE PASSADO
# Modificar a var parâmetroImportância abaixo para o valor desejado.
# Valores maiores reduzirão as variáves e valores menores utilizarão mais variáveis do dataset.

# OBS: EXIGE QUE A OPÇÃO 3 RODE ANTES
# """

# # INSTRUÇÕES IMPORTANTES:
# #Modificar conforme desejado:
# # -----------------------------------------------------
# parâmetroImportância = 0.015
# # -----------------------------------------------------

# selection = ExtraTreesClassifier()
# selection.fit(previsores, classe)
# importances = selection.feature_importances_

# indexes = []
# for i in range(len(importances)):
#     if importances[i] > parâmetroImportância:
#         indexes.append(i)

# # Previsores passa a ter somente as features selecionadas no for anterior.
# previsores = previsores[:, indexes]

# # Plota um heatmap dos previsores (para ver correlação)
# df_corr = pd.DataFrame(previsores).corr()
# print('Total de variáveis utilizadas: '+len(indexes))
# sns.heatmap(df_corr, xticklabels=df_corr.columns, yticklabels=df_corr.columns)

In [None]:
# """ 
# OPÇÃO 5: SELECIONA AS 7 VARIÁVEIS PREDITORAS MAIS REPRESENTATIVAS
# Apenas executar, não é preciso configurar nada
# """
# lista_var = np.r_[89, 113, 144, 145, 148, 149, 150]

# classe = base.iloc[:, 3].values
# previsores_df = base.iloc[:, np.r_[1,4:base.shape[1]]]
# previsores = previsores_df.iloc[:, lista_var ].values

# # PREVISORES: Substituição de valores faltantes
# totalColunas = len(previsores[0])
# imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
# imputer = imputer.fit(previsores[:, 0:totalColunas])
# previsores[:,0:totalColunas] = imputer.transform(previsores[:,0:totalColunas])

# # PREVISORES: Escalonamento das variáveis
# scaler = StandardScaler()
# previsores = scaler.fit_transform(previsores)

# # CLASSE: Transformação de ordinal para discreta
# labelencorder_classe = LabelEncoder()
# classe = labelencorder_classe.fit_transform(classe)

# MACHINE LEARNING

In [None]:
"""
ESCOLHER UM DOS DOIS ALGORITMOS ABAIXO:
 - RANDOM FOREST ou 
 - EXTRA TREES 
 OBS: (deixar comentado o algoritmo que não for ser usado)
"""
# _____________________________________________________________________________
# RANDOM FOREST
# modificar o valor de n_estimators para o número de árvores que se deseja criar.
#classificador = RandomForestClassifier(n_estimators=60, criterion='entropy', random_state=0)
# _____________________________________________________________________________

# _____________________________________________________________________________

# ----ExtraTrees
classificador = ExtraTreesClassifier()
# _____________________________________________________________________________


"""
ESCOLHER UM DOS MODOS DE SIMULAÇÃO ABAIXO:
 - VALIDAÇÃO CRUZADA ou
 - SEPARAÇÃO DE TRAIN/TEST
  OBS: (deixar comentado o algoritmo que não for ser usado)
"""
# _____________________________________________________________________________
# CROSS VALIDATION SCORE com 10 folds
resultados = cross_val_score(classificador, previsores, classe, cv = 10)
print(resultados.mean())
print(resultados.std())
print(resultados)
# _____________________________________________________________________________


# _____________________________________________________________________________
# SEPARAÇÃO DE TREINO E TESTE
# Modificar o parâmetro de test_size de acordo com o tamanho da teste (recomendado entre 0.2 a 0.3)
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.2, random_state=0)

classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)
print(precisao)
# _____________________________________________________________________________