# POS IESB 2020 - Disciplina Fundamentos de IA
# Trabalho 01

## Aluno: Eduardo Gomes Piza
## Aluno: Valter Takechi Hada

### Utilizando a toolbox de sua preferência, realize o treinamento de uma rede neural artificial do tipo   Perceptron Multicamadas para resolver um problema de classificação multiclasses.

### Informações: Utilizamos um dos datasets constantes no site "archive.ics.uci/edu" (conforme sugestão) cujo conteúdo está relacionado a "Early stage diabetes risk prediction dataset" (dados para previsão de risco de diabetes em estagio inicial). 

### Dados adicionais quanto ao dataset e arquivo .csv podem ser verificados através da url "http://archive.ics.uci.edu/ml/datasets/Early+stage+diabetes+risk+prediction+dataset."

### O dataset contém respostas de um questionário respondido por pacientes do "Sylhet Diabetes Hospital", em Bangladesh, e foi aprovado por médico/especialista.

In [None]:
# Passo 1
# Vamos importar o dataset com os dados que serão utilizados

import pandas as pd

uri = "http://archive.ics.uci.edu/ml/machine-learning-databases/00529/diabetes_data_upload.csv"
#uri = "diabetes_data_upload.csv"
dados_input = pd.read_csv(uri)
dados_input.head()

In [None]:
# Passo 2
# Vamos atualizar todo o data set renomeando as colunas com o termo traduzido

cabecalho = { 
    "Age" : "Idade",
    "Gender" : "Sexo",
    "Polyuria" : "Poliuria",
    "Polydipsia" : "Polidipsia",
    "sudden weight loss" : "Perda_subita_de_peso",
    "weakness" : "Fraqueza",
    "Polyphagia" : "Polifagia",
    "Genital thrush" : "Herpes_genital",
    "visual blurring" : "Visao_borrada",
    "Itching" : "Coceira",
    "Irritability" : "Irritabilidade",
    "delayed healing" : "Cicatrizacao_lenta",
    "partial paresis" : "Paralisia_parcial",
    "muscle stiffness" : "Rigidez_muscular",
    "Alopecia" : "Calvicie",
    "Obesity" : "Obesidade",
    "class" : "Situacao"
}
dados_input = dados_input.rename(columns = cabecalho)
dados_input.head()

In [None]:
# Passo 3
# Vamos atualizar o conteudo das linhas, transformando o conteúdo em números:

converte_sexo = { "Male" : 1,
                  "Female" : 0 }

dados_input['Sexo'] = dados_input.Sexo.map(converte_sexo)

converte_resp = { "No" : 0,
                  "Yes" : 1 }

dados_input['Poliuria'] = dados_input.Poliuria.map(converte_resp)
dados_input['Polidipsia'] = dados_input.Polidipsia.map(converte_resp)
dados_input['Perda_subita_de_peso'] = dados_input.Perda_subita_de_peso.map(converte_resp)
dados_input['Fraqueza'] = dados_input.Fraqueza.map(converte_resp)
dados_input['Polifagia'] = dados_input.Polifagia.map(converte_resp)
dados_input['Herpes_genital'] = dados_input.Herpes_genital.map(converte_resp)
dados_input['Visao_borrada'] = dados_input.Visao_borrada.map(converte_resp)
dados_input['Coceira'] = dados_input.Coceira.map(converte_resp)
dados_input['Irritabilidade'] = dados_input.Irritabilidade.map(converte_resp)
dados_input['Cicatrizacao_lenta'] = dados_input.Cicatrizacao_lenta.map(converte_resp)
dados_input['Paralisia_parcial'] = dados_input.Paralisia_parcial.map(converte_resp)
dados_input['Rigidez_muscular'] = dados_input.Rigidez_muscular.map(converte_resp)
dados_input['Calvicie'] = dados_input.Calvicie.map(converte_resp)
dados_input['Obesidade'] = dados_input.Obesidade.map(converte_resp)

converte_situacao = { "Positive" : 1,
                      "Negative" : 0}

dados_input['Situacao'] = dados_input.Situacao.map(converte_situacao)

dados_input.tail()

In [None]:
# Passo 4
# Uma vez que os dados foram tratados vamos ordená-los de forma aleatória, 
# separar as colunas de classificação (features) e a coluna de resultado, e
# ajustar o tipo de dado para usá-lo como input dos procedimentos.

import numpy as np
#from sklearn.utils import shuffle
#dados_input = shuffle(dados_input)

x = dados_input[['Idade', 
                 'Sexo',
                 'Poliuria',
                 'Polidipsia',
                 'Perda_subita_de_peso',
                 'Fraqueza',
                 'Polifagia',
                 'Herpes_genital',
                 'Visao_borrada',
                 'Coceira',
                 'Irritabilidade',
                 'Cicatrizacao_lenta',
                 'Paralisia_parcial',
                 'Rigidez_muscular',
                 'Calvicie',
                 'Obesidade']]

y = dados_input[['Situacao']]

# Setando a tipagem do conteudo como inteiro
x = x.astype(np.uint8)
y = y.astype(np.uint8)

# convertendo de 'pandas.dataframe' para 'numpy.ndarray'
x = x.to_numpy(copy=True)
y = y.to_numpy(copy=True)

print(type(x))
print(x.shape)
print(type(y))
print(y.shape)

In [None]:
# Passo 05
# Agora vamos separar o data set para termos os dados de TREINO e TESTE, 
# ordenando-os de forma aleatória e garantindo que os registros selecionados
# para teste apresentem a mesma proporção que os registros de treino para 
# a 'SITUACAO' (que indica se o paciente possui ou nao diabetes) . Vamos 
# separar 80% dos registros para treino e 20% para testes. 

# Para separacao dos grupos de treino e teste usando 'train_test_split'
from sklearn.model_selection import train_test_split

# métricas
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

# model
from sklearn.neural_network import MLPClassifier

# validação cruzada
from sklearn.model_selection import StratifiedKFold

# matrizes numéricas e plot
import numpy as np
from matplotlib import pyplot as plt

# organiza aleatoriamente matrizes 
from sklearn.utils import shuffle

# funcao para recuperacao do timestamp
from time import process_time

# Como vamos usar 'StratifiedKFold' para separar os registros de treino e teste
# nao precisamos executar os procedimentos abaixo, que fariam o mesmo processo
# mas usando a 'train_test_split'
##SEED = 20
##treino_x, teste_x, treino_y, teste_y = train_test_split(x, 
##                                                        y,
##                                                        random_state = SEED, 
##                                                        test_size = 0.10,
##                                                        stratify = y)
##print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

# Parametros que serao usados na rede
epocas = 5000

# definindo arquitetura da PMC - com duas camadas intermediárias
mlp = MLPClassifier(hidden_layer_sizes=(128,128,),  # 2 camadas com 128 neurônios cada
                    activation='tanh',              # funcao hiperbolica
                    max_iter=epocas,                # numero maximo de iteracoes
                    alpha=1e-4,                     # restringir o tamanho dos pesos, fator de penalidade
                    solver='lbfgs',                 # algoritmo otimizador (metodo quasi-Newton)
                    verbose=False,                  # nao imprimir mensagens de progresso 
                    tol=1e-5,                       # tolerancia para continuidade da otimizacao
                    n_iter_no_change=10,            # a otimizacao vai parar se nos ultimos 'n' resultados não houver melhora
                    random_state=1,                 # geracao de numeros aleatorios para inicializacao e pesos de bias 
                    learning_rate_init=.001)        # taxa de aprendizagem inicial

# arrays para armazenar o tempo de duracao, acuracia e precisao de cada treino
time_train_mlp =[]
acuracia_mlp = []
precisao_mlp = []

# Validação cruzada com k folds
k = 10 
skf = StratifiedKFold(n_splits=k, random_state=None)

for train_index, test_index in skf.split(x,y): 

    print("Treino: ", train_index)
    print(train_index.shape)
    print("Validacao: ", test_index) 
    print(test_index.shape)
    
    sinais_treinamento, sinais_validacao = x[train_index], x[test_index] 
    labels_treinamento, labels_validacao = y[train_index], y[test_index]
    
    # para garantir serem randomicos, mas com mesmo padrão/ordem -> 'random_state' igual
    x_treinamento, y_treinamento = shuffle(sinais_treinamento, labels_treinamento, random_state = 42)
    x_validacao, y_validacao = shuffle(sinais_validacao, labels_validacao, random_state = 42)

    # Aqui fazer um treinamento de 100 épocas (parametros da MLP) e uma validacao da MLP
    start = process_time()
    mlp.fit(x_treinamento, y_treinamento)
    end = process_time()
    time_mlp = end - start

    # Métricas da validacão mlp
    preds_val_mlp = mlp.predict(x_validacao)  
    cm_val_mlp = confusion_matrix(y_validacao, preds_val_mlp)
    print(cm_val_mlp)
    
    TP = cm_val_mlp[0,0]   # True Positive
    FP = cm_val_mlp[0,1]   # False Positive
    FN = cm_val_mlp[1,0]   # False Negative 
    TN = cm_val_mlp[1,1]   # True Negative  

    acuracia_mlp_ = (TP+TN)*100/(len(y_validacao))
    precisao_mlp_ = TP*100/(TP+FP)
    print('Acuracia apurada neste ciclo: ', acuracia_mlp_)
    print('Precisao apurada neste ciclo: ', precisao_mlp_)

    # Usar no calculo das médias da mlp
    time_train_mlp.append(time_mlp)
    acuracia_mlp.append(acuracia_mlp_)
    precisao_mlp.append(precisao_mlp_)

media_time_train_mlp = sum(time_train_mlp) / float(len(time_train_mlp))
media_acuracia_mlp = sum(acuracia_mlp) / float(len(acuracia_mlp))
media_precisao_mlp = sum(precisao_mlp) / float(len(precisao_mlp))

print('--------------------------------------------------------------------------------')
print('Tempo médio de treinamento MLP com ' + str(k) + ' kfolds - Tempo: ' + str (media_time_train_mlp) + ' segundos.')
print('Médias das Validações com ' + str(k) + ' folds')
print('Acurácia_mlp: ' + str(media_acuracia_mlp))
print('Precisão_mlp: ' + str(media_precisao_mlp))



In [None]:
# Passo 06 - Exibir gráfico de perda/loss.
# Nao vamos executar pois apenas o otimizador "sgd" possui a loss function
# (e estamos usando em nossa rede o otimizador "lbfgs")

# loss_values = mlp.loss_curve_
# plt.plot(loss_values)
# plt.show()

In [None]:
from sklearn.model_selection import cross_validate
from time import process_time

start_cv = process_time()

cv_results = cross_validate(mlp, x_treinamento, y_treinamento, cv=10)

end_cv = process_time()
time_cv = end_cv - start_cv
print('Duracao da CROSS VALIDATION: '  + str (time_cv) + ' segundos.')

# Retorna a precisao media a partir dos dados (treino e teste) disponibilizados
cv_results['test_score']

In [None]:
from sklearn.model_selection import GridSearchCV

parameters = {'activation':('identity', 'logistic', 'tanh', 'relu'), 'tol':[1e-5, 1e-1]}

clf = GridSearchCV(mlp, parameters, cv=10)
clf.fit(x_treinamento, y_treinamento,)

In [None]:
clf.cv_results_

In [None]:
clf.cv_results_['params'][clf.best_index_]