# Instalando e importando os dados

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
#--------------------------------------------------
# Importanto as bibliotecas Python necessarias ao experimento
# Manipulacao matricial, matemática e visualizacao grafica
#--------------------------------------------------
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from math import sqrt
#--------------------------------------------------
# Processamento dos dados
#--------------------------------------------------
from sklearn.model_selection import train_test_split

#--------------------------------------------------
# Carregando o modelo inteligente e as metricas de desempenho
#--------------------------------------------------
from sklearn.neural_network import MLPClassifier
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, confusion_matrix, classification_report

from sklearn.model_selection import train_test_split
#--------------------------------------------------
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)




In [None]:
# Definição das colunas para o DataFrame
columns = {
    'Phoenix Feather': [],
    'Unicorn Horn': [],
    'Dragon\'s Blood': [],
    'Mermaid Tears': [],
    'Fairy Dust': [],
    'Goblin Toes': [],
    'Witch\'s Brew': [],
    'Griffin Claw': [],
    'Troll Hair': [],
    'Kraken Ink': [],
    'Minotaur Horn': [],
    'Basilisk Scale': [],
    'Chimera Fang': [],
    'Cured': []
}



# Leitura do arquivo CSV 'princess.csv' com as colunas definidas
df = pd.read_csv('princess2.csv', names = columns)


# Impressão da dimensão dos dados
print("Dimensão dos dados:")
print(df.shape)

# Impressão da estatística descritiva das variáveis
print("Estatística descritiva das variáveis:")
df.describe().transpose()

In [None]:
#--------------------------------------------------
#Criando matrizes para os recursos e a variável de resposta
#A primeira linha de código cria um objeto da variável de destino chamado
#'target_column'.
#--------------------------------------------------
#A segunda linha nos dá a lista de todos os recursos, excluindo a variável de
#destino 'Diagnosis'
#A terceira linha normaliza os preditores.
#A quarta linha exibe o resumo dos dados normalizados.
#--------------------------------------------------
#Podemos ver que todas as variáveis ​​independentes agora foram dimensionadas entre 0 e 1.
#A variável de destino permanece inalterada.
#--------------------------------------------------
target_column = ['Cured']
#--------------------------------------------------
predictors = list(set(list(df.columns))-set(target_column))

for col in predictors:
    df[col] = pd.to_numeric(df[col], errors='coerce')

df[predictors] = df[predictors]/df[predictors].max()
print("Estatística descritiva das variáveis normalizadas:")
df[predictors].describe().transpose()

Criando os conjuntos de dados de treinamento e teste

In [None]:
#As primeiras linhas de código abaixo criam arrays das variáveis ​​independentes
# entrada_X e dependentes (saidaDesejada_y), respectivamente.
#--------------------------------------------------
#A terceira linha divide os dados em conjunto de dados de treinamento e teste,
#A quarta linha imprime a forma dos dados de treinamento e teste.

entrada_X = df[predictors].values
saidaDesejada_y = df[target_column].values

# Aplicando a funcao train_test_split para dividir o conjunto original em 70% para treindo e 30% para teste. E fixamos o random_state de 42 para fixar os valores do conjunto
X_train, X_test, y_train, y_test = train_test_split(entrada_X, saidaDesejada_y, test_size=0.3, random_state=42)


print("Conjunto de treinamento:")
print(X_train.shape);
print("Conjunto de teste:")
print(X_test.shape)

# Dividindo o conjunto de treinamento em dois subconjuntos
X_train1, X_train2, y_train1, y_train2 = train_test_split(X_train, y_train, test_size=0.5, random_state=42)

# Imprimindo as formas dos novos subconjuntos
print("Subconjunto 1 do conjunto de treinamento:")
print(X_train1.shape)
print("Subconjunto 2 do conjunto de treinamento:")
print(X_train2.shape)


#Função que calcula a média das métricas

In [None]:
# Função para calcular a média das métricas
def media (lista):
  # Calculando a média para cada métrica
  mean_accuracy = np.mean([x[0] for x in lista])
  mean_recall = np.mean([x[1] for x in lista])
  mean_precision = np.mean([x[2] for x in lista])
  mean_f1 = np.mean([x[3] for x in lista])

  print(f'Média de Acurácia: {mean_accuracy}')
  print(f'Média de Recall: {mean_recall}')
  print(f'Média de Precisão: {mean_precision}')
  print(f'Média de F1 Score: {mean_f1}')

  #print('------------------------------')
  #print('--- Matriz de Confusão ---')
  #print('------------------------------')
  #pd.DataFrame(confusion_matrix(saida1, saida2),
   #            index=['neg', 'pos'], columns=['pred_neg', 'pred_pos'])

#Rede Neural

Função Rede Neural

In [None]:
!pip install scikit-learn
import sklearn
from sklearn.neural_network import MLPClassifier
from sklearn.impute import SimpleImputer

# Listas para armazenar os resultados das métricas
lista1 = []
lista2 = []
lista3 = []

def redeNeural(neuronios,ativacao) :

  imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
  # Loop para realizar o procedimento 100 vezes
  for i in range(1, 100) :

    #Inicializa o classificador MLP com o número de neurônios e função de ativação especificados
    mlp = MLPClassifier(hidden_layer_sizes=(neuronios), activation=ativacao, solver='adam', max_iter=500, random_state=None)

    # Treina o modelo no primeiro conjunto de treinamento
    X_train1_imputed = imputer.fit_transform(X_train1)
    mlp.fit(X_train1_imputed, y_train1)
    predict_train = mlp.predict(X_train1_imputed)

    saidaPrevista_treino = predict_train
    saidaDesejada_treino =  y_train1

    # Verifica as métricas de desempenho no primeiro conjunto de treinamento
    accuracy_train = accuracy_score(saidaDesejada_treino, saidaPrevista_treino)
    recall_train = recall_score(saidaDesejada_treino, saidaPrevista_treino, average='macro') # Change average to 'macro'
    precision_train = precision_score(saidaDesejada_treino, saidaPrevista_treino, average='macro') # Change average to 'macro'
    f1_train = f1_score(saidaDesejada_treino, saidaPrevista_treino, average='macro') # Change average to 'macro'
    lista1.append((accuracy_train,recall_train,precision_train,f1_train))

    # Treina o modelo no segundo conjunto de treinamento
    X_train2_imputed = imputer.fit_transform(X_train2)
    mlp.fit(X_train2_imputed, y_train2)
    predict_train = mlp.predict(X_train2_imputed)

    saidaPrevista_treino = predict_train
    saidaDesejada_treino =  y_train2

    # Verifica as métricas de desempenho no segundo conjunto de treinamento
    accuracy_train = accuracy_score(saidaDesejada_treino, saidaPrevista_treino)
    recall_train = recall_score(saidaDesejada_treino, saidaPrevista_treino, average='macro') # Change average to 'macro'
    precision_train = precision_score(saidaDesejada_treino, saidaPrevista_treino, average='macro') # Change average to 'macro'
    f1_train = f1_score(saidaDesejada_treino, saidaPrevista_treino, average='macro') # Change average to 'macro'
    lista2.append((accuracy_train,recall_train,precision_train,f1_train))



  # Treina o modelo no conjunto de teste com uma configuração fixa (random_state 42)
  X_test_imputed = imputer.fit_transform(X_test)
  mlp = MLPClassifier(hidden_layer_sizes=(neuronios), activation=ativacao, solver='adam', max_iter=500, random_state=42)
  mlp.fit(X_test_imputed,y_test)
  predict_test = mlp.predict(X_test_imputed)
  saidaPrevista_test = predict_test
  saidaDesejada_test = y_test

  # Imprime as médias das métricas para o primeiro conjunto de treinamento
  print("\nConjunto de treinamento 1:")
  media(lista1)

  # Imprime as médias das métricas para o segundo conjunto de treinamento
  print("\nConjunto de treinamento 2:")
  media(lista2)

  # Verifica as métricas de desempenho no conjunto de teste
  accuracy_test = accuracy_score(saidaDesejada_test, saidaPrevista_test)
  recall_test = recall_score(saidaDesejada_test, saidaPrevista_test, average='macro') # Change average to 'macro'
  precision_test = precision_score(saidaDesejada_test, saidaPrevista_test, average='macro') # Change average to 'macro'
  f1_test = f1_score(saidaDesejada_test, saidaPrevista_test, average='macro') # Change average to 'macro'



  # Imprime as métricas de desempenho no conjunto de teste
  print('------------------------------')
  print('------------------------------')
  print('Conjunto de teste')
  print('Acurácia: ', accuracy_test)
  print('Recall: ', recall_test)
  print('Precision: ', precision_test)
  print('f1 Score: ', f1_test)
  print('------------------------------')
  print('------------------------------')

  return lista1, lista2, lista3

Chama a função redeNeural de 5 a 100 neurônios na camada oculta e usando a função de ativação tangente hiperbólica (tanh)

In [None]:
l1,l2,l3 = redeNeural(5,'tanh')

In [None]:
l1,l2,l3 = redeNeural(20,'tanh')

In [None]:
l1,l2,l3 = redeNeural(30,'tanh')

In [None]:
l1,l2,l3 = redeNeural(50,'tanh')

In [None]:
l1,l2,l3 = redeNeural(100,'tanh')

Chama a função redeNeural de 5 a 100 neurônios na camada oculta e usando a função de ativação identidade (identity)

In [None]:
l1,l2,l3 = redeNeural(5,'identity')

In [None]:
l1,l2,l3 = redeNeural(20,'identity')

In [None]:
l1,l2,l3 = redeNeural(30,'identity')

In [None]:
l1,l2,l3 = redeNeural(50,'identity')

In [None]:
l1,l2,l3 = redeNeural(100,'identity')

Chama a função redeNeural de 5 a 100 neurônios na camada oculta e usando a função de ativação ReLU (Rectified Linear Unit)

In [None]:
l1,l2,l3 = redeNeural(5,'relu')

In [None]:
l1,l2,l3 = redeNeural(20,'relu')

In [None]:
l1,l2,l3 = redeNeural(30,'relu')

In [None]:
l1,l2,l3 = redeNeural(50,'relu')

In [None]:
l1,l2,l3 = redeNeural(100,'relu')

#KNN

Função KNN

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# Listas para armazenar os resultados das métricas
lista1 = []
lista2 = []
lista3 = []
lista4 = []

def knn(n_neighbors):
    # Criando o imputador para preencher valores ausentes com a média
    imputer = SimpleImputer(strategy='mean')

    # Aplicando o imputador ao conjunto de treinamento e teste
    X_train_imputed = imputer.fit_transform(X_train)
    X_test_imputed = imputer.transform(X_test)

    # Descobrir quais rótulos estão presentes
    unique_labels = np.unique(np.concatenate((y_train, y_test)))

    # Loop para realizar o procedimento 100 vezes
    for i in range(100):
        # Divide o conjunto de treinamento em dois subconjuntos, sem random_state para aleatoriedade
        X_train1, X_train2, y_train1, y_train2 = train_test_split(X_train_imputed, y_train, test_size=0.5, random_state=None)

        # Conjunto de treinamento 1
        knn = KNeighborsClassifier(n_neighbors=n_neighbors)
        knn.fit(X_train1, y_train1)
        y_pred = knn.predict(X_train1)
        accuracy_train3 = accuracy_score(y_train1, y_pred)
        recall_train3 = recall_score(y_train1, y_pred, average='weighted')
        precision_train3 = precision_score(y_train1, y_pred, average='weighted')
        f1_train3 = f1_score(y_train1, y_pred, average='weighted')
        lista3.append((accuracy_train3, recall_train3, precision_train3, f1_train3))

        # Conjunto de treinamento 2
        knn = KNeighborsClassifier(n_neighbors=n_neighbors)
        knn.fit(X_train2, y_train2)
        y_pred = knn.predict(X_train2)
        accuracy_train4 = accuracy_score(y_train2, y_pred)
        recall_train4 = recall_score(y_train2, y_pred, average='weighted')
        precision_train4 = precision_score(y_train2, y_pred, average='weighted')
        f1_train4 = f1_score(y_train2, y_pred, average='weighted')
        lista4.append((accuracy_train4, recall_train4, precision_train4, f1_train4))

        # Conjunto de teste 1
        knn = KNeighborsClassifier(n_neighbors=n_neighbors)
        knn.fit(X_train1, y_train1)
        y_pred = knn.predict(X_test_imputed)
        accuracy_train1 = accuracy_score(y_test, y_pred)
        recall_train1 = recall_score(y_test, y_pred, average='weighted')
        precision_train1 = precision_score(y_test, y_pred, average='weighted')
        f1_train1 = f1_score(y_test, y_pred, average='weighted')
        lista1.append((accuracy_train1, recall_train1, precision_train1, f1_train1))

        # Conjunto de teste 2
        knn = KNeighborsClassifier(n_neighbors=n_neighbors)
        knn.fit(X_train2, y_train2)
        y_pred = knn.predict(X_test_imputed)
        accuracy_train2 = accuracy_score(y_test, y_pred)
        recall_train2 = recall_score(y_test, y_pred, average='weighted')
        precision_train2 = precision_score(y_test, y_pred, average='weighted')
        f1_train2 = f1_score(y_test, y_pred, average='weighted')
        lista2.append((accuracy_train2, recall_train2, precision_train2, f1_train2))

    # Imprime as médias das métricas para cada conjunto
    print('Conjunto de teste 1')
    media(lista1)
    print('\nConjunto de teste 2')
    media(lista2)
    print('\nConjunto de treinamento 1')
    media(lista3)
    print('\nConjunto de treinamento 2')
    media(lista4)

    return lista1, lista2, lista3, lista4





Executando a função KNN e Imprimindo as médias das métricas para cada conjunto

In [None]:
# Executa a função KNN e armazena os resultados
lista1,lista2,lista3,lista4 = knn(1)

In [None]:
lista1,lista2,lista3,lista4 = knn(3)

In [None]:
lista1,lista2,lista3,lista4 = knn(5)

In [None]:
lista1,lista2,lista3,lista4 = knn(7)

In [None]:
lista1,lista2,lista3,lista4 = knn(9)

In [None]:
lista1,lista2,lista3,lista4 = knn(11)

In [None]:
lista1,lista2,lista3,lista4 = knn(13)

In [None]:
lista1,lista2,lista3,lista4 = knn(15)

In [None]:
lista1,lista2,lista3,lista4 = knn(17)

In [None]:
lista1,lista2,lista3,lista4 = knn(19)

In [None]:
lista1,lista2,lista3,lista4 = knn(21)

In [None]:
lista1,lista2,lista3,lista4 = knn(23)

In [None]:
lista1,lista2,lista3,lista4 = knn(25)

In [None]:
lista1,lista2,lista3,lista4 = knn(27)

In [None]:
lista1,lista2,lista3,lista4 = knn(29)

#Árvore de decisão

Função de Árvore de decisão

Racionalização dos Parâmetros Escolhidos:

  max_depth: Limita a profundidade máxima da árvore para evitar overfitting. Valores como 10, 20 e 30 são escolhas razoáveis, pois controlam a complexidade da árvore.

  min_samples_split: Define o número mínimo de amostras necessárias para dividir um nó. Valores maiores como 5 ou 10 podem ajudar a simplificar a árvore, reduzindo o overfitting.
  
  min_samples_leaf: Define o número mínimo de amostras permitidas em uma folha. Valores maiores como 2 ou 4 ajudam a regularizar o modelo, evitando folhas com muito poucas amostras.

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Listas para armazenar os resultados das métricas
lista1 = []  # Resultados para conjunto de teste com o primeiro subconjunto de treinamento
lista2 = []  # Resultados para conjunto de teste com o segundo subconjunto de treinamento
lista3 = []  # Resultados para o primeiro subconjunto de treinamento
lista4 = []  # Resultados para o segundo subconjunto de treinamento

def decision_tree(X_train, y_train, X_test, y_test, max_depth, min_samples_split, min_samples_leaf):
    # Criando o imputador para preencher valores ausentes com a média
    imputer = SimpleImputer(strategy='mean')

    # Aplicando o imputador ao conjunto de treinamento e teste
    X_train_imputed = imputer.fit_transform(X_train)
    X_test_imputed = imputer.transform(X_test)

    # Transformando os vetores de rótulos para arrays unidimensionais
    y_train = np.ravel(y_train)
    y_test = np.ravel(y_test)

    # Descobrir quais rótulos estão presentes
    unique_labels = np.unique(np.concatenate((y_train, y_test)))

    # Listas para armazenar os resultados das métricas
    lista1 = []  # Resultados para conjunto de teste com o primeiro subconjunto de treinamento
    lista2 = []  # Resultados para conjunto de teste com o segundo subconjunto de treinamento
    lista3 = []  # Resultados para o primeiro subconjunto de treinamento
    lista4 = []  # Resultados para o segundo subconjunto de treinamento

    # Loop para realizar o procedimento 100 vezes
    for i in range(100):
        # Divide o conjunto de treinamento em dois subconjuntos, sem random_state para aleatoriedade
        X_train1, X_train2, y_train1, y_train2 = train_test_split(X_train_imputed, y_train, test_size=0.5, random_state=None)

        # Conjunto de treinamento 1
        dt = DecisionTreeClassifier(max_depth=max_depth, min_samples_split=min_samples_split, min_samples_leaf=min_samples_leaf)
        dt.fit(X_train1, y_train1)
        y_pred = dt.predict(X_train1)
        accuracy_train3 = accuracy_score(y_train1, y_pred)
        recall_train3 = recall_score(y_train1, y_pred, average='weighted', labels=unique_labels)
        precision_train3 = precision_score(y_train1, y_pred, average='weighted', labels=unique_labels)
        f1_train3 = f1_score(y_train1, y_pred, average='weighted', labels=unique_labels)
        lista3.append((accuracy_train3, recall_train3, precision_train3, f1_train3))

        # Conjunto de treinamento 2
        dt = DecisionTreeClassifier(max_depth=max_depth, min_samples_split=min_samples_split, min_samples_leaf=min_samples_leaf)
        dt.fit(X_train2, y_train2)
        y_pred = dt.predict(X_train2)
        accuracy_train4 = accuracy_score(y_train2, y_pred)
        recall_train4 = recall_score(y_train2, y_pred, average='weighted', labels=unique_labels)
        precision_train4 = precision_score(y_train2, y_pred, average='weighted', labels=unique_labels)
        f1_train4 = f1_score(y_train2, y_pred, average='weighted', labels=unique_labels)
        lista4.append((accuracy_train4, recall_train4, precision_train4, f1_train4))

        # Conjunto de teste 1
        dt = DecisionTreeClassifier(max_depth=max_depth, min_samples_split=min_samples_split, min_samples_leaf=min_samples_leaf)
        dt.fit(X_train1, y_train1)
        y_pred = dt.predict(X_test_imputed)
        accuracy_train1 = accuracy_score(y_test, y_pred)
        recall_train1 = recall_score(y_test, y_pred, average='weighted', labels=unique_labels)
        precision_train1 = precision_score(y_test, y_pred, average='weighted', labels=unique_labels)
        f1_train1 = f1_score(y_test, y_pred, average='weighted', labels=unique_labels)
        lista1.append((accuracy_train1, recall_train1, precision_train1, f1_train1))

        # Conjunto de teste 2
        dt = DecisionTreeClassifier(max_depth=max_depth, min_samples_split=min_samples_split, min_samples_leaf=min_samples_leaf)
        dt.fit(X_train2, y_train2)
        y_pred = dt.predict(X_test_imputed)
        accuracy_train2 = accuracy_score(y_test, y_pred)
        recall_train2 = recall_score(y_test, y_pred, average='weighted', labels=unique_labels)
        precision_train2 = precision_score(y_test, y_pred, average='weighted', labels=unique_labels)
        f1_train2 = f1_score(y_test, y_pred, average='weighted', labels=unique_labels)
        lista2.append((accuracy_train2, recall_train2, precision_train2, f1_train2))

    # Imprime as médias das métricas para cada conjunto
    print('Conjunto de teste 1')
    media(lista1)
    print('\nConjunto de teste 2')
    media(lista2)
    print('\nConjunto de treinamento 1')
    media(lista3)
    print('\nConjunto de treinamento 2')
    media(lista4)

    return lista1, lista2, lista3, lista4


Chamando a árvore de decisão

In [None]:
# Chame a função e obtenha os resultados
resultados = decision_tree(X_train, y_train, X_test, y_test, None, 2, 2)

Conjunto de teste 1
Média de Acurácia: 0.8254131054131054
Média de Recall: 0.8254131054131054
Média de Precisão: 0.8270934273527307
Média de F1 Score: 0.8252628636304837

Conjunto de teste 2
Média de Acurácia: 0.8275925925925925
Média de Recall: 0.8275925925925925
Média de Precisão: 0.8298409670064625
Média de F1 Score: 0.8273675391389778

Conjunto de treinamento 1
Média de Acurácia: 0.97580684596577
Média de Recall: 0.97580684596577
Média de Precisão: 0.9765659574667018
Média de F1 Score: 0.9757891075189

Conjunto de treinamento 2
Média de Acurácia: 0.976002444987775
Média de Recall: 0.976002444987775
Média de Precisão: 0.9767633479071317
Média de F1 Score: 0.9759852890034307


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test, 10, 10, 2)

Conjunto de teste 1
Média de Acurácia: 0.826111111111111
Média de Recall: 0.826111111111111
Média de Precisão: 0.8275503633475867
Média de F1 Score: 0.8259767880414007

Conjunto de teste 2
Média de Acurácia: 0.8220370370370371
Média de Recall: 0.8220370370370371
Média de Precisão: 0.8237776194074928
Média de F1 Score: 0.8218673067420155

Conjunto de treinamento 1
Média de Acurácia: 0.9536919315403424
Média de Recall: 0.9536919315403424
Média de Precisão: 0.9542403752303121
Média de F1 Score: 0.9536681080642689

Conjunto de treinamento 2
Média de Acurácia: 0.9529462102689485
Média de Recall: 0.9529462102689485
Média de Precisão: 0.9535563860447828
Média de F1 Score: 0.9529164878229119


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test, 20, 5, 1)

Conjunto de teste 1
Média de Acurácia: 0.8295014245014245
Média de Recall: 0.8295014245014245
Média de Precisão: 0.830232365579671
Média de F1 Score: 0.8294394498321567

Conjunto de teste 2
Média de Acurácia: 0.8260683760683761
Média de Recall: 0.8260683760683761
Média de Precisão: 0.826762806800162
Média de F1 Score: 0.8260123386151524

Conjunto de treinamento 1
Média de Acurácia: 0.9867481662591686
Média de Recall: 0.9867481662591686
Média de Precisão: 0.9868228874202165
Média de F1 Score: 0.9867466903501964

Conjunto de treinamento 2
Média de Acurácia: 0.9865403422982884
Média de Recall: 0.9865403422982884
Média de Precisão: 0.9866147068539851
Média de F1 Score: 0.9865384963652808


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,40, 2, 4)

Conjunto de teste 1
Média de Acurácia: 0.8294444444444444
Média de Recall: 0.8294444444444444
Média de Precisão: 0.8308824708727256
Média de F1 Score: 0.8293163098534225

Conjunto de teste 2
Média de Acurácia: 0.8285897435897435
Média de Recall: 0.8285897435897435
Média de Precisão: 0.8301487067582991
Média de F1 Score: 0.8284488873566004

Conjunto de treinamento 1
Média de Acurácia: 0.9498288508557456
Média de Recall: 0.9498288508557456
Média de Precisão: 0.9503422136565594
Média de F1 Score: 0.9498004631019441

Conjunto de treinamento 2
Média de Acurácia: 0.9493031784841078
Média de Recall: 0.9493031784841078
Média de Precisão: 0.9499041042347409
Média de F1 Score: 0.9492740447153141


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,10, 5, 4)

Conjunto de teste 1
Média de Acurácia: 0.8275356125356125
Média de Recall: 0.8275356125356125
Média de Precisão: 0.8290528761119431
Média de F1 Score: 0.8273969057839986

Conjunto de teste 2
Média de Acurácia: 0.8285612535612537
Média de Recall: 0.8285612535612537
Média de Precisão: 0.8302392604900034
Média de F1 Score: 0.8284084248702789

Conjunto de treinamento 1
Média de Acurácia: 0.9481295843520783
Média de Recall: 0.9481295843520783
Média de Precisão: 0.9486902454830478
Média de F1 Score: 0.9480980933303544

Conjunto de treinamento 2
Média de Acurácia: 0.9472127139364304
Média de Recall: 0.9472127139364304
Média de Precisão: 0.9477897105293063
Média de F1 Score: 0.9471830607942576


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,40, 10, 2)

Conjunto de teste 1
Média de Acurácia: 0.8251566951566953
Média de Recall: 0.8251566951566953
Média de Precisão: 0.8268942011020571
Média de F1 Score: 0.8249903421775775

Conjunto de teste 2
Média de Acurácia: 0.8254131054131055
Média de Recall: 0.8254131054131055
Média de Precisão: 0.8267894202598849
Média de F1 Score: 0.8252891463504243

Conjunto de treinamento 1
Média de Acurácia: 0.9550488997555011
Média de Recall: 0.9550488997555011
Média de Precisão: 0.955663787738422
Média de F1 Score: 0.9550182778902679

Conjunto de treinamento 2
Média de Acurácia: 0.9529951100244497
Média de Recall: 0.9529951100244497
Média de Precisão: 0.9535218184039108
Média de F1 Score: 0.9529710204303065


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,None, 2, 1)

Conjunto de teste 1
Média de Acurácia: 0.8259686609686611
Média de Recall: 0.8259686609686611
Média de Precisão: 0.8265504452784396
Média de F1 Score: 0.8259121195378902

Conjunto de teste 2
Média de Acurácia: 0.8297293447293447
Média de Recall: 0.8297293447293447
Média de Precisão: 0.8302545730991198
Média de F1 Score: 0.8296808596891855

Conjunto de treinamento 1
Média de Acurácia: 1.0
Média de Recall: 1.0
Média de Precisão: 1.0
Média de F1 Score: 1.0

Conjunto de treinamento 2
Média de Acurácia: 1.0
Média de Recall: 1.0
Média de Precisão: 1.0
Média de F1 Score: 1.0


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,30, 2, 2)

Conjunto de teste 1
Média de Acurácia: 0.8282763532763533
Média de Recall: 0.8282763532763533
Média de Precisão: 0.8299685840929589
Média de F1 Score: 0.8281261478801692

Conjunto de teste 2
Média de Acurácia: 0.8270370370370372
Média de Recall: 0.8270370370370372
Média de Precisão: 0.8288970846142607
Média de F1 Score: 0.8268605709319603

Conjunto de treinamento 1
Média de Acurácia: 0.9763325183374083
Média de Recall: 0.9763325183374083
Média de Precisão: 0.9770538574640706
Média de F1 Score: 0.9763147679661298

Conjunto de treinamento 2
Média de Acurácia: 0.9757701711491441
Média de Recall: 0.9757701711491441
Média de Precisão: 0.9765076807056811
Média de F1 Score: 0.9757538580493822


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,30, 5, 4)

Conjunto de teste 1
Média de Acurácia: 0.8297720797720797
Média de Recall: 0.8297720797720797
Média de Precisão: 0.8315425415160925
Média de F1 Score: 0.8296104040288143

Conjunto de teste 2
Média de Acurácia: 0.8293162393162393
Média de Recall: 0.8293162393162393
Média de Precisão: 0.8312107197919754
Média de F1 Score: 0.8291439685189019

Conjunto de treinamento 1
Média de Acurácia: 0.9496210268948656
Média de Recall: 0.9496210268948656
Média de Precisão: 0.95024273882638
Média de F1 Score: 0.9495900791870444

Conjunto de treinamento 2
Média de Acurácia: 0.9488630806845968
Média de Recall: 0.9488630806845968
Média de Precisão: 0.9494431973727476
Média de F1 Score: 0.9488306397467464


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,20, 2, 1)

Conjunto de teste 1
Média de Acurácia: 0.826980056980057
Média de Recall: 0.826980056980057
Média de Precisão: 0.8275568398281975
Média de F1 Score: 0.8269228782792293

Conjunto de teste 2
Média de Acurácia: 0.8313247863247861
Média de Recall: 0.8313247863247861
Média de Precisão: 0.8318958353161702
Média de F1 Score: 0.8312761417369181

Conjunto de treinamento 1
Média de Acurácia: 1.0
Média de Recall: 1.0
Média de Precisão: 1.0
Média de F1 Score: 1.0

Conjunto de treinamento 2
Média de Acurácia: 1.0
Média de Recall: 1.0
Média de Precisão: 1.0
Média de F1 Score: 1.0


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,40, 5, 1)

Conjunto de teste 1
Média de Acurácia: 0.8264957264957264
Média de Recall: 0.8264957264957264
Média de Precisão: 0.8271279490001524
Média de F1 Score: 0.8264430886448476

Conjunto de teste 2
Média de Acurácia: 0.8275925925925927
Média de Recall: 0.8275925925925927
Média de Precisão: 0.8284237086128475
Média de F1 Score: 0.8275212158575788

Conjunto de treinamento 1
Média de Acurácia: 0.9870171149144253
Média de Recall: 0.9870171149144253
Média de Precisão: 0.9870865835202457
Média de F1 Score: 0.9870154938922343

Conjunto de treinamento 2
Média de Acurácia: 0.9869437652811734
Média de Recall: 0.9869437652811734
Média de Precisão: 0.9870132560318757
Média de F1 Score: 0.9869423667846547


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,20, 10, 4)

Conjunto de teste 1
Média de Acurácia: 0.8316096866096865
Média de Recall: 0.8316096866096865
Média de Precisão: 0.8329186364653745
Média de F1 Score: 0.8314922997449165

Conjunto de teste 2
Média de Acurácia: 0.8310256410256411
Média de Recall: 0.8310256410256411
Média de Precisão: 0.8323498244767852
Média de F1 Score: 0.8309107985676754

Conjunto de treinamento 1
Média de Acurácia: 0.9435085574572127
Média de Recall: 0.9435085574572127
Média de Precisão: 0.9439558833296491
Média de F1 Score: 0.943480665149845

Conjunto de treinamento 2
Média de Acurácia: 0.9441564792176039
Média de Recall: 0.9441564792176039
Média de Precisão: 0.9446649002759488
Média de F1 Score: 0.9441317971745363


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,30, 10, 1)

Conjunto de teste 1
Média de Acurácia: 0.8249002849002848
Média de Recall: 0.8249002849002848
Média de Precisão: 0.8260413294782909
Média de F1 Score: 0.8247988277686379

Conjunto de teste 2
Média de Acurácia: 0.8248717948717949
Média de Recall: 0.8248717948717949
Média de Precisão: 0.8257847994392898
Média de F1 Score: 0.8247831862586885

Conjunto de treinamento 1
Média de Acurácia: 0.9653056234718825
Média de Recall: 0.9653056234718825
Média de Precisão: 0.9655350303150947
Média de F1 Score: 0.9652965516459724

Conjunto de treinamento 2
Média de Acurácia: 0.9668459657701711
Média de Recall: 0.9668459657701711
Média de Precisão: 0.9670765508497674
Média de F1 Score: 0.9668391487046284


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,None, 5, 2)

Conjunto de teste 1
Média de Acurácia: 0.8261680911680912
Média de Recall: 0.8261680911680912
Média de Precisão: 0.8278273697704052
Média de F1 Score: 0.826016109763967

Conjunto de teste 2
Média de Acurácia: 0.8248290598290599
Média de Recall: 0.8248290598290599
Média de Precisão: 0.8269813367691783
Média de F1 Score: 0.8246186031484504

Conjunto de treinamento 1
Média de Acurácia: 0.9738141809290951
Média de Recall: 0.9738141809290951
Média de Precisão: 0.9744668596887497
Média de F1 Score: 0.9737972658777369

Conjunto de treinamento 2
Média de Acurácia: 0.9726161369193155
Média de Recall: 0.9726161369193155
Média de Precisão: 0.9733964455106272
Média de F1 Score: 0.9725947903657578


In [None]:
resultados = decision_tree(X_train, y_train, X_test, y_test,10, 5, 4)

Conjunto de teste 1
Média de Acurácia: 0.8314957264957265
Média de Recall: 0.8314957264957265
Média de Precisão: 0.8328778591157345
Média de F1 Score: 0.8313769601059862

Conjunto de teste 2
Média de Acurácia: 0.8291595441595442
Média de Recall: 0.8291595441595442
Média de Precisão: 0.8307116785051122
Média de F1 Score: 0.8290142145277443

Conjunto de treinamento 1
Média de Acurácia: 0.9479339853300734
Média de Recall: 0.9479339853300734
Média de Precisão: 0.9485672316197423
Média de F1 Score: 0.9478999097553533

Conjunto de treinamento 2
Média de Acurácia: 0.9480317848410758
Média de Recall: 0.9480317848410758
Média de Precisão: 0.9486089641567765
Média de F1 Score: 0.9480017014336702


#Gráficos

Função para gerar gráfico de barra para KNN,Rede Neural e Árvore de decisão

In [None]:
import matplotlib.pyplot as plt

def calcular_metricas_medias(lista):
    """
    Calcula as métricas médias a partir de uma lista de tuplas contendo métricas.

    :param lista: Lista de tuplas no formato (accuracy, recall, precision, f1_score).
    :return: Tupla contendo as métricas médias (accuracy, recall, precision, f1_score).
    """
    if len(lista) == 0:
        return np.zeros(4)

    metrics = np.array(lista)
    mean_metrics = np.mean(metrics, axis=0)
    return mean_metrics

def gerar_graficos_de_barras(results, metric_names, model_names):
    """
    Gera gráficos de barras para as métricas médias de desempenho dos modelos.

    :param results: Lista de listas de tuplas contendo os resultados das métricas.
                    Cada sublista corresponde aos resultados de um modelo.
                    Cada tupla deve estar no formato (accuracy, recall, precision, f1_score).
    :param metric_names: Lista com os nomes das métricas.
    :param model_names: Lista com os nomes dos modelos correspondentes às sublistas de resultados.
    """
    num_models = len(results)
    num_metrics = len(metric_names)

    avg_metrics = np.zeros((num_models, num_metrics))

    for model_idx, model_results in enumerate(results):
        avg_metrics[model_idx] = calcular_metricas_medias(model_results)

    # Configuração do gráfico de barras
    x = np.arange(num_models)
    width = 0.2  # Largura das barras

    fig, ax = plt.subplots(figsize=(12, 8))

    # Geração das barras para cada métrica
    for i in range(num_metrics):
        bars = ax.bar(x + i * width, avg_metrics[:, i], width, label=metric_names[i])

        # Adicionando os valores acima das barras
        for bar in bars:
            height = bar.get_height()
            ax.text(bar.get_x() + bar.get_width() / 2.0, height, f'{height:.2f}', ha='center', va='bottom')

    # Configurações adicionais do gráfico
    ax.set_ylabel('Valores Médios das Métricas')
    ax.set_title('Desempenho Médio dos Modelos')
    ax.set_xticks(x + width * (num_metrics - 1) / 2)
    ax.set_xticklabels(model_names)
    ax.legend(bbox_to_anchor=(1.25,1))

    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

Plotando os gráficos de Knn

In [None]:
# Passando as listas de resultados para a função
results = knn(1)

metric_names = ['Acurácia', 'Recall', 'Precisão', 'F1-Score']
model_names = ['Conjunto de teste 1', 'Conjunto de teste 2','Conjunto de treinamento 1', 'Conjunto de treinamento 2']

gerar_graficos_de_barras(results, metric_names, model_names)

Plotando os gráficos de Rede Neural

In [None]:
# Passando as listas de resultados para a função
results = redeNeural(20,'tanh')

metric_names = ['Acurácia', 'Recall', 'Precisão', 'F1-Score']
model_names = ['Conjunto de treinamento 1', 'Conjunto de treinamento 2', 'Conjunto de teste']

gerar_graficos_de_barras(results, metric_names, model_names)

Plotando os gráficos de Árvore de decisão

In [None]:
# Passando as listas de resultados para a função
results = decision_tree(X_train, y_train, X_test, y_test, None, 2, 2)

metric_names = ['Acurácia', 'Recall', 'Precisão', 'F1-Score']
model_names = ['Conjunto de teste 1', 'Conjunto de teste 2', 'Conjunto de treinamento 1', 'Conjunto de treinamento 2']

gerar_graficos_de_barras(results, metric_names, model_names)