In [None]:
# bilbiotecas para realizar operações sobre os dados
import pandas as pd
import numpy as np

# bibliotecas de Aprendizagem de máquina
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score , precision_score , confusion_matrix

# Importando as técnicas de aprendizagem (Classificadores)
from sklearn.tree import DecisionTreeClassifier #árvore de decisão
from sklearn.ensemble import RandomForestClassifier  # random forest

In [None]:
dados = pd.read_csv("calculo_renal.csv", sep=',')
dados.head(15)

In [None]:
dados.sample(15)

In [None]:
dados['saida'].value_counts()

In [None]:
# Separação aleatória em conjuntos de treino e teste  (Treino = Para etapa de aprendizagem;  Teste = Para avaliar  o desempenho do modelo em novos dados)
array = dados.values
X = array[:, 0:7].astype(float)  #variáveis explicativas
Y = array[:, 7]  #variável resposta
tamanho_teste = 0.1
tamanho_treino = 0.9

np.random.seed(7) #fixar aleatoriedade para reproução
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, train_size=tamanho_treino)

In [None]:
X_treino.shape

In [None]:
X_teste.shape

In [None]:
Y_treino.shape


In [None]:
Y_teste.shape

In [None]:
# Treinando modelos
# Preparação do modelo 1 =  Árvore de Decisão
model1 = DecisionTreeClassifier()
model1.fit(X_treino, Y_treino) #FIT() = TREINO

In [None]:
# Estimativas na base de teste (dados não vistos/futuros)
#ACURÁCIA = (VP + VN) / TOTAL DE OBSERVAÇÕES

predictions1 = model1.predict(X_teste)
accuracy1 = accuracy_score(Y_teste, predictions1)
precision1 = precision_score(Y_teste, predictions1)

print("Árvore de Decisão:")
print("Taxa de Acerto =", round(accuracy1 * 100, 2), "%")
print("Precisão =", round(precision1 * 100, 2), "%")

# print("Taxa de Acerto do modelo com Árvore de Decisão = ", round((accuracy_score(Y_teste, predictions1)*100),2),"%")
print(predictions1)


In [None]:
# Preparação do modelo 2 = Random Forest
model2 = RandomForestClassifier()
model2.fit(X_treino, Y_treino)


In [None]:
# Estimativas na base de teste
predictions2 = model2.predict(X_teste)
accuracy2 = accuracy_score(Y_teste, predictions2)
precision2 = precision_score(Y_teste, predictions2)

print("\nRandom Forest:")
print("Taxa de Acerto =", round(accuracy2 * 100, 2), "%")
print("Precisão =", round(precision2 * 100, 2), "%")

print(predictions2)

In [None]:
# Comparando as taxas de acerto e precisão
if accuracy2 > accuracy1:
    print("\nRandom Forest obteve um desempenho melhor.")
elif accuracy2 == accuracy1 and precision2 > precision1:
    print("\nRandom Forest obteve um desempenho igual em acurácia, mas melhor em precisão.")
else:
    print("\nÁrvore de Decisão obteve um desempenho melhor ou igual.")

In [None]:
# Contagem das previsões para cada classe
contagem_predicoes_modelo1 = pd.Series(predictions1).value_counts()
contagem_predicoes_modelo2 = pd.Series(predictions2).value_counts()

# Exibição das contagens
print("Contagem de previsões para Árvore de Decisão:")
print(contagem_predicoes_modelo1)

print("\nContagem de previsões para Random Forest:")
print(contagem_predicoes_modelo2)

In [None]:
# Estimativas na base de teste para os modelos
predictions1 = model1.predict(X_teste)
predictions2 = model2.predict(X_teste)


In [None]:
# Matrizes de Confusão
conf_matrix1 = confusion_matrix(Y_teste, predictions1)
conf_matrix2 = confusion_matrix(Y_teste, predictions2)

# Exibição das matrizes de confusão
print("Matriz de Confusão para Árvore de Decisão:")
print(conf_matrix1)

print("\nMatriz de Confusão para Random Forest:")
print(conf_matrix2)