In [1]:
# bilbiotecas para realizar operações sobre os dados
import pandas as pd
import numpy as np

# bibliotecas de Aprendizagem de máquina
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix

# Importando as técnicas de aprendizagem (Classificadores)
from sklearn.tree import DecisionTreeClassifier #árvore de decisão
from sklearn.svm import SVC  # Support Vector Machine (SVM)
from sklearn.ensemble import RandomForestClassifier #RandomForestClassifier
from sklearn.linear_model import LogisticRegression #LogisticRegression

In [2]:
dados = pd.read_csv("calculo_renal.csv", sep=',')
dados.head(15)

Unnamed: 0,id,gravidade,ph,osmo,cond,ureia,calcio,saida
0,0,1.013,6.19,443,14.8,124,1.45,0
1,1,1.025,5.4,703,23.6,394,4.18,0
2,2,1.009,6.13,371,24.5,159,9.04,0
3,3,1.021,4.91,442,20.8,398,6.63,1
4,4,1.021,5.53,874,17.8,385,2.21,1
5,5,1.025,6.9,947,28.4,395,2.64,1
6,6,1.008,5.09,371,15.5,159,2.17,1
7,7,1.015,5.53,450,8.1,170,1.16,0
8,8,1.025,7.38,736,25.3,418,1.52,0
9,9,1.017,6.61,527,20.0,75,4.49,1


In [3]:
dados.sample(15)

Unnamed: 0,id,gravidade,ph,osmo,cond,ureia,calcio,saida
281,281,1.017,5.56,461,17.8,187,6.99,1
31,31,1.008,6.81,694,17.7,311,1.02,0
336,336,1.01,6.13,343,9.9,126,1.16,0
223,223,1.019,5.47,416,12.6,178,0.81,0
80,80,1.01,7.2,343,11.3,126,1.06,0
243,243,1.014,6.28,541,20.9,197,3.16,1
39,39,1.01,6.63,443,17.9,124,1.05,0
238,238,1.025,5.53,907,17.8,448,8.48,1
194,194,1.012,4.81,567,21.4,214,1.27,0
155,155,1.017,5.47,684,27.6,284,5.38,0


In [4]:
dados['saida'].value_counts()

0    230
1    184
Name: saida, dtype: int64

In [5]:
# Separação aleatória em conjuntos de treino e teste  (Treino = Para etapa de aprendizagem;  Teste = Para avaliar  o desempenho do modelo em novos dados)
array = dados.values
X = array[:, 0:7].astype(float)  #variáveis explicativas
Y = array[:, 7]  #variável resposta
tamanho_teste = 0.3
tamanho_treino = 0.7

np.random.seed(7) #fixar aleatoriedade para reproução
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, train_size=tamanho_treino)

In [6]:
X_treino.shape

(289, 7)

In [7]:
X_teste.shape

(125, 7)

In [8]:
Y_treino.shape

(289,)

In [9]:
Y_teste.shape

(125,)

In [10]:
# Treinando modelos

# Preparação do modelo 1 =  Árvore de Decisão
model1 = DecisionTreeClassifier()
model1.fit(X_treino, Y_treino) #FIT() = TREINO

# Preparação do modelo 2 = Support Vector Machine (SVM)
model2 = SVC()
model2.fit(X_treino, Y_treino)  # FIT() = TREINO

# Preparação do modelo 3 = Random Forest Classifier
model3 = RandomForestClassifier()
model3.fit(X_treino, Y_treino)  # FIT() = TREINO

# Preparação do modelo 4 = Regressão Logística
model4 = LogisticRegression(max_iter=1000)  # Aumentando o número máximo de iterações
model4.fit(X_treino, Y_treino)  # FIT() = TREINO

In [18]:
# Estimativas na base de teste (dados não vistos/futuros)
#ACURÁCIA = (VP + VN) / TOTAL DE OBSERVAÇÕES

predictions1 = model1.predict(X_teste)
accuracy1 = accuracy_score(Y_teste, predictions1)
precision1 = precision_score(Y_teste, predictions1)
recall1 = recall_score(Y_teste, predictions1)
print("Avaliação do modelo com Árvore de Decisão:")
print("Acurácia: ", round(accuracy1 * 100, 2), "%")
print("Precisão: ", round(precision1 * 100, 2), "%")
print("Sensibilidade: ", round(recall1 * 100, 2), "%")
print()


#print(predictions1)

predictions2 = model2.predict(X_teste)
accuracy2 = accuracy_score(Y_teste, predictions2)
precision2 = precision_score(Y_teste, predictions2)
recall2 = recall_score(Y_teste, predictions2)
print("Avaliação do modelo com SVM:")
print("Acurácia: ", round(accuracy2 * 100, 2), "%")
print("Precisão: ", round(precision2 * 100, 2), "%")
print("Sensibilidade: ", round(recall2 * 100, 2), "%")
print()

#print(predictions2)

predictions3 = model3.predict(X_teste)
accuracy3 = accuracy_score(Y_teste, predictions3)
precision3 = precision_score(Y_teste, predictions3)
recall3 = recall_score(Y_teste, predictions3)
print("Avaliação do modelo com Random Forest Classifier:")
print("Acurácia: ", round(accuracy3 * 100, 2), "%")
print("Precisão: ", round(precision3 * 100, 2), "%")
print("Sensibilidade: ", round(recall3 * 100, 2), "%")
print()

#print(predictions3)

predictions4 = model4.predict(X_teste)
accuracy4 = accuracy_score(Y_teste, predictions4)
precision4 = precision_score(Y_teste, predictions4)
recall4 = recall_score(Y_teste, predictions4)
print("Avaliação do modelo com Regressão Logística:")
print("Acurácia: ", round(accuracy4 * 100, 2), "%")
print("Precisão: ", round(precision4 * 100, 2), "%")
print("Sensibilidade: ", round(recall4 * 100, 2), "%")

#print(predictions4)

Avaliação do modelo com Árvore de Decisão:
Acurácia:  64.0 %
Precisão:  63.64 %
Sensibilidade:  66.67 %

Avaliação do modelo com SVM:
Acurácia:  56.8 %
Precisão:  57.89 %
Sensibilidade:  52.38 %

Avaliação do modelo com Random Forest Classifier:
Acurácia:  69.6 %
Precisão:  71.93 %
Sensibilidade:  65.08 %

Avaliação do modelo com Regressão Logística:
Acurácia:  68.8 %
Precisão:  76.09 %
Sensibilidade:  55.56 %


In [19]:
conf1 = confusion_matrix(Y_teste, predictions1) #modelo 1
print('Modelo 01: Árvore de Decisão')
print(conf1)

conf2 = confusion_matrix(Y_teste, predictions2) #modelo 2
print('Modelo 02: SVM')
print(conf2)

conf3 = confusion_matrix(Y_teste, predictions3) #modelo 3
print('Modelo 03: Random Forest Classifier')
print(conf3)

conf4 = confusion_matrix(Y_teste, predictions4) #modelo 4
print('Modelo 04: Regressão Logística')
print(conf4)

Modelo 01: Árvore de Decisão
[[38 24]
 [21 42]]
Modelo 02: SVM
[[38 24]
 [30 33]]
Modelo 03: Random Forest Classifier
[[46 16]
 [22 41]]
Modelo 04: Regressão Logística
[[51 11]
 [28 35]]


Qual modelo acertou mais a classe 0?

O modelo que mais acerto o valor 0 (Verdadeiro Negativo), foi o modelo de Árvore de Decisão, com 42 acertos.

Qual modelo acertou mais a classe 1?

O modelo que mais acerto o valor 1 (Verdadeiro Positivo), foi o modelo de Regressão Logística, com 51 acertos.

Qual modelo obteve maior precisão?

Foi o modelo de Regressão Logística, com 76.09%

Qual modelo obteve maior acurácia?

Foi o modelo de Random Forest Classifier, com 69.6%

Qual modelo você implementaria no sistema de detecção de cálculo renal, com base nos resultados?

Acredito que utilizaria o Random Forest Classifier, pois é o que possui menos erros: 22 + 16 = 38 erros. E apesar de não ser o melhor nas estatisticas, acredito que seja o melhor modelo nessa questão, devido a quantidade de erros ser inferior aos demais.