In [1]:
# Importando as bibliotecas necessárias

## Para ignorar os mensagens de aviso
import warnings
warnings.filterwarnings("ignore")

## Para manipulação dos dataframes
import pandas as pd

## Para normalização dos dados
from sklearn.preprocessing import MinMaxScaler

## Para separação dos conjuntos de dados de treino e teste
from sklearn.model_selection import train_test_split

## Para importação dos diferentes modelos de predição
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

## Para avaliação dos diferentes modelos de predição
from sklearn.metrics import f1_score

In [2]:
# Carregando a base de dados
##Fonte: https://www.kaggle.com/datasets/iammustafatz/diabetes-prediction-dataset?resource=download
df = pd.read_csv('diabetes_prediction_dataset.csv')

In [3]:
# Ajustando a base de dados para a aplicação dos modelos de predição
df1 = df.query('smoking_history != "No Info"')
#df1.columns = ['Gênero','Idade','Hipertensão','Cardipatia','Tabagismo','IMC','HbA1c','Glicose','Diabetes']
df1 = pd.get_dummies(df1, columns=['gender', 'smoking_history'], prefix='ctg', dtype=int)

In [4]:
#Noprmalização dos dados pelo método min mas scaler

colunas_target = ['bmi','HbA1c_level','blood_glucose_level']

scaler = MinMaxScaler()

df1[colunas_target] = scaler.fit_transform(df1[colunas_target])
df1[colunas_target] = round(df1[colunas_target],3)

In [5]:
#Separando o dataset em conjunto de atributos preditivos e coluna alvo
X = df1.drop(columns='diabetes')
y = df1['diabetes']
y = y.to_frame()

In [6]:
#Separando o dataset em conjunto de treino e teste dos modelos
X_treino, X_teste = train_test_split(
    X,
    test_size=0.3,    # 30% dos dados para teste
    random_state=42,  # semente para reprodutibilidade
    shuffle=True      # embaralha os dados
)

y_treino, y_teste = train_test_split(
    y,
    test_size=0.3,    # 30% dos dados para teste
    random_state=42,  # semente para reprodutibilidade
    shuffle=True      # embaralha os dados
)

In [7]:
# Criação dos modelos de aprendizado de máquina
logreg = LogisticRegression()
clf = DecisionTreeClassifier()
svc = SVC()
rf = RandomForestClassifier(n_estimators=100, random_state=42)
knn = KNeighborsClassifier(n_neighbors=5)

In [8]:
#Treinamento e avaliaçãop do modelo de Regressão logística
logreg.fit(X_treino,y_treino)
y_pred_a = logreg.predict(X_teste)
F1_a = round(f1_score(y_teste, y_pred_a),3)

In [9]:
#Treinamento e avaliaçãop da modelo de Árvore de Decisão
clf.fit(X_treino,y_treino)
y_pred_b = clf.predict(X_teste)
F1_b = round(f1_score(y_teste, y_pred_b),3)

In [10]:
#Treinamento e avaliaçãop da modelo de Árvore de Decisão
svc.fit(X_treino,y_treino)
y_pred_c = svc.predict(X_teste)
F1_c = round(f1_score(y_teste, y_pred_c),3)

In [11]:
#Treinamento e avaliaçãop da modelo Random Forest
rf.fit(X_treino,y_treino)
y_pred_d = rf.predict(X_teste)
F1_d = round(f1_score(y_teste, y_pred_d),3)

In [12]:
#Treinamento e avaliaçãop da modelo K-Nearest Neighbors
knn.fit(X_treino,y_treino)
y_pred_e = knn.predict(X_teste)
F1_e = round(f1_score(y_teste, y_pred_e),3)

In [13]:
#Apresentação dos resultados de F1-Score de cada modelo, para avaliação.
data = {
    'Modelo' : ['Regressão logística','Árvore de Decisão','SVC','Random Forest','K-Nearest Neighbors'],
    'F1-Score' : [F1_a,F1_b, F1_c ,F1_d,F1_e]
}

df2 = pd.DataFrame(data)

df2

Unnamed: 0,Modelo,F1-Score
0,Regressão logística,0.732
1,Árvore de Decisão,0.736
2,SVC,0.0
3,Random Forest,0.8
4,K-Nearest Neighbors,0.493
