# Entraîner un modèle de classification pour le diabète

Ce notebook lit un fichier CSV et entraîne un modèle pour prédire le diabète chez les patients. Les données sont déjà prétraitées et ne demandent aucune ingénierie de caractéristiques.

Les méthodes d’évaluation ont été utilisées pendant l’expérimentation pour déterminer si le modèle était suffisamment juste. En avançant, il est préférable d’utiliser la fonctionnalité de journalisation automatique de MLflow pour déployer plus facilement le modèle par la suite.

## Lire les données d’un fichier local



In [None]:
## Fractionner les données

## Entraîner le modèle

In [None]:
## Évaluer le modèle

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

## Train model

In [None]:
from sklearn.linear_model import LogisticRegression

print("Training model...")
model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)

## Evaluate model

In [None]:
import numpy as np

y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)

print('Accuracy:', acc)

In [None]:
from sklearn.metrics import roc_auc_score

y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])

print('AUC: ' + str(auc))

In [None]:
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

# plot ROC curve
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
fig = plt.figure(figsize=(6, 4))
# Plot the diagonal 50% line
plt.plot([0, 1], [0, 1], 'k--')
# Plot the FPR and TPR achieved by our model
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')