<a href="https://colab.research.google.com/github/chbinousamy/mlops/blob/main/MLOps.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
pip install numpy scikit-learn

Ce code entraîne plusieurs modèles pour chaque pli de validation croisée avec ***Arbre de décision, Régression logistique, Forêt aléatoire, et Gradient boosting*** comme exemple de modèle. Pour chaque pli, il sépare les données en ensembles d'entraînement et de test, entraîne le modèle sur les données d'entraînement, fait des prédictions sur les données de test, puis, pour chaque modèles et chaque pli, évalue les performances du modèle en calculant les metriques ***accuracy, recall, precision, f1, auc_roc, mse, mae et logloss***.

In [9]:
import numpy as np
from sklearn.pipeline import Pipeline

from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, mean_squared_error, mean_absolute_error, log_loss


# Générer des données d'exemple
data = np.random.rand(500, 10)  # 500 échantillons, 10 features
labels = np.random.randint(2, size=500)  # Étiquettes binaires aléatoires

# Définir le nombre de plis pour la validation croisée
num_folds = 5

# Générer des indices aléatoires pour les échantillons
indices = np.random.permutation(len(data))

# Créer les objets KFold pour la validation croisée
kf = KFold(n_splits=num_folds)

models_names = ["Arbre de décision", "Régression logistique", "Forêt aléatoire", "Gradient boosting"]
# Contient les trois pipelines (une pour chaque modèle)
pipelines = [
    Pipeline(steps=[('classifier', DecisionTreeClassifier())]),
    Pipeline(steps=[('classifier', LogisticRegression())]),
    Pipeline(steps=[('classifier', RandomForestClassifier())]),
    Pipeline(steps=[('classifier', GradientBoostingClassifier())])
]

# Entraîner un modèle pour chaque pli de validation croisée
for fold, (train_indices, test_indices) in enumerate(kf.split(indices), 1):
    print(f"Fold {fold}:")
    print("Indices de test :", test_indices)

    # Séparer les données en ensembles d'entraînement et de test
    X_train, X_test = data[train_indices], data[test_indices]
    y_train, y_test = labels[train_indices], labels[test_indices]

    # Entraîner un modèle
    for model, name in zip(pipelines, models_names):
        model.fit(X_train, y_train)
        predictions = model.predict(X_test)

        # Faire des prédictions sur les données de test
        predictions = model.predict(X_test)

        # Calculer l'accuracy
        accuracy = accuracy_score(y_test, predictions)

        # Calculer le recall
        recall = recall_score(y_test, predictions, average='binary')  # Pour une classification binaire

        # Calculer la precision
        precision = precision_score(y_test, predictions, average='binary')  # Pour une classification binaire

        # Calculer le F1-score
        f1 = f1_score(y_test, predictions, average='binary')  # Pour une classification binaire

        # Calculer le AUC-ROC (seulement pour les problèmes de classification binaire ou de probabilité)
        auc_roc = roc_auc_score(y_test, predictions)

        # Calculer le MSE
        mse = mean_squared_error(y_test, predictions)

        # Calculer le MAE
        mae = mean_absolute_error(y_test, predictions)

        # Calculer le Log Loss (seulement pour les problèmes de classification)
        logloss = log_loss(y_test, predictions)

        print("Model:", name)
        print("Accuracy:", accuracy)
        print("Recall:", recall)
        print("Precision:", precision)
        print("F1-score:", f1)
        print("AUC-ROC:", auc_roc)
        print("MSE:", mse)
        print("MAE:", mae)
        print("Log Loss:", logloss)
        print()

Fold 1:
Indices de test : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
Model: Arbre de décision
Accuracy: 0.49
Recall: 0.425531914893617
Precision: 0.45454545454545453
F1-score: 0.43956043956043955
AUC-ROC: 0.48635086310718584
MSE: 0.51
MAE: 0.51
Log Loss: 18.382263228449748

Model: Régression logistique
Accuracy: 0.44
Recall: 0.3404255319148936
Precision: 0.3902439024390244
F1-score: 0.36363636363636365
AUC-ROC: 0.43436370935367324
MSE: 0.56
MAE: 0.56
Log Loss: 20.184445897905604

Model: Forêt aléatoire
Accuracy: 0.5
Recall: 0.425531914893617
Precision: 0.46511627906976744
F1-score: 0.4444444444444445
AUC-ROC: 0.4957848253713368
MSE: 0.5
MAE: 0.5
Log Loss: 18.021826694558573

Model: Gradient boosting
Accuracy: 0.48
Recall: 0.340

In [7]:
!curl ipinfo.io

{
  "ip": "34.86.91.232",
  "hostname": "232.91.86.34.bc.googleusercontent.com",
  "city": "Washington",
  "region": "Washington, D.C.",
  "country": "US",
  "loc": "38.8951,-77.0364",
  "org": "AS396982 Google LLC",
  "postal": "20004",
  "timezone": "America/New_York",
  "readme": "https://ipinfo.io/missingauth"
}