# Module 7: Aspects Avancés et Bonnes Pratiques

## 7.1 Sélection et Validation de Modèles

### Méthodes de rééchantillonnage

Les méthodes de rééchantillonnage sont des techniques utilisées pour estimer la performance d'un modèle de Machine Learning en créant plusieurs échantillons à partir des données d'entraînement. Ces méthodes permettent d'obtenir une estimation plus robuste de la performance du modèle et de réduire le risque de surapprentissage.

### Bootstrap

Le bootstrap est une méthode de rééchantillonnage qui consiste à créer plusieurs échantillons en tirant aléatoirement avec remplacement à partir des données d'entraînement. Chaque échantillon bootstrap a la même taille que les données d'entraînement, mais certaines observations peuvent être répétées et d'autres peuvent être absentes.

Le bootstrap est utilisé pour estimer la variance et les intervalles de confiance des estimateurs statistiques, et pour évaluer la performance des modèles de Machine Learning.

Voici un exemple en Python utilisant `scikit-learn` :

In [1]:
# filepath: c:\Users\michel.bertrand.mama\Documents\AYNID\advanced_ml_best_practices.ipynb
from sklearn.utils import resample
import numpy as np

# Générer des données aléatoires pour l'exemple
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# Créer un échantillon bootstrap
n_iterations = 10
n_size = int(len(data))
values = []
for i in range(n_iterations):
    sample = resample(data, n_samples=n_size)
    values.append(np.mean(sample))
    print(f"Bootstrap Sample {i+1}: {sample}")

print(f"Mean of Bootstrap Means: {np.mean(values)}")

Bootstrap Sample 1: [3 1 8 5 8 3 1 9 6 6]
Bootstrap Sample 2: [10  1  5  4  7  2  8  2  1 10]
Bootstrap Sample 3: [ 4  4 10 10  7  2  2  9  9  1]
Bootstrap Sample 4: [ 9 10  7  5  9  7  6  7  7  3]
Bootstrap Sample 5: [ 9 10  7  2  6  5  3  6  9  5]
Bootstrap Sample 6: [5 2 7 6 5 1 8 7 4 4]
Bootstrap Sample 7: [ 7  5  8 10  3  6  6  7  1  6]
Bootstrap Sample 8: [4 8 9 9 2 8 2 5 5 3]
Bootstrap Sample 9: [ 5 10  8  4 10  8  2  9  1  2]
Bootstrap Sample 10: [ 4  2  1  5  2  5 10  8  7 10]
Mean of Bootstrap Means: 5.659999999999999


### Validation croisée k-fold

La validation croisée k-fold est une méthode de rééchantillonnage qui consiste à diviser les données d'entraînement en k sous-ensembles (folds) de taille égale. Le modèle est entraîné sur k-1 folds et évalué sur le fold restant. Ce processus est répété k fois, chaque fois avec un fold différent pour l'évaluation. Les résultats sont ensuite moyennés pour obtenir une estimation de la performance du modèle.

La validation croisée k-fold est utilisée pour évaluer la performance des modèles de Machine Learning et pour comparer différents modèles.

Voici un exemple en Python utilisant `scikit-learn` :

In [2]:
# filepath: c:\Users\michel.bertrand.mama\Documents\AYNID\advanced_ml_best_practices.ipynb
from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

# Générer des données aléatoires pour l'exemple
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [5, 6], [7, 8], [5, 6], [7, 8]])
y = np.array([1, 2, 3, 4, 5, 6, 7, 8])

# Créer un objet KFold avec k=2
kf = KFold(n_splits=2)

# Itérer sur les folds
for train_index, test_index in kf.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # Entraîner un modèle de régression linéaire
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Faire des prédictions
    y_pred = model.predict(X_test)

    # Calculer l'erreur quadratique moyenne
    mse = mean_squared_error(y_test, y_pred)
    print("MSE:", mse)

TRAIN: [4 5 6 7] TEST: [0 1 2 3]
MSE: 5.000000000000002
TRAIN: [0 1 2 3] TEST: [4 5 6 7]
MSE: 5.0000000000000036


### Critères de sélection

Les critères de sélection sont des mesures utilisées pour comparer différents modèles de Machine Learning et choisir le meilleur modèle. Les critères courants comprennent :

*   **Précision (Accuracy) :** Le pourcentage de prédictions correctes.
*   **Précision (Precision) :** La proportion de prédictions positives correctes parmi toutes les prédictions positives.
*   **Rappel (Recall) :** La proportion de vrais positifs correctement identifiés.
*   **F1-score :** La moyenne harmonique de la précision et du rappel.
*   **Erreur quadratique moyenne (MSE) :** La moyenne des carrés des erreurs entre les valeurs prédites et les valeurs réelles.
*   **Erreur absolue moyenne (MAE) :** La moyenne des valeurs absolues des erreurs.
*   **Coefficient de détermination (R²) :** La proportion de la variance de la variable cible expliquée par le modèle.

### AIC, BIC

AIC (Akaike Information Criterion) et BIC (Bayesian Information Criterion) sont des critères d'information utilisés pour sélectionner des modèles statistiques. Ils mesurent la qualité d'un modèle en tenant compte de sa complexité.

*   **AIC :** AIC = 2k - 2ln(L), où k est le nombre de paramètres du modèle et L est la vraisemblance maximale du modèle.
*   **BIC :** BIC = kln(n) - 2ln(L), où k est le nombre de paramètres du modèle, n est le nombre d'observations, et L est la vraisemblance maximale du modèle.

Les modèles avec des valeurs AIC ou BIC plus faibles sont préférés.

### Validation sur hold-out set

La validation sur hold-out set consiste à diviser les données en deux sous-ensembles : un ensemble d'entraînement et un ensemble de test (hold-out set). Le modèle est entraîné sur l'ensemble d'entraînement et évalué sur l'ensemble de test.

La validation sur hold-out set est utilisée pour estimer la performance du modèle sur des données non vues et pour détecter le surapprentissage.

## 7.2 Ingénierie des Features

### Encodage de variables catégorielles

L'encodage de variables catégorielles est le processus de transformation des variables catégorielles en variables numériques, car la plupart des modèles de Machine Learning ne peuvent pas traiter directement les variables catégorielles.

Les méthodes d'encodage courantes comprennent :

*   **One-hot encoding :** Créer une variable binaire pour chaque catégorie.
*   **Label encoding :** Attribuer un entier unique à chaque catégorie.
*   **Ordinal encoding :** Attribuer un entier à chaque catégorie en fonction de son ordre.

Voici un exemple en Python utilisant `pandas` :

In [None]:
# filepath: c:\Users\michel.bertrand.mama\Documents\AYNID\advanced_ml_best_practices.ipynb
import pandas as pd

# Créer un DataFrame avec une variable catégorielle
data = {'couleur': ['rouge', 'vert', 'bleu', 'rouge', 'vert']}
df = pd.DataFrame(data)

# One-hot encoding
df_one_hot = pd.get_dummies(df, columns=['couleur'])
print("One-hot encoding:\n", df_one_hot)

# Label encoding
df['couleur_encoded'] = df['couleur'].astype('category').cat.codes
print("\nLabel encoding:\n", df)

One-hot encoding:
    couleur_bleu  couleur_rouge  couleur_vert
0         False           True         False
1         False          False          True
2          True          False         False
3         False           True         False
4         False          False          True

Label encoding:
   couleur  couleur_encoded
0   rouge                1
1    vert                2
2    bleu                0
3   rouge                1
4    vert                2


### Création de features polynomiales

La création de features polynomiales consiste à créer de nouvelles features en combinant les features existantes à l'aide de fonctions polynomiales (par exemple, x², x*y). Cela permet de capturer des relations non linéaires entre les features et la variable cible.

Voici un exemple en Python utilisant `scikit-learn` :

In [4]:
# filepath: c:\Users\michel.bertrand.mama\Documents\AYNID\advanced_ml_best_practices.ipynb
from sklearn.preprocessing import PolynomialFeatures
import numpy as np

# Générer des données aléatoires pour l'exemple
X = np.array([[1, 2], [3, 4], [5, 6]])

# Créer un objet PolynomialFeatures avec degré 2
poly = PolynomialFeatures(degree=2)

# Transformer les données
X_poly = poly.fit_transform(X)
print("Features polynomiales:\n", X_poly)

Features polynomiales:
 [[ 1.  1.  2.  1.  2.  4.]
 [ 1.  3.  4.  9. 12. 16.]
 [ 1.  5.  6. 25. 30. 36.]]


### Selection de features

La sélection de features est le processus de sélection d'un sous-ensemble de features pertinentes pour un modèle de Machine Learning. Elle peut être utilisée pour simplifier le modèle, réduire le temps de calcul, et améliorer la performance.

### Méthodes filter, wrapper, embedded

Il existe trois types de méthodes de sélection de features :

*   **Méthodes filter :** Sélectionner les features en fonction de leurs propriétés statistiques (par exemple, la corrélation avec la variable cible).
*   **Méthodes wrapper :** Sélectionner les features en évaluant la performance du modèle avec différents sous-ensembles de features.
*   **Méthodes embedded :** Sélectionner les features dans le cadre de l'entraînement du modèle (par exemple, en utilisant la régularisation L1).

Voici un exemple en Python utilisant `scikit-learn` :

In [5]:
# filepath: c:\Users\michel.bertrand.mama\Documents\AYNID\advanced_ml_best_practices.ipynb
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.linear_model import Lasso
from sklearn.datasets import load_iris
import numpy as np

# Charger les données Iris
iris = load_iris()
X, y = iris.data, iris.target

# Méthode filter (SelectKBest avec chi2)
select_k_best = SelectKBest(score_func=chi2, k=2)
X_filter = select_k_best.fit_transform(X, y)
print("Features sélectionnées par filter:\n", X_filter)

# Méthode embedded (Lasso)
lasso = Lasso(alpha=0.1)
lasso.fit(X, y)
print("\nCoefficients Lasso:\n", lasso.coef_)

Features sélectionnées par filter:
 [[1.4 0.2]
 [1.4 0.2]
 [1.3 0.2]
 [1.5 0.2]
 [1.4 0.2]
 [1.7 0.4]
 [1.4 0.3]
 [1.5 0.2]
 [1.4 0.2]
 [1.5 0.1]
 [1.5 0.2]
 [1.6 0.2]
 [1.4 0.1]
 [1.1 0.1]
 [1.2 0.2]
 [1.5 0.4]
 [1.3 0.4]
 [1.4 0.3]
 [1.7 0.3]
 [1.5 0.3]
 [1.7 0.2]
 [1.5 0.4]
 [1.  0.2]
 [1.7 0.5]
 [1.9 0.2]
 [1.6 0.2]
 [1.6 0.4]
 [1.5 0.2]
 [1.4 0.2]
 [1.6 0.2]
 [1.6 0.2]
 [1.5 0.4]
 [1.5 0.1]
 [1.4 0.2]
 [1.5 0.2]
 [1.2 0.2]
 [1.3 0.2]
 [1.4 0.1]
 [1.3 0.2]
 [1.5 0.2]
 [1.3 0.3]
 [1.3 0.3]
 [1.3 0.2]
 [1.6 0.6]
 [1.9 0.4]
 [1.4 0.3]
 [1.6 0.2]
 [1.4 0.2]
 [1.5 0.2]
 [1.4 0.2]
 [4.7 1.4]
 [4.5 1.5]
 [4.9 1.5]
 [4.  1.3]
 [4.6 1.5]
 [4.5 1.3]
 [4.7 1.6]
 [3.3 1. ]
 [4.6 1.3]
 [3.9 1.4]
 [3.5 1. ]
 [4.2 1.5]
 [4.  1. ]
 [4.7 1.4]
 [3.6 1.3]
 [4.4 1.4]
 [4.5 1.5]
 [4.1 1. ]
 [4.5 1.5]
 [3.9 1.1]
 [4.8 1.8]
 [4.  1.3]
 [4.9 1.5]
 [4.7 1.2]
 [4.3 1.3]
 [4.4 1.4]
 [4.8 1.4]
 [5.  1.7]
 [4.5 1.5]
 [3.5 1. ]
 [3.8 1.1]
 [3.7 1. ]
 [3.9 1.2]
 [5.1 1.6]
 [4.5 1.5]
 [4.5 1.6]
 [4.7 1.5]
 [4.4 1

## 7.3 Mise en Production

### Pipeline de ML

Un pipeline de ML est un ensemble d'étapes de traitement des données et d'entraînement du modèle qui sont exécutées de manière séquentielle. Il permet d'automatiser le processus de Machine Learning et de garantir la reproductibilité des résultats.

Les pipelines de ML comprennent généralement les étapes suivantes :

*   **Collecte des données :** Rassembler les données nécessaires pour entraîner le modèle.
*   **Préparation des données :** Nettoyer, transformer et préparer les données pour l'entraînement.
*   **Sélection des features :** Sélectionner un sous-ensemble de features pertinentes.
*   **Entraînement du modèle :** Utiliser les données d'entraînement pour apprendre les paramètres du modèle.
*   **Évaluation du modèle :** Mesurer la performance du modèle sur des données de test.
*   **Déploiement du modèle :** Mettre le modèle en production pour faire des prédictions sur de nouvelles données.

Voici un exemple en Python utilisant `scikit-learn` :

In [None]:
# filepath: c:\Users\michel.bertrand.mama\Documents\AYNID\advanced_ml_best_practices.ipynb
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# Charger les données Iris
iris = load_iris()
X, y = iris.data, iris.target

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Créer un pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', LogisticRegression())
])

# Entraîner le pipeline
pipeline.fit(X_train, y_train)

# Évaluer le pipeline
accuracy = pipeline.score(X_test, y_test)
print("Précision du pipeline:", accuracy)

### Monitoring des modèles

Le monitoring des modèles est le processus de suivi de la performance des modèles de Machine Learning en production. Il permet de détecter les problèmes de performance et de s'assurer que les modèles continuent de fournir des prédictions précises.

Le monitoring des modèles comprend généralement les étapes suivantes :

*   **Collecte des données :** Rassembler les données de production utilisées pour faire des prédictions.
*   **Calcul des métriques de performance :** Mesurer la performance du modèle sur les données de production.
*   **Détection des anomalies :** Identifier les problèmes de performance (par exemple, une baisse de la précision).
*   **Investigation des causes :** Déterminer les causes des problèmes de performance (par exemple, une dérive des données).
*   **Correction des problèmes :** Prendre des mesures pour corriger les problèmes de performance (par exemple, re-entraîner le modèle).

### Re-entraînement et dérive des données

La dérive des données (data drift) est un phénomène qui se produit lorsque la distribution des données de production change au fil du temps. Cela peut entraîner une baisse de la performance des modèles de Machine Learning.

Le re-entraînement des modèles est le processus de mise à jour des paramètres du modèle en utilisant de nouvelles données. Il permet de maintenir la performance du modèle face à la dérive des données.

La fréquence de re-entraînement dépend de la vitesse à laquelle les données changent et de l'impact de la dérive des données sur la performance du modèle.