# <u>MODULE 1</u> : PANORAMA DES FRAMEWORKS

## 1. Introduction

Un **framework** est un ensemble cohérent de composants logiciels (fonctions, classes,
interfaces) facilitant la conception, l’entraînement, l’évaluation et le déploiement de mo-
dèles d’apprentissage. Il permet de simplifier la mise en œuvre d’algorithmes complexes
tout en assurant reproductibilité et maintenance.

<div style="
    border: 2px solid #007BFF; /* Contour bleu */
    padding: 15px;
    border-radius: 5px;
    background-color:rgb(38, 40, 43); /* Fond gris clair */
">
    <h2 style="color:rgb(152, 165, 179); text-align: center; border:2px solidrgb(104, 108, 111)">Objectifs du module</h2>
<p>— Comprendre le rôle des frameworks en Machine Learning.</p>
<p>— Identifier les bibliothèques classiques et celles de Deep Learning.</p>
<p>— Comparer les frameworks selon performance, communauté, documentation,
et facilité d’usage.</p>
<p>— Initier une démarche expérimentale comparative avec des cas pratiques.</p>
</div>


## 2. Définition et rôle d’un framework de Machine Learning

*Un **framework de Machine Learning** est une plateforme logicielle intégrée regroupant bibliothèques, interfaces et outils pour concevoir, entraîner, évaluer et déployer des modèles d’apprentissage automatique ou profond.*

* **`Objectifs`**

    * *Accélérer le développement*
    * *Simplifier les tâches techniques répétitives*
    * *Garantir la reproductibilité et faciliter la maintenance* <br><br>
* **`Rôle opérationnel`**

    * *Abstraction*
    * *Implémentations optimisées*
    * *Interopérabilité*
    * *Support matériel*

<u>**`Exemple avec Scikit-learn`**</u>

```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
X, y = iris.data, iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(f"Précision du model: {accuracy:.2f}")

```

## 3. Catalogue des Frameworks de Machine Learning

### 3.1 Bibliothèques classiques (prototypage rapide)

#### **`Scikit-learn`**

*Bibliothèque Python de référence pour l’apprentissage automatique
classique. Elle repose sur `NumPy`, `SciPy` et `Pandas`, et offre une API uniforme pour des tâches comme la **régression, la classification, le clustering, la réduction de dimension, etc.***

In [1]:
from sklearn.linear_model import LinearRegression

# Importation de NumPy pour manipuler des tableaux num riques
import numpy as np

# Création de l’ensemble des données d’entrée(features)
X = np.array([[1], [2], [3], [4], [5]]) # 5 observations, une seule variable explicative

# Définition de la variable cible (target)
y = np.array([1.5, 3.5, 5.5, 7.5, 9.5]) # Valeurs correspondantes à prédire

# Instanciation du modèle de régression linéaire
model = LinearRegression()

# Entrainement du model (ajustement des coefficients)
model.fit(X, y)

# Prédiction sur une nouvelle donnée (x = 6)
y_pred = model.predict(np.array([[6]]))

# Affichage de la pr diction
print("Prédiction pour x=6 :", y_pred)

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

#### **`XGBoost`**

*Implémentation optimisée de l’algorithme de `Gradient Boosting`, particulièrement efficace pour les **données tabulaires**. Il intègre une r**égularisation L1/L2** pour limiter le **surapprentissage** et une **gestion native des valeurs manquantes**.*

In [None]:
# Importation des modules nécessaires
import xgboost as xgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Chargement du jeu de données Iris (classification multiclasse)
iris = load_iris()

# Séparation des données en ensemble d’entra nement et de test
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
test_size=0.3)

# Instanciation du modèle de classification XGBoost
model = xgb.XGBClassifier()

# Entraînement du modèle sur les données d’entraînement
model.fit(X_train, y_train)

# Évaluation de la précision sur les données de test
accuracy = model.score(X_test, y_test)
print(" Précision :", accuracy)

 Précision : 0.9111111111111111


#### **`LightGBM`**

*Version accélérée du `boosting` utilisant des histogrammes pour diviser les features. Il adopte une `croissance des arbres leaf-wise`, ce qui améliore l’**efficacité** sur de très grands jeux de données.*

In [None]:
# Importation des bibliothèques
import lightgbm as lgb
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# Chargement du jeu de données Boston (régression sur prix immobiliers)
data = load_boston()

# S paration des données en ensembles d’entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.3)

# Instanciation du modèle de régression LightGBM
model = lgb.LGBMRegressor()

# Entra nement du modèle
model.fit(X_train, y_train)

#Évaluation de la performance ( R )
score = model.score(X_test, y_test)
print("Score de régression :", score)

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

#### **Comparaison des bibliothèques classiques**

| Framework      | Scikit-learn            | XGBoost       | LightGBM |
|---------------|-------------------------|--------------|----------|
| **Version**   | 1.3.2                    | -            | -        |
| **Langage**   | Python                   | C++/Python/R | C++/Python/R |
| **Modèles**   | Classiques (régression, SVM...) | Boosting d’arbres | Boosting basé histogrammes |
| **Performance** | Moyenne                 | Très haute   | Très haute |
| **Documentation** | Excellente            | Très bonne   | Bonne |


### 3.2 Principe général du Gradient Boosting

>Le ***Gradient Boosting*** est un algorithme d’ensemble qui combine plusieurs modèles faibles (*généralement des arbres de décision peu profonds*) de manière itérative. <br>Chaque nouveau modèle apprend à corriger les erreurs commises par la somme des modèles précédents.

<u>**Formulation mathématique**</u>

Soit $F_m(x)$ le modèle au pas $m$.<br>
À chaque étape, le modèle est mis à jour selon la règle :

$$
F_m(x) = F_{m-1}(x) + \gamma_m h_m(x)
$$

où :
- $h_m(x)$ est un modèle entraîné à minimiser la fonction de perte résiduelle.
- $\gamma_m$ est obtenu par :

$$
\gamma_m = \arg \min_{\gamma} \sum_{i=1}^{n} L(y_i, F_{m-1}(x_i) + \gamma h_m(x_i))
$$

Cette approche permet de corriger les erreurs des prédictions précédentes et de **renforcer l’apprentissage** à chaque itération.


### 3.3 Comparaison des implémentations de Gradient Boosting

* **Scikit-learn** : API simple, mais moins rapide pour grands volumes.
* **XGBoost** : performance optimisée, prise en charge de la régularisation.
* **LightGBM** : très rapide, mais nécessite un bon réglage sur petits jeux.
* **CatBoost** : gère automatiquement les variables catégorielles sans encodage explicite.

| Critère               | Scikit-learn       | XGBoost       | LightGBM      | CatBoost       |
|-----------------------|-------------------|--------------|--------------|---------------|
| **Croissance d’arbre** | Niveau-par-niveau | Niveau-par-niveau | Feuille-par-feuille | Niveau-par-niveau |
| **Support des catégories** | Manuel           | Partiel       | Manuel       | Automatique   |
| **Vitesse d’exécution** | Moyenne          | Rapide       | Très rapide  | Rapide        |
| **Précision**          | Bonne            | Excellente   | Très bonne   | Excellente    |
| **Valeurs manquantes** | Non gérées       | Gérées       | Gérées       | Gérées        |


### 3.4 Exemple final : Comparaison sur le dataset Iris

**`Exécution multi-modèles sur le dataset Iris`**

In [5]:
# Importation des outils nécessaires
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import GradientBoostingClassifier
import xgboost as xgb
import lightgbm as lgb
import catboost as cb

# Chargement des données
X, y = load_iris(return_X_y=True)

# Découpage du dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Scikit-learn
clf_sk = GradientBoostingClassifier().fit(X_train, y_train)
acc_sk = accuracy_score(y_test, clf_sk.predict(X_test))

# XGBoost
clf_xgb = xgb.XGBClassifier().fit(X_train, y_train)
acc_xgb = accuracy_score(y_test, clf_xgb.predict(X_test))

# LightGBM
clf_lgb = lgb.LGBMClassifier().fit(X_train, y_train)
acc_lgb = accuracy_score(y_test, clf_lgb.predict(X_test))

# CatBoost
clf_cb = cb.CatBoostClassifier(verbose=0).fit(X_train, y_train)
acc_cat = accuracy_score(y_test, clf_cb.predict(X_test))

# Affichage des résultats
print("Scikit-learn:", acc_sk)
print("XGBoost:", acc_xgb)
print("LightGBM:", acc_lgb)
print("CatBoost:", acc_cat)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.002309 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 85
[LightGBM] [Info] Number of data points in the train set: 105, number of used features: 4
[LightGBM] [Info] Start training from score -1.016374
[LightGBM] [Info] Start training from score -1.188224
[LightGBM] [Info] Start training from score -1.098612




Scikit-learn: 1.0
XGBoost: 0.9777777777777777
LightGBM: 0.9777777777777777
CatBoost: 1.0


## 4. Critères de choix d’un framework de Machine Learning

### Critères principaux


**🚀 <u>`Performance computationnelle`</u>** <br>

✅ **Capacité de traitement parallèle**  
Exploitation du **multi-threading** et du **multi-core** pour accélérer l’entraînement.  
👉 **LightGBM, CatBoost** sont optimisés pour CPU multi-core.

✅ **Optimisation mémoire**  
Critère clé pour **traiter de grands datasets sans saturation**.  
👉 **XGBoost, LightGBM** utilisent des techniques avancées de gestion mémoire.

✅ **Support GPU**  
Permet d’accélérer significativement l’entraînement.  
👉 **XGBoost, CatBoost** disposent d’un support GPU.

---

**📚 <u>`Facilité d’apprentissage`</u>**<br>

✅ **Documentation complète et exemples**  
Essentiel pour une adoption rapide.  
👉 **Scikit-learn** excelle par sa documentation pédagogique.

✅ **API claire et uniforme**  
Facilite la prise en main, la maintenance et la reproductibilité.  
👉 **Scikit-learn** offre une interface commune à tous ses algorithmes.

✅ **Communauté active**  
Accès facile aux tutoriels, forums et mises à jour fréquentes.

---

**🔗 <u>`Interopérabilité`</u>**<br>

✅ **Compatibilité avec les pipelines de traitement**  
Intégration fluide avec **pandas, NumPy, et les outils de workflow**.  
👉 **Scikit-learn** propose `sklearn.pipeline` pour gérer les étapes du ML.

✅ **Interopérabilité entre frameworks**  
Possibilité d’exporter les modèles vers des **formats standards (ONNX)**.

✅ **Déploiement et portabilité**  
Export possible vers divers environnements de production.  
👉 **PMML pour certains modèles de boosting**.

---

**🎯 <u>`Objectifs du projet`</u>**<br>

✅ **Prototypage rapide et interprétabilité**  
👉 **Scikit-learn** est idéal pour tester rapidement des algorithmes classiques.

✅ **Modèles performants sur données tabulaires**  
👉 **XGBoost, LightGBM et CatBoost** dominent souvent les compétitions ML.

✅ **Robustesse et gestion des données catégoriques**  
👉 **CatBoost** gère les variables catégoriques nativement, sans pré-traitement.


### Cas pratiques illustratifs

1. **`Développeur souhaitant un prototypage rapide sur données tabulaires`** :<br> *La simplicité d’utilisation et la richesse des algorithmes de scikit-learn en font un choix privilégié. L’absence de GPU n’est pas un frein pour des datasets de taille modérée.*

2. **`Scientifique des données participant à une compétition Kaggle`** : <br>*L’utilisation de frameworks comme XGBoost, LightGBM ou CatBoost est préconisée pour maximiser la performance, grâce à leur capacité à gérer de grands volumes et des données hétérogènes.*

3. **`Projet industriel nécessitant un modèle rapide et efficace`** : <br>*LightGBM, avec sa faible consommation mémoire et son entraînement rapide, est souvent privilégié, notamment dans des environnements contraints en ressources.*

4. **`Projet avec données fortement catégoriques et peu de temps pour le prétraitement`** :<br> *CatBoost offre un avantage certain grâce à sa gestion native des variables catégoriques et sa robustesse aux valeurs manquantes.*

### Tableau comparatif des frameworks de Machine Learning classiques

| Critère                     | Scikit-learn  | XGBoost               | LightGBM               | CatBoost               |
|-----------------------------|--------------|----------------------|----------------------|----------------------|
| **Performance**             | Modérée      | Excellente (CPU, GPU, mono/multi-thread) | Excellente (CPU multi-core, GPU) | Très bonne (CPU, GPU) |
| **Facilité d’apprentissage** | Excellente (API simple) | Bonne (API détaillée) | Bonne (API similaire à XGBoost) | Bonne (API intuitive) |
| **Gestion des données catégoriques** | Limitée | Moyenne (pré-traitement nécessaire) | Moyenne (encodage requis) | Excellente (native, sans encodage) |
| **Optimisation mémoire**    | Moyenne      | Bonne                 | Excellente             | Bonne                 |
| **Support GPU**             | Non         | Oui                   | Oui                   | Oui                   |
| **Interopérabilité**        | Très bonne (pipelines Python) | Bonne (export JSON, ONNX) | Bonne (export ONNX) | Bonne (export ONNX) |
| **Cas d’usage idéal**       | Prototypage, éducation, ML classique | Compétitions, production rapide et efficace | Production performante | Données catégoriques, production robuste |


# <u>MODULE 2</u> : MACHINE LEARNING CLASSIQUE AVEC SCIKIT-LEARN

## 1. Introduction

## 2. Construction de pipelines : prétraitement, feature engineering, entraînement, évaluation

*La construction de **pipelines** représente une bonne pratique centrale dans la conception d’un système de machine learning ***robuste, reproductible et modulaire***.*

*En automatisant l’enchaînement des différentes étapes du flux de données* —*du prétraitement à l’évaluation*— *les pipelines **réduisent les risques d’erreurs**, **facilitent l’expérimentation** et permettent **l’intégration transparente** avec des outils comme *GridSearchCV* pour la recherche d’hyperparamètres.*

### 2.1 Structure générale d’un pipeline avec Scikit-learn

### 2.2 Étapes fondamentales d’un pipeline classique

### 2.3 Pipeline plus avancé avec encodage et gestion des valeurs manquantes

### 2.4 Évaluation du pipeline : métriques de performance

## 3. Validation croisée et recherche d’hyperparamètres (GridSearchCV, RandomizedSearchCV)

### 3.1 Validation croisée classique avec cross_val_score

#### **`Random Forest`**

### 3.2 Recherche d’hyperparamètres par validation croisée

#### **`GridSearchCV — Recherche exhaustive sur grille`**

#### **`RandomizedSearchCV — Recherche aléatoire`**

### 3.3 Comparaison des deux méthodes

## 4. Modèles fondamentaux : régression linéaire et logistique, SVM, arbres de décision, k-means, PCA

### 4.1 Régression linéaire

### 4.2 Régression logistique

### 4.3 Machines à vecteurs de support (SVM)

### 4.4 Arbres de décision

### 4.5 k-means (clustering)

### 4.6 ACP (Analyse en Composantes Principales)