# <u>MODULE 1</u> : PANORAMA DES FRAMEWORKS

## 1. Introduction

Un **framework** est un ensemble coh√©rent de composants logiciels (fonctions, classes,
interfaces) facilitant la conception, l‚Äôentra√Ænement, l‚Äô√©valuation et le d√©ploiement de mo-
d√®les d‚Äôapprentissage. Il permet de simplifier la mise en ≈ìuvre d‚Äôalgorithmes complexes
tout en assurant reproductibilit√© et maintenance.

<div style="
    border: 2px solid #007BFF; /* Contour bleu */
    padding: 15px;
    border-radius: 5px;
    background-color:rgb(38, 40, 43); /* Fond gris clair */
">
    <h2 style="color:rgb(152, 165, 179); text-align: center; border:2px solidrgb(104, 108, 111)">Objectifs du module</h2>
<p>‚Äî Comprendre le r√¥le des frameworks en Machine Learning.</p>
<p>‚Äî Identifier les biblioth√®ques classiques et celles de Deep Learning.</p>
<p>‚Äî Comparer les frameworks selon performance, communaut√©, documentation,
et facilit√© d‚Äôusage.</p>
<p>‚Äî Initier une d√©marche exp√©rimentale comparative avec des cas pratiques.</p>
</div>


## 2. D√©finition et r√¥le d‚Äôun framework de Machine Learning

*Un **framework de Machine Learning** est une plateforme logicielle int√©gr√©e regroupant biblioth√®ques, interfaces et outils pour concevoir, entra√Æner, √©valuer et d√©ployer des mod√®les d‚Äôapprentissage automatique ou profond.*

* **`Objectifs`**

    * *Acc√©l√©rer le d√©veloppement*
    * *Simplifier les t√¢ches techniques r√©p√©titives*
    * *Garantir la reproductibilit√© et faciliter la maintenance* <br><br>
* **`R√¥le op√©rationnel`**

    * *Abstraction*
    * *Impl√©mentations optimis√©es*
    * *Interop√©rabilit√©*
    * *Support mat√©riel*

<u>**`Exemple avec Scikit-learn`**</u>

```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
X, y = iris.data, iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(f"Pr√©cision du model: {accuracy:.2f}")

```

## 3. Catalogue des Frameworks de Machine Learning

### 3.1 Biblioth√®ques classiques (prototypage rapide)

#### **`Scikit-learn`**

*Biblioth√®que Python de r√©f√©rence pour l‚Äôapprentissage automatique
classique. Elle repose sur `NumPy`, `SciPy` et `Pandas`, et offre une API uniforme pour des t√¢ches comme la **r√©gression, la classification, le clustering, la r√©duction de dimension, etc.***

In [1]:
from sklearn.linear_model import LinearRegression

# Importation de NumPy pour manipuler des tableaux num riques
import numpy as np

# Cr√©ation de l‚Äôensemble des donn√©es d‚Äôentr√©e(features)
X = np.array([[1], [2], [3], [4], [5]]) # 5 observations, une seule variable explicative

# D√©finition de la variable cible (target)
y = np.array([1.5, 3.5, 5.5, 7.5, 9.5]) # Valeurs correspondantes √† pr√©dire

# Instanciation du mod√®le de r√©gression lin√©aire
model = LinearRegression()

# Entrainement du model (ajustement des coefficients)
model.fit(X, y)

# Pr√©diction sur une nouvelle donn√©e (x = 6)
y_pred = model.predict(np.array([[6]]))

# Affichage de la pr diction
print("Pr√©diction pour x=6 :", y_pred)

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

#### **`XGBoost`**

*Impl√©mentation optimis√©e de l‚Äôalgorithme de `Gradient Boosting`, particuli√®rement efficace pour les **donn√©es tabulaires**. Il int√®gre une r**√©gularisation L1/L2** pour limiter le **surapprentissage** et une **gestion native des valeurs manquantes**.*

In [None]:
# Importation des modules n√©cessaires
import xgboost as xgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Chargement du jeu de donn√©es Iris (classification multiclasse)
iris = load_iris()

# S√©paration des donn√©es en ensemble d‚Äôentra nement et de test
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
test_size=0.3)

# Instanciation du mod√®le de classification XGBoost
model = xgb.XGBClassifier()

# Entra√Ænement du mod√®le sur les donn√©es d‚Äôentra√Ænement
model.fit(X_train, y_train)

# √âvaluation de la pr√©cision sur les donn√©es de test
accuracy = model.score(X_test, y_test)
print(" Pr√©cision :", accuracy)

 Pr√©cision : 0.9111111111111111


#### **`LightGBM`**

*Version acc√©l√©r√©e du `boosting` utilisant des histogrammes pour diviser les features. Il adopte une `croissance des arbres leaf-wise`, ce qui am√©liore l‚Äô**efficacit√©** sur de tr√®s grands jeux de donn√©es.*

In [None]:
# Importation des biblioth√®ques
import lightgbm as lgb
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# Chargement du jeu de donn√©es Boston (r√©gression sur prix immobiliers)
data = load_boston()

# S paration des donn√©es en ensembles d‚Äôentra√Ænement et de test
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.3)

# Instanciation du mod√®le de r√©gression LightGBM
model = lgb.LGBMRegressor()

# Entra nement du mod√®le
model.fit(X_train, y_train)

#√âvaluation de la performance ( R )
score = model.score(X_test, y_test)
print("Score de r√©gression :", score)

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

#### **Comparaison des biblioth√®ques classiques**

| Framework      | Scikit-learn            | XGBoost       | LightGBM |
|---------------|-------------------------|--------------|----------|
| **Version**   | 1.3.2                    | -            | -        |
| **Langage**   | Python                   | C++/Python/R | C++/Python/R |
| **Mod√®les**   | Classiques (r√©gression, SVM...) | Boosting d‚Äôarbres | Boosting bas√© histogrammes |
| **Performance** | Moyenne                 | Tr√®s haute   | Tr√®s haute |
| **Documentation** | Excellente            | Tr√®s bonne   | Bonne |


### 3.2 Principe g√©n√©ral du Gradient Boosting

>Le ***Gradient Boosting*** est un algorithme d‚Äôensemble qui combine plusieurs mod√®les faibles (*g√©n√©ralement des arbres de d√©cision peu profonds*) de mani√®re it√©rative. <br>Chaque nouveau mod√®le apprend √† corriger les erreurs commises par la somme des mod√®les pr√©c√©dents.

<u>**Formulation math√©matique**</u>

Soit $F_m(x)$ le mod√®le au pas $m$.<br>
√Ä chaque √©tape, le mod√®le est mis √† jour selon la r√®gle :

$$
F_m(x) = F_{m-1}(x) + \gamma_m h_m(x)
$$

o√π :
- $h_m(x)$ est un mod√®le entra√Æn√© √† minimiser la fonction de perte r√©siduelle.
- $\gamma_m$ est obtenu par :

$$
\gamma_m = \arg \min_{\gamma} \sum_{i=1}^{n} L(y_i, F_{m-1}(x_i) + \gamma h_m(x_i))
$$

Cette approche permet de corriger les erreurs des pr√©dictions pr√©c√©dentes et de **renforcer l‚Äôapprentissage** √† chaque it√©ration.


### 3.3 Comparaison des impl√©mentations de Gradient Boosting

* **Scikit-learn** : API simple, mais moins rapide pour grands volumes.
* **XGBoost** : performance optimis√©e, prise en charge de la r√©gularisation.
* **LightGBM** : tr√®s rapide, mais n√©cessite un bon r√©glage sur petits jeux.
* **CatBoost** : g√®re automatiquement les variables cat√©gorielles sans encodage explicite.

| Crit√®re               | Scikit-learn       | XGBoost       | LightGBM      | CatBoost       |
|-----------------------|-------------------|--------------|--------------|---------------|
| **Croissance d‚Äôarbre** | Niveau-par-niveau | Niveau-par-niveau | Feuille-par-feuille | Niveau-par-niveau |
| **Support des cat√©gories** | Manuel           | Partiel       | Manuel       | Automatique   |
| **Vitesse d‚Äôex√©cution** | Moyenne          | Rapide       | Tr√®s rapide  | Rapide        |
| **Pr√©cision**          | Bonne            | Excellente   | Tr√®s bonne   | Excellente    |
| **Valeurs manquantes** | Non g√©r√©es       | G√©r√©es       | G√©r√©es       | G√©r√©es        |


### 3.4 Exemple final : Comparaison sur le dataset Iris

**`Ex√©cution multi-mod√®les sur le dataset Iris`**

In [5]:
# Importation des outils n√©cessaires
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import GradientBoostingClassifier
import xgboost as xgb
import lightgbm as lgb
import catboost as cb

# Chargement des donn√©es
X, y = load_iris(return_X_y=True)

# D√©coupage du dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Scikit-learn
clf_sk = GradientBoostingClassifier().fit(X_train, y_train)
acc_sk = accuracy_score(y_test, clf_sk.predict(X_test))

# XGBoost
clf_xgb = xgb.XGBClassifier().fit(X_train, y_train)
acc_xgb = accuracy_score(y_test, clf_xgb.predict(X_test))

# LightGBM
clf_lgb = lgb.LGBMClassifier().fit(X_train, y_train)
acc_lgb = accuracy_score(y_test, clf_lgb.predict(X_test))

# CatBoost
clf_cb = cb.CatBoostClassifier(verbose=0).fit(X_train, y_train)
acc_cat = accuracy_score(y_test, clf_cb.predict(X_test))

# Affichage des r√©sultats
print("Scikit-learn:", acc_sk)
print("XGBoost:", acc_xgb)
print("LightGBM:", acc_lgb)
print("CatBoost:", acc_cat)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.002309 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 85
[LightGBM] [Info] Number of data points in the train set: 105, number of used features: 4
[LightGBM] [Info] Start training from score -1.016374
[LightGBM] [Info] Start training from score -1.188224
[LightGBM] [Info] Start training from score -1.098612




Scikit-learn: 1.0
XGBoost: 0.9777777777777777
LightGBM: 0.9777777777777777
CatBoost: 1.0


## 4. Crit√®res de choix d‚Äôun framework de Machine Learning

### Crit√®res principaux


**üöÄ <u>`Performance computationnelle`</u>** <br>

‚úÖ **Capacit√© de traitement parall√®le**  
Exploitation du **multi-threading** et du **multi-core** pour acc√©l√©rer l‚Äôentra√Ænement.  
üëâ **LightGBM, CatBoost** sont optimis√©s pour CPU multi-core.

‚úÖ **Optimisation m√©moire**  
Crit√®re cl√© pour **traiter de grands datasets sans saturation**.  
üëâ **XGBoost, LightGBM** utilisent des techniques avanc√©es de gestion m√©moire.

‚úÖ **Support GPU**  
Permet d‚Äôacc√©l√©rer significativement l‚Äôentra√Ænement.  
üëâ **XGBoost, CatBoost** disposent d‚Äôun support GPU.

---

**üìö <u>`Facilit√© d‚Äôapprentissage`</u>**<br>

‚úÖ **Documentation compl√®te et exemples**  
Essentiel pour une adoption rapide.  
üëâ **Scikit-learn** excelle par sa documentation p√©dagogique.

‚úÖ **API claire et uniforme**  
Facilite la prise en main, la maintenance et la reproductibilit√©.  
üëâ **Scikit-learn** offre une interface commune √† tous ses algorithmes.

‚úÖ **Communaut√© active**  
Acc√®s facile aux tutoriels, forums et mises √† jour fr√©quentes.

---

**üîó <u>`Interop√©rabilit√©`</u>**<br>

‚úÖ **Compatibilit√© avec les pipelines de traitement**  
Int√©gration fluide avec **pandas, NumPy, et les outils de workflow**.  
üëâ **Scikit-learn** propose `sklearn.pipeline` pour g√©rer les √©tapes du ML.

‚úÖ **Interop√©rabilit√© entre frameworks**  
Possibilit√© d‚Äôexporter les mod√®les vers des **formats standards (ONNX)**.

‚úÖ **D√©ploiement et portabilit√©**  
Export possible vers divers environnements de production.  
üëâ **PMML pour certains mod√®les de boosting**.

---

**üéØ <u>`Objectifs du projet`</u>**<br>

‚úÖ **Prototypage rapide et interpr√©tabilit√©**  
üëâ **Scikit-learn** est id√©al pour tester rapidement des algorithmes classiques.

‚úÖ **Mod√®les performants sur donn√©es tabulaires**  
üëâ **XGBoost, LightGBM et CatBoost** dominent souvent les comp√©titions ML.

‚úÖ **Robustesse et gestion des donn√©es cat√©goriques**  
üëâ **CatBoost** g√®re les variables cat√©goriques nativement, sans pr√©-traitement.


### Cas pratiques illustratifs

1. **`D√©veloppeur souhaitant un prototypage rapide sur donn√©es tabulaires`** :<br> *La simplicit√© d‚Äôutilisation et la richesse des algorithmes de scikit-learn en font un choix privil√©gi√©. L‚Äôabsence de GPU n‚Äôest pas un frein pour des datasets de taille mod√©r√©e.*

2. **`Scientifique des donn√©es participant √† une comp√©tition Kaggle`** : <br>*L‚Äôutilisation de frameworks comme XGBoost, LightGBM ou CatBoost est pr√©conis√©e pour maximiser la performance, gr√¢ce √† leur capacit√© √† g√©rer de grands volumes et des donn√©es h√©t√©rog√®nes.*

3. **`Projet industriel n√©cessitant un mod√®le rapide et efficace`** : <br>*LightGBM, avec sa faible consommation m√©moire et son entra√Ænement rapide, est souvent privil√©gi√©, notamment dans des environnements contraints en ressources.*

4. **`Projet avec donn√©es fortement cat√©goriques et peu de temps pour le pr√©traitement`** :<br> *CatBoost offre un avantage certain gr√¢ce √† sa gestion native des variables cat√©goriques et sa robustesse aux valeurs manquantes.*

### Tableau comparatif des frameworks de Machine Learning classiques

| Crit√®re                     | Scikit-learn  | XGBoost               | LightGBM               | CatBoost               |
|-----------------------------|--------------|----------------------|----------------------|----------------------|
| **Performance**             | Mod√©r√©e      | Excellente (CPU, GPU, mono/multi-thread) | Excellente (CPU multi-core, GPU) | Tr√®s bonne (CPU, GPU) |
| **Facilit√© d‚Äôapprentissage** | Excellente (API simple) | Bonne (API d√©taill√©e) | Bonne (API similaire √† XGBoost) | Bonne (API intuitive) |
| **Gestion des donn√©es cat√©goriques** | Limit√©e | Moyenne (pr√©-traitement n√©cessaire) | Moyenne (encodage requis) | Excellente (native, sans encodage) |
| **Optimisation m√©moire**    | Moyenne      | Bonne                 | Excellente             | Bonne                 |
| **Support GPU**             | Non         | Oui                   | Oui                   | Oui                   |
| **Interop√©rabilit√©**        | Tr√®s bonne (pipelines Python) | Bonne (export JSON, ONNX) | Bonne (export ONNX) | Bonne (export ONNX) |
| **Cas d‚Äôusage id√©al**       | Prototypage, √©ducation, ML classique | Comp√©titions, production rapide et efficace | Production performante | Donn√©es cat√©goriques, production robuste |


# <u>MODULE 2</u> : MACHINE LEARNING CLASSIQUE AVEC SCIKIT-LEARN

## 1. Introduction

## 2. Construction de pipelines : pr√©traitement, feature engineering, entra√Ænement, √©valuation

*La construction de **pipelines** repr√©sente une bonne pratique centrale dans la conception d‚Äôun syst√®me de machine learning ***robuste, reproductible et modulaire***.*

*En automatisant l‚Äôencha√Ænement des diff√©rentes √©tapes du flux de donn√©es* ‚Äî*du pr√©traitement √† l‚Äô√©valuation*‚Äî *les pipelines **r√©duisent les risques d‚Äôerreurs**, **facilitent l‚Äôexp√©rimentation** et permettent **l‚Äôint√©gration transparente** avec des outils comme *GridSearchCV* pour la recherche d‚Äôhyperparam√®tres.*

### 2.1 Structure g√©n√©rale d‚Äôun pipeline avec Scikit-learn

### 2.2 √âtapes fondamentales d‚Äôun pipeline classique

### 2.3 Pipeline plus avanc√© avec encodage et gestion des valeurs manquantes

### 2.4 √âvaluation du pipeline : m√©triques de performance

## 3. Validation crois√©e et recherche d‚Äôhyperparam√®tres (GridSearchCV, RandomizedSearchCV)

### 3.1 Validation crois√©e classique avec cross_val_score

#### **`Random Forest`**

### 3.2 Recherche d‚Äôhyperparam√®tres par validation crois√©e

#### **`GridSearchCV ‚Äî Recherche exhaustive sur grille`**

#### **`RandomizedSearchCV ‚Äî Recherche al√©atoire`**

### 3.3 Comparaison des deux m√©thodes

## 4. Mod√®les fondamentaux : r√©gression lin√©aire et logistique, SVM, arbres de d√©cision, k-means, PCA

### 4.1 R√©gression lin√©aire

### 4.2 R√©gression logistique

### 4.3 Machines √† vecteurs de support (SVM)

### 4.4 Arbres de d√©cision

### 4.5 k-means (clustering)

### 4.6 ACP (Analyse en Composantes Principales)