# What the ML

**Découvrez comment le Machine Learning révolutionne notre façon de penser et de créer.**

## Introduction

Le Machine Learning (ou apprentissage automatique) est une composante essentielle de l'intelligence artificielle. Il permet aux machines d'apprendre à partir de données sans programmation explicite, en identifiant des motifs et en fournissant des prédictions précises.  
Avant de commencer les projets pratiques, il est important de comprendre les notions clés suivantes.

## A. La science des données

## B. L’apprentissage automatique et/ou l’apprentissage profond

## C. L’apprentissage supervisé,

## D. L'Apprentissage Non Supervisé

### Introduction

L'apprentissage non supervisé est une branche du machine learning qui permet d'analyser et de structurer des données sans étiquetage préalable. Cette approche est particulièrement utile pour découvrir des structures cachées dans de grandes quantités de données. Les modèles d'apprentissage non supervisé sont employés pour trois tâches principales : **le clustering (partitionnement)**, **l'association** et **la réduction de la dimensionnalité**.

---

### I. Le Partitionnement (Clustering)

Le partitionnement regroupe des données non étiquetées selon leurs similitudes ou différences. Cette technique transforme des objets de données bruts en structures organisées représentant l'information sous-jacente.

#### 1. Partitionnement Exclusif : K-moyennes

Le partitionnement en **K-moyennes** affecte chaque point de données à l'un des K groupes prédéfinis. Les points sont assignés au cluster dont le centroïde (centre) est le plus proche. Les données les plus proches d'un même centroïde forment ainsi une catégorie homogène.

#### 2. Partitionnement Hiérarchique

Le partitionnement hiérarchique se décline en deux approches :

**Approche agglomérative (ascendante)** : Chaque point de données commence dans un cluster distinct, puis les clusters similaires fusionnent progressivement jusqu'à n'en former qu'un seul. La distance euclidienne mesure généralement la similarité via quatre méthodes :
- **Liaison de Ward** : basée sur l'augmentation de la somme des carrés après fusion
- **Liaison moyenne** : distance moyenne entre tous les points de deux clusters
- **Liaison complète** : distance maximale entre deux points de clusters différents
- **Liaison simple** : distance minimale entre deux points de clusters différents

**Approche divisive (descendante)** : Un seul cluster initial est progressivement divisé selon les différences entre points. Cette méthode est moins couramment utilisée.

#### 3. Partitionnement Probabiliste

Cette approche regroupe les points selon la **probabilité** qu'ils appartiennent à une distribution particulière. Le **Modèle de Mélange Gaussien (GMM)** est la méthode probabiliste la plus répandue, permettant un partitionnement "doux" où un point peut appartenir partiellement à plusieurs clusters.

---

### II. Les Règles d'Association

Les règles d'association identifient des relations entre variables dans un jeu de données.

#### Algorithmes Apriori

Issus de l'analyse de panier d'achat, les algorithmes Apriori alimentent aujourd'hui les moteurs de recommandation. Ils identifient des ensembles d'éléments fréquemment associés pour prédire la consommation d'un produit en fonction d'un autre. 

**Exemple concret** : Sur Spotify, écouter Black Sabbath déclenche des recommandations de Led Zeppelin, basées sur les habitudes d'écoute personnelles et collectives. Ces algorithmes utilisent un arbre de hachage pour analyser exhaustivement les données transactionnelles.

---

### III. La Réduction de la Dimensionnalité

Bien que davantage de données améliorent généralement la précision, elles peuvent provoquer du surajustement et compliquer la visualisation. La **réduction de la dimensionnalité** diminue le nombre de caractéristiques tout en préservant l'intégrité des données. Cette étape de prétraitement est essentielle pour gérer des données complexes.

#### 1. Analyse en Composantes Principales (ACP)

L'ACP simplifie des données complexes en créant de nouvelles variables synthétiques appelées "composantes principales". 

**Principe** : La première composante capture la direction de variance maximale. La deuxième composante cherche aussi la variance maximale, mais dans une direction perpendiculaire à la première. Ce processus se répète, chaque nouvelle composante étant orthogonale aux précédentes. Résultat : l'information essentielle est conservée avec moins de dimensions.

#### 2. Décomposition en Valeurs Singulières (SVD)

La SVD factorise une matrice complexe A en trois matrices plus simples (A = USVT), où U et V sont des matrices orthogonales et S est une matrice diagonale contenant les valeurs singulières. Comme l'ACP, elle sert à réduire le bruit et compresser les données, notamment les fichiers image.

#### 3. Auto-encodeurs

Les auto-encodeurs utilisent des réseaux de neurones pour compresser puis reconstruire les données. La **couche cachée** agit comme un goulet d'étranglement : elle compresse l'information (phase d'**encodage**) avant de la reconstruire dans la couche de sortie (phase de **décodage**).

---

### IV. Applications Concrètes

L'apprentissage non supervisé améliore l'expérience utilisateur et identifie rapidement des modèles dans de grandes quantités de données :

- **Rubriques d'actualités** : Google Actualités regroupe automatiquement des articles similaires provenant de sources différentes
- **Vision par ordinateur** : reconnaissance d'objets dans les images
- **Imagerie médicale** : détection, classification et segmentation d'images pour des diagnostics rapides et précis
- **Détection d'anomalies** : identification de données atypiques révélant des équipements défectueux, erreurs humaines ou failles de sécurité
- **Profils clients** : identification des traits communs et habitudes d'achat pour personnaliser les messages marketing
- **Moteurs de recommandation** : analyse des comportements de consommation pour suggérer des produits complémentaires pertinents

---

### V. Les Défis de l'Apprentissage Non Supervisé

Malgré ses avantages, cette approche présente plusieurs limitations :

- **Complexité informatique** due au volume élevé des données d'entraînement
- **Temps d'entraînement prolongés**
- **Risque accru de résultats inexacts**
- **Intervention humaine nécessaire** pour valider les variables de sortie
- **Manque de transparence** quant aux critères de regroupement des données

---

### Conclusion

L'apprentissage non supervisé offre des outils puissants pour explorer et structurer de grandes quantités de données sans étiquetage préalable. Du partitionnement à la réduction de dimensionnalité, ces techniques transforment des données brutes en informations exploitables, avec des applications concrètes dans de nombreux domaines. Toutefois, leur mise en œuvre requiert une validation rigoureuse et une compréhension approfondie de leurs limites.

## E. La classification supervisée

## F. La Classification Non Supervisée

### Introduction

La classification non supervisée désigne le processus de construction de classes à partir de données non étiquetées, indépendamment de tout objectif prédictif explicite. Contrairement à l’apprentissage non supervisé, qui regroupe plusieurs familles de méthodes, la classification non supervisée se concentre sur le résultat analytique : l’organisation des données en catégories homogènes révélant leur structure interne.

---

### I. Objectifs de la Classification Non Supervisée

La classification non supervisée vise principalement à :

- structurer un ensemble de données complexes ou volumineuses ;
- identifier des profils ou comportements similaires ;
- révéler des régularités ou des patterns latents ;
- fournir une base analytique à des décisions métier ou à des analyses ultérieures.

Elle s’inscrit dans une démarche exploratoire et descriptive, sans finalité prédictive directe.

---

### II. Fondements Méthodologiques

La classification non supervisée repose sur trois éléments essentiels :

- la sélection et la préparation des variables décrivant les individus ;
- le choix d’une mesure de similarité ou de distance ;
- une règle de regroupement permettant d’affecter les observations à des classes.

Les classes sont construites de manière à maximiser l’homogénéité interne tout en assurant une différenciation claire entre les groupes.

---

### III. Caractère Non Unique de la Classification

Pour un même jeu de données, plusieurs classifications non supervisées peuvent être produites. Les résultats dépendent fortement :

- des variables retenues et de leur transformation ;
- des méthodes de normalisation appliquées ;
- des paramètres et hypothèses propres aux algorithmes utilisés.

Il n’existe donc pas de classification unique ou universelle, mais différentes représentations possibles de la structure des données.

---

### IV. Interprétation et Validation des Classes

En l’absence de classes de référence, l’interprétation constitue une étape centrale du processus. Elle implique :

- l’analyse des caractéristiques dominantes de chaque classe ;
- la comparaison des classes entre elles ;
- la validation de leur cohérence au regard du contexte d’étude.

Cette phase introduit une supervision humaine a posteriori, indispensable pour donner du sens aux résultats obtenus.

---

### V. Rôle dans un Pipeline Data

La classification non supervisée est fréquemment utilisée comme :

- étape exploratoire initiale ;
- outil de segmentation descriptive ;
- support à la création de variables synthétiques ;
- aide à la prise de décision stratégique.

Elle s’intègre généralement en amont d’analyses statistiques avancées ou de modèles supervisés.

---

### Conclusion

La classification non supervisée constitue un levier essentiel de l’analyse exploratoire des données. En structurant l’information sans référence préalable, elle permet de mieux comprendre des ensembles de données complexes. Toutefois, son efficacité repose sur des choix méthodologiques rigoureux et sur la capacité de l’analyste à interpréter et valider les classes produites.


## G. La régression

## H. Validation Croisée (Cross-Validation)

### Définition

La validation croisée est une méthode permettant de tester les performances d'un modèle prédictif de Machine Learning. Elle consiste à évaluer si les résultats numériques quantifiant les relations entre variables sont acceptables comme descriptions des données.

**Objectifs principaux** :
- Comparer différents modèles et sélectionner le plus approprié
- Évaluer un modèle même avec des données limitées
- Éviter le sur-ajustement et le biais

### Principe Général

La validation croisée est une procédure de ré-échantillonnage. Une partie des données est écartée en amont du dataset d'entraînement. Ces données ne serviront pas à entraîner le modèle, mais à le tester et le valider ultérieurement.

---

## I. Train-Test Split

### Principe

L'approche Train-Test Split décompose de manière aléatoire un ensemble de données en deux parties :
- **Ensemble d'entraînement** : pour entraîner le modèle
- **Ensemble de test** : pour valider le modèle

### Avantages et Limites

**Avantages** :
- Simple et rapide à implémenter
- Disponible dans scikit-learn (méthode `train_test_split`)

**Limites** :
- Problématique avec des données limitées
- Risque de manquer des informations non utilisées pour l'entraînement
- Résultats potentiellement biaisés

---

## II. K-Folds Cross-Validation

### Principe

La méthode K-Folds assure que toutes les observations du dataset original apparaissent dans l'ensemble d'entraînement ET dans l'ensemble de test. C'est l'une des meilleures approches en cas de données limitées.

### Fonctionnement

1. **Séparation** : Le dataset est divisé aléatoirement en K parties (folds)
2. **Entraînement** : Le modèle est ajusté avec K-1 folds
3. **Validation** : Le fold restant sert à valider le modèle
4. **Répétition** : Le processus est répété jusqu'à ce que chaque fold ait servi de validation
5. **Score final** : La moyenne des scores enregistrés constitue la métrique de performance

### Choix de K

- **Valeur recommandée** : Entre 5 et 10 selon l'envergure du dataset
- **K élevé** : Modèle moins biaisé, mais risque de variance élevée et sur-ajustement
- **K faible** : Équivaut à un Train-Test Split classique

---

## III. Stratified K-Fold

### Contexte d'Usage

Utilisée par défaut lorsque :
- Le modèle est un classificateur
- La variable cible est binaire ou multiclasse

### Principe

La méthode Stratified K-Fold maintient le pourcentage d'échantillons pour chaque classe dans tous les folds. Les données des folds d'entraînement et de test sont ainsi équitablement distribuées.

**Exemple** : Si le dataset contient 30% de classe A et 70% de classe B, chaque fold respectera cette répartition 30/70.

---

## IV. Leave-One-Out Cross-Validation (LOOCV)

### Définition

La validation croisée "un contre tous" est un cas particulier de la validation croisée à k blocs avec **k = n** (n = nombre total d'observations).

### Fonctionnement

À chaque itération :
- **Entraînement** : sur n-1 observations
- **Validation** : sur l'unique observation restante

Le modèle est donc entraîné et validé n fois (une fois par observation).

### Usage

Particulièrement utile pour des datasets très petits, mais coûteux en temps de calcul pour des datasets volumineux.

---

## V. Gestion des Bases Déséquilibrées

### Problématique

Dans les tâches de classification, la répartition des classes peut être déséquilibrée : le nombre d'observations n'est pas le même d'une classe à l'autre.

**Exemple** : 3 observations de classe 1 pour 7 observations de classe 2.

### Solution : Validation Croisée Stratifiée

La **stratification** s'assure que la répartition des classes soit identique dans tous les ensembles d'apprentissage et de validation.

**Principe** :
- Si le dataset initial présente un ratio 3:7 entre deux classes
- Chaque ensemble de validation et d'apprentissage devra présenter ce même ratio 3:7

**Avantages** :
- Évite le biais lié à une répartition changeante des classes
- Garantit une performance de validation représentative

---

## VI. Processus Complet de Validation

### Étapes

1. **Séparation initiale** : Mettre de côté un jeu de test (données jamais vues)
2. **Validation croisée** : Sur les données d'entraînement restantes
3. **Sélection du modèle** : Choisir le meilleur modèle selon les scores CV
4. **Test final** : Évaluer le modèle sélectionné sur le jeu de test mis de côté

### Résumé
```
Dataset complet
    ↓
[Jeu de test mis de côté] ← Ne pas toucher jusqu'au test final
    ↓
Données d'entraînement
    ↓
K-Folds Cross-Validation
    ↓
Sélection du meilleur modèle
    ↓
Test final sur le jeu de test
```

---

## Conclusion

La validation croisée est essentielle pour évaluer objectivement les performances d'un modèle. Le choix de la méthode (Train-Test Split, K-Folds, Stratified K-Folds, LOOCV) dépend de la taille du dataset, de l'équilibre des classes et des ressources de calcul disponibles. Une validation rigoureuse garantit des modèles robustes et généralisables.

## I. Les données d’entraînement, les données de test et/ ou de validation

## J. Corrélation linéaire (de Pearson) entre deux variables

## K. Une fonction de coût

## La descente de gradient

La descente de gradient est un algorithme d’optimisation couramment utilisé pour entraîner les modèles de machine learning. Son objectif est de réduire l’erreur entre les valeurs prédites par le modèle et les valeurs réelles.

Lors de l’entraînement, le modèle ajuste progressivement ses paramètres à partir des données d’apprentissage. La fonction de coût agit comme un indicateur de performance en mesurant l’erreur à chaque itération. Tant que cette erreur n’est pas proche de zéro, le modèle continue d’apprendre.

La descente de gradient fonctionne de manière similaire à la recherche d’une droite de meilleur ajustement, en minimisant l’erreur quadratique moyenne entre les valeurs réelles et les valeurs prédites. Elle repose généralement sur une fonction convexe, facilitant la convergence.

Objectif : réduire la fonction de coût, c’est-à-dire l’erreur entre y réel et y prédit.

Les calculs successifs de dérivées partielles permettent à l’algorithme de se rapprocher progressivement du minimum local ou global, appelé point de convergence.

---

## Taux d’apprentissage (alpha)

Le taux d’apprentissage, noté alpha, correspond à la taille des pas effectués pour atteindre le minimum de la fonction de coût.

Un taux élevé permet une convergence plus rapide, mais comporte un risque de dépassement du minimum.
Un taux faible améliore la précision, mais rend l’apprentissage plus lent et plus coûteux en calcul.

---

## Fonction de coût (ou fonction de perte)

La fonction de coût mesure l’écart entre les valeurs réelles et les valeurs prédites. Elle guide l’ajustement des paramètres du modèle afin de minimiser l’erreur.

L’algorithme progresse à chaque itération dans la direction du gradient négatif jusqu’à convergence.

La fonction de perte mesure l’erreur pour une seule observation, tandis que la fonction de coût correspond à la moyenne des erreurs sur l’ensemble des données d’entraînement.

---

## Fonction mathématique de la descente de gradient

### Fonction à minimiser (fonction de coût)

On cherche à mesurer l’erreur globale du modèle :

$$
J(\theta) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

Avec :
- $y_i$ : valeur réelle  
- $\hat{y}_i$ : valeur prédite par le modèle  
- $n$ : nombre d’observations  
- $J(\theta)$ : erreur globale du modèle  

Plus la valeur de $J(\theta)$ est faible, plus le modèle est performant.

### Principe de la descente de gradient

L’objectif est de modifier progressivement les paramètres du modèle, notés $\theta$, afin de réduire l’erreur.  
Pour cela, on utilise la pente de la fonction de coût, appelée gradient.

---

### Règle de mise à jour des paramètres

$$
\theta \leftarrow \theta - \alpha \frac{\partial J(\theta)}{\partial \theta}
$$

Dans cette équation :
- $\theta$ représente les paramètres du modèle  
- $\alpha$ est le taux d’apprentissage  
- $\frac{\partial J(\theta)}{\partial \theta}$ indique la direction de la plus forte augmentation de l’erreur  

La soustraction du gradient permet de se déplacer vers le minimum de la fonction de coût.

---

### Intuition visuelle

La descente de gradient peut être comparée à une marche sur une colline. Le point de départ correspond à une erreur élevée, et chaque pas, guidé par la pente, rapproche progressivement du point le plus bas où l’erreur est minimale.

---

### Condition d’arrêt

L’algorithme s’arrête lorsque l’erreur devient très faible ou lorsque les mises à jour des paramètres deviennent négligeables.
