### **Cours : Apprentissage Supervisé - Régression**

#### **1. Introduction à l'Apprentissage Supervisé**
   - **Définition de l'Apprentissage Supervisé**
     - Apprentissage supervisé : L'algorithme apprend à partir de données étiquetées, c'est-à-dire que chaque exemple d'entraînement est accompagné de la réponse correcte.
   - **Qu'est-ce que la Régression?**
     - La régression est une technique de machine learning supervisé utilisée pour prédire une valeur continue. Contrairement à la classification, où les sorties sont des catégories, la régression vise à prédire des valeurs numériques.
   - **Exemples d'Applications de la Régression**
     - Prédiction du prix d'une maison en fonction de ses caractéristiques (superficie, nombre de chambres, etc.).
     - Estimation de la consommation d'énergie en fonction de la température.
     - Prévision des ventes futures en fonction des tendances historiques.
     

#### **2. Modèles de Régression en Apprentissage Supervisé**
   - **Régression Linéaire Simple**
     - **Concept** : Modèle qui cherche à établir une relation linéaire entre une variable indépendante (X) et une variable dépendante (Y).
     - **Équation** : \( Y = aX + b \) où \(a\) est la pente et \(b\) est l'ordonnée à l'origine.
     - **Exemple** : Prédire le prix d'une maison en fonction de sa superficie.
     - **Avantages** : Simple à comprendre et à interpréter.
     - **Inconvénients** : Ne fonctionne pas bien si la relation entre les variables n'est pas linéaire.

<img src="image/lineaire.png" />

### **1. Contexte : Régression Linéaire**
Pour une régression linéaire simple, le modèle prédit \( \hat{y} = w_1 x + w_0 \), où :
- \( w_1 \) est le coefficient (ou pente),
- \( w_0 \) est l'ordonnée à l'origine (ou biais).

L'objectif est de trouver les valeurs optimales de \( w_1 \) et \( w_0 \) qui minimisent l'erreur quadratique moyenne (MSE) entre les prédictions \( \hat{y} \) et les valeurs réelles \( y \).

### **2. Fonction Coût (MSE)**
La fonction coût \( J(w_0, w_1) \) pour la régression linéaire est donnée par la MSE :

\[
J(w_0, w_1) = \frac{1}{n} \sum_{i=1}^{n} \left( y_i - (w_1 x_i + w_0) \right)^2
\]

### **3. Calcul des Dérivées Partielles**
Pour minimiser \( J(w_0, w_1) \), on utilise la méthode de la descente de gradient, qui nécessite de calculer les dérivées partielles de \( J \) par rapport à \( w_0 \) et \( w_1 \).

Les dérivées partielles sont :
- Par rapport à \( w_1 \) (pente) :
  
\[
\frac{\partial J}{\partial w_1} = -\frac{2}{n} \sum_{i=1}^{n} x_i \left( y_i - (w_1 x_i + w_0) \right)
\]

- Par rapport à \( w_0 \) (biais) :

\[
\frac{\partial J}{\partial w_0} = -\frac{2}{n} \sum_{i=1}^{n} \left( y_i - (w_1 x_i + w_0) \right)
\]

### **4. Mise à Jour des Coefficients : Descente de Gradient**
Une fois les dérivées partielles calculées, les coefficients \( w_1 \) et \( w_0 \) sont mis à jour en fonction de la direction du gradient pour minimiser l'erreur :

\[
w_1 := w_1 - \alpha \frac{\partial J}{\partial w_1}
\]

\[
w_0 := w_0 - \alpha \frac{\partial J}{\partial w_0}
\]

Où :
- \( \alpha \) est le taux d'apprentissage, un petit nombre positif qui contrôle la taille des pas vers le minimum de la fonction coût.

### **5. Boucle d'Optimisation**
Ce processus est répété pour plusieurs itérations (ou jusqu'à ce que la convergence soit atteinte), en réévaluant les dérivées et en ajustant les coefficients à chaque étape.

### **Exemple de Code : Descente de Gradient pour Régression Linéaire**
Voici un exemple de code Python illustrant la descente de gradient manuelle pour une régression linéaire simple :

```python
import numpy as np

# Données d'exemple
X = np.array([1, 2, 3, 4, 5])
Y = np.array([2, 4, 6, 8, 10])

# Paramètres initiaux
w1 = 0
w0 = 0
alpha = 0.01  # Taux d'apprentissage
iterations = 1000  # Nombre d'itérations

n = len(Y)  # Nombre de points de données

# Boucle de descente de gradient
for i in range(iterations):
    Y_pred = w1 * X + w0  # Prédiction du modèle
    error = Y - Y_pred
    
    # Calcul des dérivées partielles
    dw1 = -2/n * np.sum(X * error)
    dw0 = -2/n * np.sum(error)
    
    # Mise à jour des paramètres
    w1 = w1 - alpha * dw1
    w0 = w0 - alpha * dw0
    
    # Optionnel : Afficher le coût à chaque étape
    cost = np.mean(error ** 2)
    if i % 100 == 0:
        print(f'Iteration {i}: w1 = {w1}, w0 = {w0}, Cost = {cost}')

print(f'Modèle final: w1 = {w1}, w0 = {w0}')
```

### **Résumé :**
- La dérivée de la fonction coût par rapport aux paramètres du modèle (pente et biais) est calculée pour déterminer la direction dans laquelle ajuster les paramètres.
- La descente de gradient est utilisée pour itérer vers les valeurs optimales des paramètres, minimisant ainsi l'erreur quadratique moyenne.

Cette approche est fondamentale pour l'entraînement des modèles de machine learning, où l'objectif est d'ajuster les paramètres de manière à minimiser l'erreur entre les prédictions du modèle et les valeurs réelles.

$$
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

L'**Erreur Quadratique Moyenne** (Mean Squared Error ou MSE) est une métrique utilisée pour évaluer la performance d'un modèle de régression. Elle mesure la moyenne des carrés des erreurs entre les valeurs prédites par le modèle et les valeurs réelles observées dans les données.

### **Définition et Formule :**

L'erreur quadratique moyenne est calculée en prenant la moyenne des carrés des différences entre chaque prédiction et la valeur réelle correspondante. Mathématiquement, la MSE est définie comme suit :

\[
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
\]

- \( n \) : le nombre total d'observations.
- \( y_i \) : la valeur réelle de l'observation \( i \).
- \( \hat{y}_i \) : la valeur prédite par le modèle pour l'observation \( i \).
- \( (y_i - \hat{y}_i)^2 \) : l'erreur quadratique pour l'observation \( i \).

### **Interprétation :**
- **MSE = 0** : Cela signifie que le modèle prédit parfaitement toutes les valeurs (aucune différence entre les valeurs réelles et les valeurs prédites).
- **MSE élevée** : Cela indique que les prédictions du modèle sont loin des valeurs réelles, ce qui signifie que le modèle n'est pas très performant.
- **Unité** : L'unité de la MSE est le carré de l'unité de la variable à prédire. Par exemple, si vous prédisez un prix en dollars, la MSE sera en dollars au carré.

### **Pourquoi utiliser le MSE ?**
1. **Sensibilité aux grandes erreurs** : Le MSE punit davantage les grandes erreurs en les quadrillant, ce qui signifie que de grosses erreurs auront un impact plus important sur la MSE qu'une simple erreur absolue moyenne (MAE). Cela peut être utile si vous voulez que votre modèle évite de grandes erreurs.
   
2. **Convexité** : La MSE est une fonction convexe par rapport aux paramètres du modèle. Cela signifie qu'il est plus facile d'optimiser un modèle en minimisant la MSE, car les algorithmes d'optimisation peuvent efficacement trouver le minimum global de cette fonction.

### **Exemple :**
Supposons que vous ayez les valeurs réelles suivantes pour un jeu de données :

\[
Y = [2, 3, 5, 7]
\]

Et que votre modèle prédise les valeurs suivantes :

\[
\hat{Y} = [2.5, 3, 4.5, 6.5]
\]

L'erreur pour chaque point est calculée comme suit :

\[
(2 - 2.5)^2 = 0.25, \quad (3 - 3)^2 = 0, \quad (5 - 4.5)^2 = 0.25, \quad (7 - 6.5)^2 = 0.25
\]

La MSE serait :

\[
\text{MSE} = \frac{0.25 + 0 + 0.25 + 0.25}{4} = \frac{0.75}{4} = 0.1875
\]

### **Limitation :**
La MSE étant une moyenne des erreurs au carré, elle peut être sensible aux valeurs aberrantes (outliers), car les erreurs sont quadrillées. Une seule prédiction très éloignée de la réalité peut fortement influencer la MSE.

C'est une mesure largement utilisée en régression, mais il est souvent utile de la combiner avec d'autres métriques (comme le \(R^2\) ou la MAE) pour avoir une évaluation complète de la performance du modèle.

- **Régression Linéaire Multiple**
     - **Concept** : Extension de la régression linéaire simple pour inclure plusieurs variables indépendantes.
     - **Équation** : \( Y = a_1X_1 + a_2X_2 + ... + a_nX_n + b \) où \( X_1, X_2, ..., X_n \) sont les variables indépendantes.
     - **Exemple** : Prédire le prix d'une maison en fonction de la superficie, du nombre de chambres, de l'âge de la maison, etc.
     - **Avantages** : Peut modéliser la relation entre plusieurs variables et la variable cible.
     - **Inconvénients** : Plus complexe à interpréter, sensible à la multicolinéarité.

- **Régression Polynomiale**
     - **Concept** : Étend la régression linéaire pour modéliser des relations non linéaires en ajoutant des termes de puissance de la variable indépendante.
     - **Équation** : \( Y = aX^2 + bX + c \) (pour un polynôme de degré 2).
     - **Exemple** : Prédire la croissance des revenus en fonction du temps où la relation n'est pas linéaire.
     - **Avantages** : Peut mieux s'ajuster aux données qui montrent une tendance non linéaire.
     - **Inconvénients** : Risque de surajustement (overfitting) si le degré du polynôme est trop élevé.

#### **3. Métriques d'Évaluation des Modèles de Régression**
   - **Erreur Quadratique Moyenne (Mean Squared Error - MSE)**
     - Mesure la moyenne des carrés des erreurs, c'est-à-dire la différence entre les valeurs prédites et les valeurs réelles.
   - **Erreur Absolue Moyenne (Mean Absolute Error - MAE)**
     - Moyenne des valeurs absolues des erreurs.
   - **Coefficient de Détermination (\(R^2\))**
     - Indique la proportion de la variance dans la variable dépendante qui est prévisible à partir des variables indépendantes.

#### **4. Cas Pratiques**
   - **Prédiction du Prix d'une Maison avec Régression Linéaire Multiple**
     - Utilisation des caractéristiques comme la superficie, l'emplacement, et l'âge de la maison pour prédire son prix.
   - **Régression Polynomiale pour Modéliser la Relation entre l'Expérience et le Salaire**
     - Utilisation d'une régression polynomiale pour capturer une relation non linéaire entre le nombre d'années d'expérience et le salaire.
   - **Ridge et Lasso pour la Sélection de Caractéristiques dans une Grande Base de Données**
     - Comparaison de la performance de ces modèles dans un contexte où il y a de nombreuses variables explicatives.


#### **5. Conclusion**
   - **Résumé des Concepts Clés**
     - Comprendre le type de relation entre les variables est crucial pour choisir le bon modèle de régression.
   - **Ressources Supplémentaires**
     - Tutoriels en ligne, documentation sur les bibliothèques Python (Scikit-learn), livres sur le machine learning.