# Modéles

## Régression Linéaire

La régression linéaire est une méthode d'apprentissage supervisé utilisée pour modéliser la relation entre une variable dépendante (cible) et une ou plusieurs variables indépendantes (prédicteurs). Le modèle linéaire est représenté par l'équation suivante :

$y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + ... + \theta_N x_N + \epsilon$

Ici, $y$ est la variable dépendante, $x_i$ sont les variables indépendantes, $\theta_i$ sont les coefficients à estimer et $\epsilon$ est l'erreur résiduelle.

L'objectif de la régression linéaire est de minimiser le coût, généralement la somme des erreurs quadratiques (SSE). Pour ce faire, on utilise une méthode d'optimisation telle que la descente de gradient, qui ajuste les coefficients $\theta_i$ pour réduire le coût. La mise à jour des coefficients se fait en utilisant la formule suivante :

$ \theta_j = \theta_j - \alpha \frac{\partial}{\partial \theta_j} coût(\theta_0, \theta_1, ..., \theta_N)$

Où $\alpha$ est le taux d'apprentissage, un paramètre qui contrôle la vitesse à laquelle les coefficients sont ajustés.

## Régrésion linéaire régularisée

Le modèle de régression linéaire est très utile dans beaucoup de cas, mais elle possède des limites.

<img src="images/reg_intro.png" alt="Alt text" width="500" height="300">

Comme nous l'indique cette image, le problème de la régréssion linéaire est l'overfiting : c'est lorsque le modèle s'ajuste trop  aux données d'entrainement ce qui as pour conséquences, qu'il n'arrive pas à généraliser pour prédir de nouveaux exemples. Pour palier à ce problème, nous utilisons la régression linéaire régularisé qui fonctionent de la même manière que la régression linéaire classique en ajoutant une "pénalité" afin de réajuster la droite et ne pas prendre trop de valeurs lors de l'apprentissage.

Les deux modèles que nous allons utiliser et détailler sont Ridge et Lasso.

### Ridge

La régression linéaire avec pénalité L2, également connue sous le nom de Ridge Regression, est une autre extension de la régression linéaire classique. La principale différence réside dans l'introduction d'un terme de pénalité L2 dans la fonction coût, qui aide à réduire la complexité du modèle en limitant la magnitude des coefficients de régression.

La mise à jour des coefficients en utilisant la pénalité L2 est représentée par la formule suivante :

$ \theta_j = \theta_j - \alpha \frac{\partial}{\partial \theta_j} \left( coût(\theta_0, \theta_1, ..., \theta_N) + \lambda \sum_{j=1}^N \theta_j^2 \right)$

Ici, $\lambda$ est un paramètre de régularisation qui contrôle l'importance relative de la pénalité L2 dans la fonction coût. Lorsque $\lambda = 0$, le modèle de régression avec pénalité L2 revient au modèle de régression linéaire classique.

L'avantage de la pénalité L2 est qu'elle encourage la régularisation des coefficients en les rétrécissant, sans pour autant les pousser vers zéro. Cela conduit à un modèle plus robuste face à la multicollinéarité et réduit le risque de d'overfitting.

### Lasso

La régression linéaire avec pénalité L1, également connue sous le nom de Lasso (Least Absolute Shrinkage and Selection Operator), est une extension de la régression linéaire classique. 
<br>
Le modèle de régression linéaire Lasso (Least Absolute Shrinkage and Selection Operator) est une extension de la régression linéaire classique avec une pénalité L1.
La principale différence réside dans l'introduction d'un terme de pénalité dans la fonction coût, qui aide à réduire la complexité du modèle en favorisant des coefficients de régression plus petits.

La mise à jour des coefficients en utilisant la pénalité L1 est représentée par la formule suivante :

$ \theta_j = \theta_j - \alpha \frac{\partial}{\partial \theta_j} \left( coût(\theta_0, \theta_1, ..., \theta_N) + \lambda \sum_{j=1}^N |\theta_j| \right)$

Ici, $\lambda$ est un paramètre de régularisation qui contrôle l'importance relative de la pénalité L1 dans la fonction coût. Lorsque $\lambda = 0$, le modèle de régression avec pénalité L1 revient au modèle de régression linéaire classique.

L'avantage de la pénalité L1 est qu'elle pousse certains coefficients de régression vers zéro. Cela conduit à un modèle plus simple et interprétable, avec un risque d'overfitting réduit.

## K-Neighbors Regression

La régression K-Neighbors (KNN) est une méthode d'apprentissage supervisé basée sur la proximité des points dans l'espace des caractéristiques. Elle est utilisée pour estimer la valeur d'une variable dépendante en fonction de la moyenne des valeurs de ses k voisins les plus proches. La formule pour la prédiction de KNN est la suivante :

$ \hat{y} = \frac{1}{k} \sum_{i \in V_k(x)} y_i$

Ici, $V_k(x)$ représente l'ensemble des $k$ voisins les plus proches du point $x$, $y_i$ sont les valeurs de la variable dépendante pour les points voisins, et $\hat{y}$ est la prédiction pour le point $x$.

## Decision Tree Regression

Un arbre de décision est un algorithme d'apprentissage automatique supervisé utilisé pour résoudre des problèmes de classification et de régression. L'objectif de cet algorithme est de créer un arbre de décision qui peut être utilisé pour prendre des décisions en fonction des caractéristiques d'un ensemble de données.

Le processus de création d'un arbre de décision implique de diviser l'ensemble de données en plusieurs sous-ensembles en fonction des valeurs de caractéristiques. Cette division est effectuée de manière à maximiser la différence entre les classes de sortie dans chaque sous-ensemble. Ce processus est répété de manière récursive pour chaque sous-ensemble jusqu'à ce qu'un critère d'arrêt soit atteint.

   <img src="images/decision_tree.png" alt="Alt text" width="500" height="300">

Dans cet exemple nous voyons que chaque noeud de l'arbre correspond à une condition sur une variable. Et les feuilles correspondent à des valeurs que vont prendre différentes valeurs possibles pour la variable dépendante.

Les avantages de l'utilisation de l'arbre de décision comprennent la facilité d'interprétation et la capacité à gérer des données manquantes. Cependant, l'arbre de décision peut souffrir de surapprentissage et peut ne pas être aussi précis que d'autres algorithmes d'apprentissage automatique dans certaines situations.

## Random Forest Regression

La régression Random Forest est une méthode d'apprentissage ensembliste basée sur l'agrégation de nombreux arbres de décision. Elle tire parti de la "Wisdom of Crowds" (sagesse des foules) en combinant les prédictions de plusieurs arbres pour obtenir une meilleure performance que les prédictions individuelles. La méthode d'agrégation utilisée est appelée "Bagging" (Bootstrap Aggregating), qui consiste à créer des sous-ensembles de données avec remise et à entraîner un arbre de décision pour chaque sous-ensemble. Les prédictions finales sont obtenues en moyennant les prédictions de tous les arbres. La Random Forest est robuste face au overfitting et offre souvent une meilleure performance que les modèles de régression linéaire, en particulier lorsque les relations entre les variables sont non linéaires. <br>
<img src="images/random_forest.png" alt="Alt text" width="500" height="300">

# Métriques

Les métriques sont des indicateurs clés pour évaluer et comparer les performances des modèles de machine learning, en particulier dans le contexte de la régression et la prédiction de valeurs numériques. Parmi les métriques couramment utilisées, on retrouve le RMSE, R2 et le coefficient de corrélation de Spearman. Chacune de ces métriques permet de quantifier la performance d'un modèle de manière différente.



## RMSE : L'erreur quadratique moyenne 

Le RMSE est une mesure de l'erreur moyenne quadratique entre les valeurs prédites et les valeurs réelles. Il s'agit de la racine carrée de la moyenne des erreurs quadratiques, ce qui permet de quantifier la différence entre les valeurs prédites et observées. Un RMSE plus faible indique une meilleure précision du modèle. Toutefois, le RMSE étant sensible aux valeurs extrêmes, il peut parfois donner une image trompeuse de la performance d'un modèle.

## R2 : Coefficient de détermination

Le R2 est une mesure statistique qui indique la proportion de la variance des données expliquée par le modèle de régression. Il varie entre 0 et 1, où 1 indique que le modèle explique parfaitement la variance des données et 0 signifie qu'il n'explique pas du tout la variance. Un R2 élevé (proche de 1) indique que le modèle s'ajuste bien aux données, tandis qu'un R2 faible (proche 0) suggère un ajustement médiocre.

## Coefficient de corrélation de Spearman 

Le coefficient de corrélation de Spearman mesure la force et la direction de la relation monotone entre deux variables. Il varie entre -1 et 1. Une valeur proche de 1 indique une relation monotone positive forte entre les variables, tandis qu'une valeur proche de -1 indique une relation monotone négative forte. Une valeur proche de 0 suggère l'absence de corrélation monotone. Contrairement à la corrélation de Pearson, le coefficient de Spearman est moins sensible aux valeurs extrêmes et peut être utilisé pour évaluer la relation entre des variables non linéaires.