### <center>**Entrainement des Modèles de Regression et Évaluation des Performances**<center>

La <code>régression linéaire</code> est une méthode statistique qui permet de modéliser la relation entre une variable dépendante <code>y</code> et une ou plusieurs variables indépendantes <code>X</code>. Elle cherche à ajuster une droite (ou un hyperplan en cas de plusieurs variables) qui minimise la somme des carrés des écarts entre les valeurs observées et les valeurs prédites.

#### **1. LinearRegression :**

Le modèle <code>LinearRegression</code> de <code>scikit-learn.linear_model</code> est une implémentation simple et puissante de la régression linéaire par moindres carrés ordinaires. 

**Principe :**

Le modèle de régression linéaire cherche à ajuster une droite (ou un hyperplan en dimension >2) de la forme :


$$
\hat{y} = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b
$$

- $x_1,x_2,....,x_n$ = variables d’entrée (features).
- $w_1,w_2,....,w_n$ = coefficients (poids) que le modèle apprend.
- $b$ = intercept (biais).
- $\hat{y}$ = valeur prédite.

L’objectif est de trouver les meilleurs poids $w$ et biais $b$ qui minimisent l’erreur entre la valeur réelle $y$ et la valeur prédite $\hat{y}$.

In [None]:
import pandas as pd
from sklearn.model_selection import *
from sklearn.linear_model import LinearRegression
from sklearn.metrics import *
import matplotlib.pyplot as plt

data = pd.read_csv("../data/processed/data.csv")

# Séparer les features (X) et la cible (y)
X = data.drop("charges", axis=1)  # toutes les colonnes sauf la cible
y = data["charges"] # la colonne cible

# Diviser en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Créer le modèle de régression linéaire avec les paramètres par défaut
model = LinearRegression()

# Entraîner le modèle
model.fit(X_train, y_train)

# 7. Faire des prédictions
y_pred = model.predict(X_test)

#### **2. RandomForestRegression :**



In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import *
import pandas as pd

# 2. Charger le dataset
data = pd.read_csv("../data/processed/data.csv")

# 3. Séparer les features (X) et la cible (y)
X = data.drop("charges", axis=1)
y = data["charges"]

# 4. Diviser les données en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5. Créer le modèle avec les paramètres par défaut
rf = RandomForestRegressor(random_state=42)

# 6. Entraîner le modèle
rf.fit(X_train, y_train)

# 7. Prédire sur les données de test
y_pred = rf.predict(X_test)