### <center>**Entrainement des Modèles de Regression et Évaluation des Performances**<center>

La <code>régression linéaire</code> est une méthode statistique qui permet de modéliser la relation entre une variable dépendante <code>y</code> et une ou plusieurs variables indépendantes <code>X</code>. Elle cherche à ajuster une droite (ou un hyperplan en cas de plusieurs variables) qui minimise la somme des carrés des écarts entre les valeurs observées et les valeurs prédites.

#### **1. LinearRegression :**

Le modèle <code>LinearRegression</code> de <code>scikit-learn.linear_model</code> est une implémentation simple et puissante de la régression linéaire par moindres carrés ordinaires. 

**Principe :**

Le modèle de régression linéaire cherche à ajuster une droite (ou un hyperplan en dimension >2) de la forme :


$$
\hat{y} = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b
$$

- $x_1,x_2,....,x_n$ = variables d’entrée (features).
- $w_1,w_2,....,w_n$ = coefficients (poids) que le modèle apprend.
- $b$ = intercept (biais).
- $\hat{y}$ = valeur prédite.

L’objectif est de trouver les meilleurs poids $w$ et biais $b$ qui minimisent l’erreur entre la valeur réelle $y$ et la valeur prédite $\hat{y}$.

In [18]:
import pandas as pd
from sklearn.model_selection import *
from sklearn.linear_model import LinearRegression
from sklearn.metrics import *
import numpy as np

data = pd.read_csv("../data/processed/data.csv")

# Séparer les features (X) et la cible (y)
X = data.drop("charges", axis=1)  # toutes les colonnes sauf la cible
y = data["charges"] # la colonne cible

# Diviser en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Créer le modèle de régression linéaire avec les paramètres par défaut
model = LinearRegression()

# Entraîner le modèle
model.fit(X_train, y_train)

# Faire des prédictions
y_pred = model.predict(X_test)

# Évaluer le modèle
mae = mean_absolute_error(y_test, y_pred) # Mean Absolute Error
rmse = np.sqrt(mean_squared_error(y_test, y_pred)) # Root Mean Squared Error
r2 = r2_score(y_test, y_pred) # R² Score

print(f"Mean Absolute Error (MAE): {mae}")
print(f"Root Mean Squared Error (RMSE): {rmse}")
print(f"R² Score: {r2}")

Mean Absolute Error (MAE): 0.2713058513530974
Root Mean Squared Error (RMSE): 0.4186930787478204
R² Score: 0.8049693860071103


#### **2. RandomForestRegression :**



In [17]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import *
import pandas as pd

# Charger le dataset
data = pd.read_csv("../data/processed/data.csv")

# Séparer les features (X) et la cible (y)
X = data.drop("charges", axis=1)
y = data["charges"]

# Diviser les données en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Créer le modèle avec les paramètres par défaut
rf = RandomForestRegressor(random_state=42)

# Entraîner le modèle
rf.fit(X_train, y_train)

# Prédire sur les données de test
y_pred = rf.predict(X_test)

# Évaluer le modèle
mae = mean_absolute_error(y_test, y_pred) # Mean Absolute Error
rmse = np.sqrt(mean_squared_error(y_test, y_pred)) # Root Mean Squared Error
r2 = r2_score(y_test, y_pred) # R² Score

print(f"Mean Absolute Error (MAE): {mae}")
print(f"Root Mean Squared Error (RMSE): {rmse}")
print(f"R² Score: {r2}")

Mean Absolute Error (MAE): 0.18621803315248536
Root Mean Squared Error (RMSE): 0.3708837269449312
R² Score: 0.8469664047595602


#### **3. XGBoost (XGBRegressor) :**

In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error

# Charger le dataset
data = pd.read_csv("../data/processed/data.csv")

# Séparer les features (X) et la cible (y)
X = data.drop("charges", axis=1)
y = data["charges"]

# Diviser les données en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Créer le modèle avec les paramètres par défaut
xgb = XGBRegressor()

# Entraîner le modèle
xgb.fit(X_train, y_train)

# Prédire sur les données de test
y_pred = xgb.predict(X_test)

# Évaluer le modèle
mae = mean_absolute_error(y_test, y_pred) # Mean Absolute Error
rmse = np.sqrt(mean_squared_error(y_test, y_pred)) # Root Mean Squared Error
r2 = r2_score(y_test, y_pred) # R² Score

print(f"Mean Absolute Error (MAE): {mae}")
print(f"Root Mean Squared Error (RMSE): {rmse}")
print(f"R² Score: {r2}")


Mean Absolute Error (MAE): 0.21676030125302043
Root Mean Squared Error (RMSE): 0.40654051174666905
R² Score: 0.8161266098399784


#### **4. Support Vector Regression (SVR) :**

In [15]:
from sklearn.svm import SVR
from sklearn.metrics import *

# Charger le dataset
data = pd.read_csv("../data/processed/data.csv")

# Séparer les features (X) et la cible (y)
X = data.drop("charges", axis=1)
y = data["charges"]

# Diviser les données en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Créer le modèle SVR avec paramètres par défaut
svr = SVR()

# Entraîner le modèle
svr.fit(X_train, y_train)

# Prédire
y_pred = svr.predict(X_test)

# Évaluer le modèle
mae = mean_absolute_error(y_test, y_pred) # Mean Absolute Error
rmse = np.sqrt(mean_squared_error(y_test, y_pred)) # Root Mean Squared Error
r2 = r2_score(y_test, y_pred) # R² Score

print(f"Mean Absolute Error (MAE): {mae}")
print(f"Root Mean Squared Error (RMSE): {rmse}")
print(f"R² Score: {r2}")

Mean Absolute Error (MAE): 0.1703509478305
Root Mean Squared Error (RMSE): 0.359636728775048
R² Score: 0.8561071210653225
