<h5 style="text-align:right;color:gray;">Réalisé par: <span style="color:orange;font-weight:bold;">Ehiri Mohammed</span></h5>

# ***`Partie 1/2 : La regression lineaire`***


# 
# 

# 
**Importation des bibliotheques necessaires**

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")


ModuleNotFoundError: No module named 'numpy'

# 
**Chargement des données**

- Nous utilisons la librairie **pandas** de Python pour présenter les données en format **DataFrame**.

In [None]:
df = pd.read_csv("../data/regresson.csv")

# 
**Phase d'Analyse des données**


- La méthode `head()` permet d'afficher 5 premières lignes du dataframe. 

In [None]:
df.head()


# 
- Affichage des informations concernant le type des colonnes par la methode  `df.info()`

In [None]:
df.info()


# 
- La méthode **`describe`** affiche des statistiques descriptives des données numériques.

In [None]:
df.describe()

# 
- **`sns.heatmap()`** est une fonction de la bibliothèque Python Seaborn qui permet de créer des cartes de chaleur pour visualiser les données tabulaires sous forme de matrices. Cette fonction peut être utilisée pour explorer les relations entre deux variables, en affichant une couleur différente pour chaque valeur de la variable sur la carte de chaleur.

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(df.corr(), cmap="RdBu")
plt.title("Correlations Between Variables", size=15)
plt.show()

**Selection des colonnes | variables qui nous interesse le plus**

- nous allons choisir seulement les variables qui ont un indice de correlation `> 0.5` ou `< -0.5`  avec la variable cible  `SalePrice`


In [None]:
colonnes_numeriques = list( df.corr()["SalePrice"][ ( df.corr()["SalePrice"] > 0.50 ) | ( df.corr()["SalePrice"] < -0.50 )].index)
colonnes_qualitatives = ["MSZoning", "Utilities","BldgType","Heating","KitchenQual","SaleCondition","LandSlope"]
colonnes_importantes = colonnes_numeriques + colonnes_qualitatives

df = df[colonnes_importantes]

# 
- **`df.isna().sum()`** est une méthode de pandas qui renvoie un objet Series contenant le nombre de valeurs manquantes (NaN) pour chaque colonne d'un DataFrame df.

In [None]:
print(df.isna().sum())
print("Total des valeurs monquantes:",df.isna().sum().sum())

# 
- **`sns.pairplot()`** est une fonction de la bibliothèque Python Seaborn qui permet de créer des graphiques de dispersion (scatter plots) et des histogrammes pour visualiser les relations entre paires de variables dans un ensemble de données. Chaque paire de variables est représentée sur un graphique 2D, avec les valeurs d'une variable sur l'axe des abscisses et les valeurs de l'autre variable sur l'axe des ordonnées.

In [None]:
sns.pairplot(df[colonnes_numeriques]);


# 
**Preparation des données**

##### Decoupage du jeu de données en `X` et `y`:
- X : les variables explicatives (Explained variables)
- y : la variable à expliquer ou la variable cible (Target variable)

In [None]:
X = df.drop("SalePrice", axis=1)
y = df["SalePrice"]

# 
**Decodage des variables qualitatives**

- La fonction pd.get_dummies() est une fonction de la bibliothèque Python Pandas qui permet de créer des variables indicatrices (ou variables dummy) à partir d'une variable catégorielle (ou nominale). Elle transforme une variable catégorielle en plusieurs variables binaires (0 ou 1), chacune représentant une catégorie de la variable d'origine. Cela est souvent utile pour l'analyse de données et la modélisation, car les modèles de machine learning ne peuvent pas directement traiter les variables catégorielles. La fonction permet également de spécifier des préfixes pour les noms de colonnes des nouvelles variables créées.

In [None]:
X = pd.get_dummies(X, columns=colonnes_qualitatives)

# 
**Standardisation des données**


- La standardisation des données en apprentissage automatique (ML) est une étape importante dans le prétraitement des données avant de les utiliser pour entraîner un modèle de ML. La standardisation des données vise à mettre toutes les variables d'entrée à la même échelle afin que les modèles de ML puissent fonctionner plus efficacement.

- La standardisation des données implique de transformer les données d'entrée de manière à avoir une moyenne nulle et une variance unitaire. Cela peut être fait en soustrayant la moyenne de chaque variable d'entrée et en divisant par l'écart type. Cette opération est généralement effectuée sur chaque colonne de la matrice de données.


In [None]:
from sklearn.preprocessing import StandardScaler

colonnes_numeriques.remove("SalePrice")

scaler = StandardScaler()
X[colonnes_numeriques] = scaler.fit_transform(X[colonnes_numeriques])

# 
**Division de données en une patie d'apprentissage et une autre de test**

- La fonction **`train_test_split`** est une fonctionnalité courante dans le prétraitement des données pour les modèles de machine learning. Elle est utilisée pour séparer les données en un ensemble **d'apprentissage** et un ensemble de **test**, afin de pouvoir évaluer la performance du modèle sur des données qui n'ont pas été utilisées pour l'entraînement.

<img src="train_test_split.png" alt="Splitting original dataset in training and test" width="400" aling="center">

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#
- Definition d'une fonction pour l'evaluation des modeles 

In [None]:
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

def evaluation(y, predictions):
    
    mae = mean_absolute_error(y, predictions)
    mse = mean_squared_error(y, predictions)
    rmse = np.sqrt(mean_squared_error(y, predictions))
    r2 = r2_score(y, predictions)
    print("-+-"*30)
    print("L'evaluation du modele selon les metriques suivantes:")
    print("-+-"*30)
    print()
    print("MAE  ===> ", mae)
    print("MSE  ===> ", mse)
    print("RMSE   ===> ", rmse)
    print("R2 Score   ===> ", r2)
    print("-+-"*30)
    
    return mae, mse, rmse, r2





In [None]:
def Coeff_intercept_model(model):
    coefs = model.coef_
    intercept = model.intercept_
    
    print("-+-"*30)
    print("Coefficients : \n", coefs)
    print("-+-"*30)
    print("Biais : ", intercept)
    print("-+-"*30)

- Cette fonction prend en entrée un modèle de régression linéaire entraîné avec scikit-learn et utilise les attributs `coef_` et `intercept_` pour afficher les coefficients et le biais respectivement.

#

In [None]:
models = pd.DataFrame(columns=["Model","MAE","MSE","RMSE","R2 Score"])

- La ligne de code crée un objet pandas DataFrame vide appelé "models" qui aura quatre colonnes: "Model", "MAE", "MSE", "RMSE", et "R2 Score". Cette ligne sert à stocker les résultats de l'évaluation des différents modèles de régression que nous allons entraîner, afin de pouvoir les comparer facilement et choisir le meilleur modèle en fonction des métriques d'évaluation. Chaque ligne de ce DataFrame correspondra à un modèle, et chaque colonne contiendra une métrique d'évaluation différente pour ce modèle.
# 

# 
#### K-plus proches voisins pour la regression
- L'algorithme **`KNeighborsRegressor`** fonctionne en trouvant les k points de données les plus proches du point de données que l'on souhaite prédire. Ensuite, il calcule la moyenne (ou la médiane) de la variable cible des k points les plus proches et utilise cette valeur pour prédire la variable cible du point de données en question.

- La distance entre les points de données est généralement mesurée à l'aide de la distance euclidienne, bien qu'il existe d'autres mesures de distance possibles. Le paramètre **k**, qui représente le nombre de voisins à prendre en compte pour chaque prédiction, doit être défini par l'utilisateur.

- `KNeighborsRegressor` est un algorithme simple et efficace pour la régression de données. Il peut être utile pour les ensembles de données de petite à moyenne taille et pour les problèmes de régression non linéaires. Cependant, il peut être moins efficace pour les grands ensembles de données en raison de la complexité de calcul de la distance entre chaque point de données.

In [None]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import GridSearchCV
import numpy as np

param_grid = {"n_neighbors": np.arange(1, 41)}

knn = KNeighborsRegressor()

grid_search = GridSearchCV(knn, param_grid, cv=20)
grid_search.fit(X_train, y_train)

n_neighbors= grid_search.best_params_["n_neighbors"]

print("Meilleure valeur de n_neighbors : ", n_neighbors)

knn_best = KNeighborsRegressor(n_neighbors=grid_search.best_params_["n_neighbors"])
knn_best.fit(X_train, y_train)
y_pred = knn_best.predict(X_test)


In [None]:
from sklearn.neighbors import KNeighborsRegressor

knn = KNeighborsRegressor(n_neighbors=n_neighbors) # n_neighbors = 8

knn.fit(X_train, y_train)

knn_model = knn.predict(X_test)

mae, mse, rmse, r_squared = evaluation(y_test, knn_model)
new_row = {"Model": "K-plus proches voisins","MAE": mae, "MSE": mse, "RMSE": rmse, "R2 Score": r_squared}
models = models.append(new_row, ignore_index=True)

# 
# **La Regression Lineaire**
`LinearRegression` est une classe de la bibliothèque Python scikit-learn (sklearn) qui permet de réaliser une régression linéaire. La régression linéaire est une technique d'apprentissage supervisé qui vise à établir une relation linéaire entre une variable cible (aussi appelée variable dépendante) et une ou plusieurs variables prédictives (aussi appelées variables indépendantes).

La classe `LinearRegression` implémente l'algorithme de la moindre carrée ordinaire pour estimer les coefficients de la régression linéaire. Cet algorithme minimise la somme des carrés des différences entre les valeurs prédites et les valeurs observées de la variable cible.

In [None]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

lin_reg_model = lin_reg.predict(X_test)

mae, mse, rmse, r_squared = evaluation(y_test, lin_reg_model)

new_row = {"Model": "Regression Lineaire","MAE": mae, "MSE": mse, "RMSE": rmse, "R2 Score": r_squared}
models = models.append(new_row, ignore_index=True)

In [None]:
Coeff_intercept_model(lin_reg)

In [None]:
plt.scatter(y_test, lin_reg_model)
plt.xlabel('Valeurs réelles')
plt.ylabel('Prédiction')
plt.title('Prédiction vs. Valeurs réelles')
plt.show()

- Dans cet exemple, `lin_reg` est le modèle de régression linéaire entraîné sur les données d'entraînement, X_train et y_train. Les prédictions sont effectuées sur les données de test, X_test, et comparées aux vraies valeurs correspondantes, y_test. Le graphique résultant montre la relation entre les vraies valeurs et les prédictions, ce qui peut donner une idée de la qualité du modèle.

- nous pouvons en deduire qu'il y a une correlation entre les prédictions et les vraies valeurs , ce qui signifie que le modele `lin_reg`  de régression linéaire donne de bons resultats.

# 
# Ridge & Lasso
- **`Ridge`** est une technique de régularisation pour les modèles de régression linéaire. L'objectif de la régularisation est de prévenir le surapprentissage (overfitting) en ajoutant une pénalité aux coefficients du modèle afin de les rendre plus petits.

La régression Ridge est une variante de la régression linéaire qui utilise une fonction de coût modifiée pour ajouter une pénalité à la somme des carrés des coefficients. La fonction de coût pour la régression Ridge est :

**`J = MSE + alpha * sum(w^2)`**

où `MSE` est l'erreur quadratique moyenne (mean squared error) de la régression linéaire ordinaire, `alpha` est un paramètre de régularisation (aussi appelé hyperparamètre) qui contrôle l'importance de la pénalité, `w` est le vecteur des coefficients du modèle (y compris l'interception), et `sum(w^2)` est la somme des carrés des coefficients.

- La valeur de alpha doit être choisie de manière à trouver un compromis entre l'ajustement des données et la régularisation. Une valeur plus élevée de alpha entraîne une plus grande pénalité et des coefficients plus petits, ce qui peut réduire le surapprentissage mais également réduire les performances du modèle.

In [None]:
from sklearn.linear_model import RidgeCV

ridge_cv = RidgeCV(alphas=[1e-3, 1e-2, 1e-1, 1, 10, 1e2, 1e3], cv=5)
ridge_cv.fit(X_train, y_train)

# Affichage de la meilleure valeur de alpha
print("Meilleure valeur de alpha :", ridge_cv.alpha_)


In [None]:
from sklearn.linear_model import Ridge

ridge = Ridge(alpha=ridge_cv.alpha_)

ridge.fit(X_train, y_train)

ridge_model = ridge.predict(X_test)

mae, mse, rmse, r_squared = evaluation(y_test, ridge_model)

new_row = {"Model": "ridge_model","MAE": mae, "MSE": mse, "RMSE": rmse, "R2 Score": r_squared}
models = models.append(new_row, ignore_index=True)

In [None]:
# Affichage des coefficients et le biais
Coeff_intercept_model(ridge)

### **Recapitulation**
`Dans cet exemple, nous créons un nouvel objet Ridge avec la meilleure valeur de alpha trouvée, puis entraînons le modèle sur toutes les données d'entraînement (X_train et y_train). Nous pouvons ensuite évaluer les performances du modèle sur les données de test en utilisant la fonction evaluation().`

# 

In [None]:
alphas = np.logspace(-2, 6, 100)
coefs = []
for a in alphas:
    ridge = Ridge(alpha=a)
    ridge.fit(X_train, y_train)
    coefs.append(ridge.coef_)
plt.figure(figsize=(9, 5))
ax = plt.gca()
plt.axvline(x=np.log10(ridge_cv.alpha_), linestyle='--', color='k')
ax.plot(np.log10(alphas), coefs)
ax.set_xscale('log')
ax.set_xlabel('log(alpha)')
ax.set_ylabel('coefficients')
ax.set_title('Ridge path')

plt.show()

# **`Régulatisation`**
### **Lasso**


`Lasso` (Least Absolute Shrinkage and Selection Operator) est une technique de régularisation pour les modèles de régression linéaire, similaire à la régression Ridge. La régularisation Lasso ajoute une pénalité à la somme des valeurs absolues des coefficients, plutôt qu'à la somme des carrés des coefficients.

La fonction de coût pour la régression Lasso est :

**`J = MSE + alpha * sum(|w|)`**

où `MSE` est l'erreur quadratique moyenne de la régression linéaire ordinaire, `alpha` est un paramètre de régularisation, w est le vecteur des coefficients du modèle (y compris l'interception), et `sum(|w|)` est la somme des valeurs absolues des coefficients.

Contrairement à la régression Ridge, la régularisation Lasso peut entraîner des coefficients exactement égaux à zéro. Cela signifie que la régression Lasso peut également être utilisée comme méthode de sélection de variables, car les coefficients des variables non pertinentes peuvent être réduits à zéro. Cependant, cela peut également rendre le modèle plus instable et sensible aux variations aléatoires dans les données.

- Le paramètre **`alpha`** en Lasso contrôle le niveau de régularisation appliqué au modèle. Plus la valeur de alpha est grande, plus la régularisation est forte et plus le modèle sera simple. Cependant, si alpha est trop grand, le modèle peut sous-apprendre et les prédictions seront de mauvaise qualité.

- Pour trouver la meilleure valeur de alpha pour un modèle de régression Lasso, on peut utiliser une méthode de recherche par validation croisée. Cette approche consiste à diviser les données en plusieurs ensembles de formation et de test, à entraîner le modèle sur les données de formation avec différentes valeurs de alpha, puis à évaluer les performances du modèle sur les données de test. On sélectionne ensuite la valeur de alpha qui donne les meilleures performances en termes de score de validation croisée.

# 
- La classe LassoCV de scikit-learn effectue une recherche par validation croisée pour trouver la meilleure valeur de alpha. L'argument cv spécifie le nombre de plis dans la validation croisée (5 dans cet exemple). L'objet lasso_cv est entraîné sur les données d'entraînement (X_train et y_train), et la meilleure valeur de alpha est stockée dans l'attribut alpha_ de l'objet.

In [None]:
from sklearn.linear_model import LassoCV

lasso_cv = LassoCV(cv=15)
lasso_cv.fit(X_train, y_train)
print("Meilleure valeur de alpha :", lasso_cv.alpha_)


In [None]:
from sklearn.linear_model import Lasso

lasso = Lasso(alpha = lasso_cv.alpha_)
lasso.fit(X_train, y_train)
lasso_model = lasso.predict(X_test)

mae, mse, rmse, r_squared = evaluation(y_test, lasso_model)
new_row = {"Model": "lasso_model","MAE": mae, "MSE": mse, "RMSE": rmse, "R2 Score": r_squared}
models = models.append(new_row, ignore_index=True)

* `Dans cet exemple,nous avons  créé une instance de la classe Lasso et entraîné le modèle sur les données à l'aide de la méthode fit(). Enfin, nous avons affiché les coefficients de la régression à l'aide des attributs coef_ et intercept_.`

# 


In [None]:
# Affichage des coefficients et le biais du modele
Coeff_intercept_model(lasso)

### **Interpretation**
*`On peut observer que plusieurs coefficients de régression ont été réduits à zéro pour les variables. Cela suggère que les variable qui'ont conservé un coefficient > ou <  à 0  sont les plus importantes pour la prédiction de y, tandis que les autres variables ont été éliminées par Lasso.`*
# 

In [None]:
alphas = np.logspace(-6, 6, 100)
coefs = []
for a in alphas:
    lasso = Lasso(alpha=a, max_iter=10000)
    lasso.fit(X_train, y_train)
    coefs.append(lasso.coef_)

plt.figure(figsize=(9, 5))
ax = plt.gca()

plt.axvline(x=np.log10(lasso_cv.alpha_), linestyle='--', color='k')

ax.plot(np.log10(alphas), coefs)
ax.set_xscale('log')
ax.set_xlabel('log(alpha)')
ax.set_ylabel('coefficients')
ax.set_title('Lasso path')

plt.show()

- Ce graphique nous permet de suivre l'évolution des coefficients en fonction de la valeur de alpha, représentée sur l'axe horizontal en échelle logarithmique. La ligne verticale en pointillés représente la valeur optimale de alpha qui a été choisie pour le modèle. En comparant les coefficients avant et après l'application de Ridge, nous pouvons observer quels coefficients ont été réduits en valeur grâce à la régularisation.
# 

# 
# **SVR (Support Vector Regression)**

`SVR` (Support Vector Regression) est une technique de régression qui utilise la méthode des machines à vecteurs de support (SVM) pour prédire les valeurs continues. Comme pour la classification SVM, l'idée de base de la SVR est de trouver un hyperplan qui maximise la marge entre les points de données et l'hyperplan.

Contrairement à la régression linéaire, la SVR peut utiliser des fonctions de noyau non linéaires pour transformer les données en un espace de grande dimension, où l'hyperplan de décision peut être trouvé plus facilement. En général, les fonctions de noyau les plus couramment utilisées sont le noyau linéaire, le noyau polynomial et le noyau RBF (fonction de base radiale).

Le principe de base de la SVR est de minimiser l'erreur de prédiction tout en maximisant la marge autour de l'hyperplan de décision. L'erreur de prédiction est mesurée comme la différence entre la valeur prédite et la vraie valeur de la cible. La marge autour de l'hyperplan de décision est définie comme la distance entre l'hyperplan et le point de données le plus proche de l'hyperplan dans l'espace de grande dimension.

La fonction de coût pour la SVR est :

**`J = C * sum(hinge loss) + 1/2 * ||w||^2`**


où `C` est un paramètre de régularisation, hinge loss est la fonction de perte qui mesure l'erreur de prédiction, `w` est le vecteur des coefficients du modèle, et `||w||^2` est la norme L2 des coefficients.

- Pour trouver les meilleures valeurs pour les hyperparamètres d'un modèle de régression à vecteurs de support (SVR), nous allons utiliser une recherche par grille (grid search) ou une recherche aléatoire (random search) sur une plage de valeurs pour chaque hyperparamètre. Les deux approches sont des méthodes de recherche d'hyperparamètres courantes.

In [None]:
from sklearn.svm import SVR
from scipy.stats import uniform

from sklearn.model_selection import RandomizedSearchCV

param_dist = {'C': uniform(0, 100000), 'gamma': ['scale', 'auto'], 'kernel': ['linear', 'rbf', 'poly']}
svr = SVR()

random_search = RandomizedSearchCV(svr, param_distributions=param_dist, cv=5, n_iter=50, n_jobs=-1)

random_search.fit(X_train, y_train)

print("Meilleurs hyperparamètres : {}".format(random_search.best_params_))


In [None]:
svr = SVR(C= 95732.66861334073, gamma='auto', kernel= 'rbf')
svr.fit(X_train, y_train)
svr_model = svr.predict(X_test)


mae, mse, rmse, r_squared = evaluation(y_test, svr_model)
new_row = {"Model": "svr_model","MAE": mae, "MSE": mse, "RMSE": rmse, "R2 Score": r_squared}
models = models.append(new_row, ignore_index=True)

**Remarque**
*La valeur du paramètre de régularisation C pour SVM dépend de la complexité de  l'ensemble de données et de la tolérance à l'erreur de prédiction. En général, une valeur plus grande de C donnera un modèle avec une marge d'erreur plus petite, ce qui peut conduire à un surapprentissage si la valeur de C est trop grande.*

### **Recapitulation**


- *`Dans cet exemple, nous avons défini les hyperparamètres à tester à l'aide d'un dictionnaire param_dist. Nous avons  créé un objet de modèle SVR et utilisé la méthode RandomizedSearchCV pour rechercher aléatoirement les meilleures valeurs d'hyperparamètres. Nous avons ajusté le modèle sur les données d'entraînement et utilisé les meilleurs hyperparamètres pour prédire les valeurs sur les données de test.`*

#
# **DecisionTreeRegressor**

- `DecisionTreeRegressor` est une classe de la bibliothèque Python scikit-learn qui permet de construire des modèles de régression à partir d'arbres de décision. Un arbre de décision est une méthode d'apprentissage supervisé qui utilise une série de règles de décision pour prédire les valeurs de la cible.

- Le principe de base de l'arbre de décision est de diviser récursivement les données en sous-ensembles plus petits en fonction des valeurs des variables prédictives, jusqu'à ce que chaque sous-ensemble soit suffisamment homogène en termes de valeurs de la cible ou jusqu'à ce qu'une limite de profondeur maximale soit atteinte. Chaque division est choisie de manière à minimiser la variance des valeurs de la cible dans chaque sous-ensemble. L'arbre résultant peut être considéré comme un ensemble de règles de décision simples qui peuvent être facilement interprétées.

- L'algorithme de construction de l'arbre de décision pour la régression utilise la mesure de la variance de la cible dans chaque sous-ensemble pour évaluer la qualité de la division. La variance est une mesure de la dispersion des valeurs de la cible dans chaque sous-ensemble, et plus elle est faible, plus les valeurs de la cible sont homogènes. L'algorithme cherche donc à diviser les données de manière à minimiser la variance dans chaque sous-ensemble.

- La fonction de coût pour la construction de l'arbre de décision est la variance réduite (reduced variance), qui est définie comme la différence entre la variance totale des valeurs de la cible et la somme pondérée des variances des valeurs de la cible dans chaque sous-ensemble. Plus cette valeur est élevée, meilleure est la division.

In [None]:
from sklearn.tree import DecisionTreeRegressor

arbre_decision = DecisionTreeRegressor()
arbre_decision.fit(X_train, y_train)
arbre_decision_model = arbre_decision.predict(X_test)

mae, mse, rmse, r_squared = evaluation(y_test, arbre_decision_model)
new_row = {"Model": "arbre_decision_model","MAE": mae, "MSE": mse, "RMSE": rmse, "R2 Score": r_squared}
models = models.append(new_row, ignore_index=True)

## 
- *`Nous avons créé une instance de la classe DecisionTreeRegressor. Nous avons entraîné le modèle sur les données à l'aide de la méthode fit(), puis nous avons utilisé le modèle pour faire des prédictions sur une grille de points de test X_test.`*

# 

`plot_tree` est une fonction de la bibliothèque Python scikit-learn qui permet de visualiser l'arbre de décision construit par un modèle de régression ou de classification. Cette fonction est très utile pour comprendre comment l'arbre de décision prend des décisions et pour interpréter les résultats d'un modèle.

In [None]:
from sklearn.tree import export_text, plot_tree

plot_tree(arbre_decision, feature_names=list(X_train.columns),  class_names=y.unique(), filled=True); #Pour afficher le text , supprimer le point virgule

# 
# **RandomForestRegressor**

- `RandomForestRegressor` est un modèle d'apprentissage supervisé de la bibliothèque Python **`scikit-learn`**, qui utilise un ensemble d'**`arbres de décision`** pour effectuer une régression sur des données d'entrée. Le modèle est basé sur la technique d'ensemble learning appelée forêt aléatoire (random forest), qui consiste à entraîner plusieurs arbres de décision sur des sous-ensembles différents des données d'entraînement, puis à combiner les prédictions des arbres pour obtenir une prédiction finale plus robuste.

- Le modèle RandomForestRegressor est très utile pour les problèmes de régression non linéaires, car il peut modéliser des relations complexes entre les variables prédictives et la variable cible. Il est également résistant au **surapprentissage (overfitting)** grâce à la technique de bagging (bootstrap aggregating) qui est utilisée pour entraîner les arbres de décision.

#

**une recherche aléatoire (randomized search) des meilleurs hyperparamètres pour un modèle RandomForestRegressor**

**`RandomizedSearchCV`** est une fonction de la bibliothèque Python scikit-learn qui permet d'effectuer une recherche aléatoire (randomized search) des meilleurs hyperparamètres pour un modèle d'apprentissage supervisé en utilisant une validation croisée (cross-validation). La recherche aléatoire des hyperparamètres est utile lorsque l'espace des hyperparamètres est grand et qu'il est difficile ou coûteux de l'explorer entièrement avec une recherche exhaustive.

La fonction RandomizedSearchCV prend en entrée un modèle d'apprentissage supervisé, une grille d'hyperparamètres à explorer, un nombre de combinaisons aléatoires à tester, une métrique d'évaluation et une stratégie de validation croisée. Elle retourne le meilleur ensemble d'hyperparamètres trouvés et la performance associée.

In [None]:

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import RandomizedSearchCV
import numpy as np

model = RandomForestRegressor()

n_estimators = [int(x) for x in np.linspace(start = 100, stop = 1000, num = 10)]
max_depth = [int(x) for x in np.linspace(10, 110, num = 11)]
max_depth.append(None)
min_samples_split = [2, 5, 10]
min_samples_leaf = [1, 2, 4]
max_features = ['auto', 'sqrt']

random_grid = {
    'n_estimators': n_estimators,
    'max_depth': max_depth,
    'min_samples_split': min_samples_split,
    'min_samples_leaf': min_samples_leaf,
    'max_features': max_features
}

rf_random = RandomizedSearchCV(estimator = model, param_distributions = random_grid, 
                               n_iter = 10, cv = 3, verbose=2, random_state=42, n_jobs = -1)

rf_random.fit(X_train, y_train)

print(rf_random.best_params_)


In [None]:
from sklearn.ensemble import RandomForestRegressor

random_forest = RandomForestRegressor(n_estimators=500, min_samples_split= 2, min_samples_leaf=2, max_features='auto', max_depth= 80)
random_forest.fit(X_train, y_train)
foret_aleatoire_model = random_forest.predict(X_test)

mae, mse, rmse, r_squared = evaluation(y_test, foret_aleatoire_model)
new_row = {"Model": "foret_aleatoire_model","MAE": mae, "MSE": mse, "RMSE": rmse, "R2 Score": r_squared}
models = models.append(new_row, ignore_index=True)

### **Recapitulation**

- *`Dans cet exemple, nous avons défini une grille d'hyperparamètres à explorer pour le modèle RandomForestRegressor, comprenant le nombre d'arbres (n_estimators), le nombre maximum de variables à considérer à chaque division (max_features), la profondeur maximale des arbres (max_depth), le nombre minimum d'échantillons requis pour une division (min_samples_split) et le nombre minimum d'échantillons requis pour une feuille (min_samples_leaf). Nous avons créé un objet RandomizedSearchCV en spécifiant le modèle, la grille d'hyperparamètres, la stratégie de validation croisée (cv),une graine aléatoire (random_state). Nous avons lancé la recherche aléatoire des hyperparamètres sur les données d'entraînement.`*
# 

# 
# MLPRegressor

- Le modèle de **`MLPRegressor`** est un réseau de neurones artificiels qui utilise une ou plusieurs couches cachées de neurones interconnectés pour apprendre une fonction non linéaire qui mappe un ensemble de variables d'entrée à une variable de sortie continue. Les couches cachées sont composées de neurones qui appliquent une fonction d'activation non linéaire à une combinaison linéaire des entrées pondérées.

- L'objectif de l'algorithme de MLPRegressor est de **minimiser** la `fonction de perte` (loss function) qui mesure l'écart entre les prédictions du modèle et les vraies valeurs de sortie. Pour cela, il utilise la technique de rétropropagation du gradient (backpropagation) pour ajuster les poids des connexions entre les neurones et améliorer les prédictions.

In [None]:
from sklearn.neural_network import MLPRegressor
MLPRegressor = MLPRegressor(hidden_layer_sizes=15,solver='lbfgs',max_iter=1500,random_state=80)

MLPRegressor.fit(X_train, y_train)
MLPRegressor_model = MLPRegressor.predict(X_test)

mae, mse, rmse, r_squared = evaluation(y_test, MLPRegressor_model)
new_row = {"Model": "MLPRegressor_model","MAE": mae, "MSE": mse, "RMSE": rmse, "R2 Score": r_squared}
models = models.append(new_row, ignore_index=True)

In [None]:
plt.scatter(y_test, MLPRegressor_model)
plt.plot([y_test.min(), y_test.max()], [MLPRegressor_model.min(), MLPRegressor_model.max()], '--', color='red')
plt.xlabel('Valeurs réelles')
plt.ylabel('Prédiction')
plt.title('Prédiction vs. Valeurs réelles')
plt.show()

- Le graphe montre  une ligne en pointillés rouges représentant la diagonale, qui correspondrait à une prédiction parfaite.

### Recapitulation
- *`Dans cet exemple,nous avons créé un objet MLPRegressor en spécifiant le nombre et la taille des couches cachées (hidden_layer_sizes), l'algorithme d'optimisation (solver), le nombre maximum d'itérations (max_iter) et une graine aléatoire (random_state). Nous avons entraîné le modèle sur les données d'entraînement à l'aide de la méthode fit, et prédit les valeurs de sortie pour les données de test à l'aide de la méthode predict. Enfin, nous avons calculé la performance du modèle en utilisant la fonction evaluation .`*

# 

In [None]:
models.sort_values(by="R2 Score", ascending=False)

- La ligne de code "models.sort_values(by='R2 Score')" trie les lignes du DataFrame "models" en fonction des valeurs de la colonne "R2 Score" (le coefficient de détermination). Elle renvoie un nouveau DataFrame trié dans l'ordre croissant des valeurs de "R2 Score". Cette ligne de code est souvent utilisée pour classer les modèles selon leur performance sur une métrique particulière, dans ce cas, le R2 Score.

- Cela permet de visualiser rapidement quel modèle a la meilleure performance sur cette métrique, en le plaçant en haut de la liste.
# 

# 
### **Vous pouvez visualiser les resultats des modeles pour plusieurs `metriques`, il suffit de fixer l'axe **y** par la metrique qui vous convient.**

In [None]:
plt.figure(figsize=(8,5))
sns.barplot(x=models["Model"], y=models["R2 Score"])
plt.title("Models' RMSE Scores (Cross-Validated)", size=10)
plt.xticks(rotation=90, size=10)
plt.grid()
plt.show();

# 
# **Conclusion**
*`En conclusion, les modèles de régression linéaire sont des méthodes puissantes de modélisation statistique qui permettent d'analyser et de prédire les relations entre des variables quantitatives. Les modèles de régression linéaire simples sont relativement faciles à comprendre et à interpréter, tandis que les modèles de régression linéaire multiple peuvent être utilisés pour étudier les interactions entre plusieurs variables indépendantes.`*

*`Il existe plusieurs techniques pour entraîner des modèles de régression linéaire, chacune avec ses avantages et ses inconvénients. Les modèles de régression linéaire régularisée, tels que la régression Ridge et la régression Lasso, permettent de régulariser les coefficients de régression et de réduire la variance du modèle, ce qui peut améliorer les performances de prédiction.`*

*`Cependant, il est important de se rappeler que les modèles de régression linéaire ont des hypothèses strictes, notamment en ce qui concerne la linéarité, l'indépendance, l'homoscédasticité et la normalité des résidus. Il est donc important de vérifier que ces hypothèses sont satisfaites avant d'interpréter les résultats du modèle.`*

*`Enfin, il est souvent utile d'évaluer les performances des modèles de régression linéaire en utilisant une combinaison de métriques d'erreur, telles que le MSE, le RMSE, le MAE ou le R². Il est également important d'utiliser des techniques de validation croisée pour éviter le surapprentissage et de régulariser les modèles si nécessaire.`*