<a href="https://colab.research.google.com/github/topdeveloppement/ai-nexus-one-machine-learning/blob/main/regression_lineaire_multiple.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<div style="position: relative; border-radius: 20px; overflow: hidden;">
    <img src="https://github.com/topdeveloppement/ai-nexus-one-machine-learning/blob/main/ml.jpeg?raw=true\" alt="Régression Linéaire Multiple" style="width: 100%; height: auto; display: block;">
    <div style="position: absolute; top: 50%; left: 20px; transform: translateY(-50%); padding: 10px 20px; border-radius: 8px; font-size: 1.5em; color: white; font-weight: bold;">
        Introduction à la Régression Linéaire Multiple
    </div>
</div>

<div style="padding: 20px; box-shadow: 0 4px 8px rgba(0, 0, 0, 0.1); border-radius: 8px; margin: 15px auto;">
    <div style="display: flex; align-items: center;">
        <div style="flex: 0 0 auto; margin-right: 10px;">
            <img src="https://github.com/topdeveloppement.png" alt="Photo de l'auteur" style="border-radius: 4px; width: 100px; height: 100px; object-fit: cover;">
        </div>
        <div style="text-align: left;">
            <h3 style="margin: 4px 0; font-size: 1.5em;">Auteur : Omar Kennouche</h3>
            <p style="margin: 0;">Fonction : Chef de Projet Intelligence Artificielle et RPA</p>
            <p style="margin: 0;">Entreprise : AI Nexus One</p>
            <p style="margin: 0;">Contact : <a href="mailto:contact@topdeveloppement.tech" style="color: #0073e6; text-decoration: none;">contact@topdeveloppement.tech</a></p>
        </div>
    </div>
</div>

### Présentation d'AI Nexus One

**AI Nexus One** est un projet innovant de **formation** et de **développement de solutions en intelligence artificielle**, conçu pour accompagner les entreprises dans l’exploitation des technologies avancées afin d’**optimiser leurs opérations**, **innover**, et renforcer leur **compétitivité**.

### Structure d'AI Nexus One

AI Nexus One est structuré autour de trois branches principales :

- **Genesis** : modules de formation approfondis permettant aux entreprises de comprendre et maîtriser les concepts de l'IA.
- **Osiris** : assistant intelligent centralisé, conçu pour gérer des tâches complexes et optimiser les processus.
- **Flow** : orientée vers l'automatisation et la fluidification des processus métier.

### 🌐 Objectifs et Services

AI Nexus One propose :
- Une gamme complète de **modules de formation** sur des sujets comme le Machine Learning, la vision par ordinateur, et l’automatisation (RPA).
- Des solutions **sur mesure** adaptées aux besoins des entreprises.
- Un accompagnement pour faciliter l'**intégration pratique de l'IA** dans des domaines tels que les ressources humaines, la gestion des données et la relation client.

### 🤝 Vision

En somme, **AI Nexus One** se veut un partenaire de choix pour les entreprises cherchant à se démarquer dans un monde en évolution rapide, tout en conservant une approche **humaine** et **intuitive** des technologies.

---

# 🌟 La Régression Linéaire Multiple

La **régression linéaire multiple** est une extension de la régression linéaire simple qui permet de modéliser la relation entre une variable dépendante (à prédire) et plusieurs variables indépendantes (explicatives). Elle est particulièrement utile lorsque le phénomène étudié est influencé par plusieurs facteurs.

## 🎯 Définition et Objectifs

- **Objectif principal** : Comprendre comment plusieurs variables indépendantes influencent une variable dépendante, et utiliser ce modèle pour prédire des valeurs futures.
- **Modélisation** : Identifier et ajuster un hyperplan dans un espace multidimensionnel qui représente au mieux les relations linéaires entre les variables.

## 📈 Cas d'Utilisation et Exemples Concrets

La régression linéaire multiple est utilisée dans divers domaines, notamment :

- 🌾 **Agriculture** : Prédire le rendement d'une culture en fonction de la quantité de fertilisant, des précipitations, de la température, et du type de sol.
- 🏠 **Immobilier** : Estimer le prix d'un bien immobilier en fonction de sa superficie, du nombre de pièces, de l'emplacement, et de l'âge du bâtiment.
- 📊 **Économie** : Prévoir les ventes d'une entreprise en fonction du budget marketing, du prix du produit, et des tendances du marché.

## ⚙️ Hypothèses de Base

Les hypothèses de la régression linéaire multiple sont similaires à celles de la régression linéaire simple :

1. **📐 Linéarité** : La relation entre les variables indépendantes et la variable dépendante est linéaire.
2. **🔗 Indépendance des erreurs** : Les résidus sont indépendants les uns des autres.
3. **⚖️ Homoscedasticité** : La variance des erreurs est constante pour toutes les valeurs des variables indépendantes.
4. **📊 Normalité des erreurs** : Les erreurs suivent une distribution normale.
5. **🚫 Absence de multicolinéarité** : Les variables indépendantes ne doivent pas être fortement corrélées entre elles.

---


# 🛠️ Préparation de l'Environnement

Dans cette section, nous allons :

- 📦 Importer les bibliothèques nécessaires.
- 📂 Charger les données d'exemple.

---


In [None]:
# Importation des bibliothèques nécessaires

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Paramètres d'affichage
%matplotlib inline
sns.set_style('whitegrid')

print("Les bibliothèques ont été importées avec succès.")

## 📊 Chargement des Données d'Exemple

Pour cet exemple, nous allons créer un jeu de données synthétique simulant le rendement en céréales en fonction de plusieurs variables :

- **Fertilizer** : Quantité de fertilisant utilisée.
- **Rainfall** : Précipitations.
- **Temperature** : Température moyenne.
- **Soil_Type** : Type de sol.

---


In [None]:
# Création d'un dataset synthétique
np.random.seed(42)
n_samples = 100

# Variables indépendantes
fertilizer = np.random.uniform(0, 100, n_samples)  # Fertilizer in kg/ha
rainfall = np.random.uniform(50, 200, n_samples)   # Rainfall in mm
temperature = np.random.uniform(10, 30, n_samples) # Temperature in Celsius

# Variable catégorielle : Type de sol
soil_types = ['Argileux', 'Sableux', 'Limoneux']
soil_type = np.random.choice(soil_types, n_samples)

# Coefficients réels pour la simulation
beta_0 = 5    # Intercept
beta_1 = 0.4  # Coefficient pour Fertilizer
beta_2 = 0.1  # Coefficient pour Rainfall
beta_3 = 0.5  # Coefficient pour Temperature
beta_soil = {'Argileux': -5, 'Sableux': -2, 'Limoneux': 0}

# Génération du rendement avec un bruit gaussien
yield_cereals = (
    beta_0
    + beta_1 * fertilizer
    + beta_2 * rainfall
    + beta_3 * temperature
    + pd.Series(soil_type).map(beta_soil)
    + np.random.normal(0, 5, n_samples)
)

# Création du DataFrame
data = pd.DataFrame({
    'Fertilizer': fertilizer,
    'Rainfall': rainfall,
    'Temperature': temperature,
    'Soil_Type': soil_type,
    'Yield': yield_cereals
})

# Affichage des premières lignes
data.head()

# 🔍 Exploration et Visualisation des Données

Dans cette section, nous allons :

- 🗂️ Afficher les premières lignes du dataset.
- 📊 Obtenir des statistiques descriptives.
- 📈 Visualiser la distribution des variables.
- 🌐 Créer des nuages de points.

---


In [None]:
# Affichage des premières lignes
data.head()

In [None]:
# Statistiques descriptives
data.describe()

In [None]:
# Visualisation de la distribution des variables numériques
data.hist(bins=20, figsize=(12, 8), color='skyblue')
plt.tight_layout()
plt.show()

In [None]:
# Nuages de points pour chaque variable indépendante vs Yield
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
sns.scatterplot(ax=axes[0], x='Fertilizer', y='Yield', data=data)
sns.scatterplot(ax=axes[1], x='Rainfall', y='Yield', data=data)
sns.scatterplot(ax=axes[2], x='Temperature', y='Yield', data=data)
axes[0].set_title('Fertilizer vs Yield')
axes[1].set_title('Rainfall vs Yield')
axes[2].set_title('Temperature vs Yield')
plt.show()

# 🧹 Prétraitement des Données

Nous allons :

- 🔍 Vérifier les valeurs manquantes.
- 🧪 Encoder la variable catégorielle 'Soil_Type'.
- 🧪 Séparer les données en ensembles d'entraînement et de test.

---


In [None]:
# Vérification des valeurs manquantes
data.isnull().sum()

In [None]:
# Encodage de la variable 'Soil_Type' en variables dummy
data = pd.get_dummies(data, columns=['Soil_Type'], drop_first=True)
data.head()

In [None]:
# Séparation des variables indépendantes et dépendante
X = data.drop('Yield', axis=1)
y = data['Yield']

In [None]:
# Division en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 📐 Implémentation de la Régression Linéaire Multiple

Nous allons :

- ⚙️ Entraîner le modèle de régression linéaire multiple.
- 📝 Afficher les coefficients.

---


In [None]:
# Création du modèle
model = LinearRegression()

# Entraînement du modèle
model.fit(X_train, y_train)

# Coefficients du modèle
coefficients = pd.DataFrame({
    'Variable': X_train.columns,
    'Coefficient': model.coef_
})

print(f"Ordonnée à l'origine (interception): {model.intercept_:.2f}")
coefficients

# 📊 Évaluation du Modèle

Nous allons :

- 📏 Calculer les métriques de performance.
- 🔍 Interpréter les résultats.

---


In [None]:
# Prédictions sur l'ensemble de test
y_pred = model.predict(X_test)

# Calcul des métriques
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coefficient de Détermination (R²): {r2:.2f}")

## 🔍 Interprétation des Résultats

- Les coefficients indiquent l'effet de chaque variable sur le rendement.
- Le **R²** élevé suggère que le modèle explique bien la variance des données.

---


# 📉 Visualisation des Résultats

Nous allons :

- 📊 Visualiser les coefficients du modèle.
- 🔍 Analyser les résidus.

---


In [None]:
# Visualisation des coefficients
coefficients.set_index('Variable', inplace=True)
coefficients.plot(kind='bar', figsize=(10,6))
plt.title('Coefficients du Modèle de Régression Linéaire Multiple')
plt.ylabel('Coefficient')
plt.show()

In [None]:
# Calcul des résidus
residuals = y_test - y_pred

# Visualisation des résidus
plt.figure(figsize=(8,6))
sns.histplot(residuals, kde=True, color='purple')
plt.title('Distribution des Résidus')
plt.xlabel('Résidus')
plt.ylabel('Fréquence')
plt.show()

# 🔮 Prédictions avec le Nouveau Modèle

Supposons que nous souhaitons prédire le rendement pour les conditions suivantes :

- **Fertilizer** : 60 kg/ha
- **Rainfall** : 150 mm
- **Temperature** : 25°C
- **Soil_Type** : Limoneux

---


In [None]:
# Création du DataFrame pour les nouvelles données
new_data = pd.DataFrame({
    'Fertilizer': [60],
    'Rainfall': [150],
    'Temperature': [25],
    'Soil_Type_Sableux': [0],
    'Soil_Type_Limoneux': [1]
})

# Prédiction
predicted_yield = model.predict(new_data)

print(f"Pour les conditions données, le rendement prédit est de {predicted_yield[0]:.2f} tonnes/ha")

# 🩺 Diagnostic du Nouveau Modèle

Nous allons :

- **Vérifier les hypothèses de la régression linéaire multiple**.
- **Analyser les résidus**.

---


In [None]:
# Vérification de la normalité des résidus
plt.figure(figsize=(8,6))
sns.histplot(residuals, kde=True, color='purple')
plt.title('Distribution des Résidus')
plt.xlabel('Résidus')
plt.ylabel('Fréquence')
plt.show()

# 🚀 Améliorations Potentielles

- **Interaction entre les Variables** : Ajouter des termes d'interaction.
- **Variables Supplémentaires** : Inclure d'autres facteurs.
- **Techniques Avancées** : Utiliser des méthodes de régularisation.

---


# 📌 Conclusion

Nous avons :

- **Exploré** le concept de régression linéaire multiple et ses applications dans le contexte agricole.
- **Créé** un dataset synthétique pour simuler la relation entre plusieurs variables et le rendement.
- **Implémenté** le modèle de régression linéaire multiple avec scikit-learn.
- **Évalué** le modèle en utilisant diverses métriques et en analysant les résidus.
- **Discuté** des moyens d'améliorer le modèle et des limites de la régression linéaire multiple.

**Auteur :** Omar Kennouche, fondateur de **AI Nexus One**

---

*Merci d'avoir suivi ce notebook ! N'hésitez pas à explorer davantage et à appliquer ces techniques à vos propres données.*


# 📝 Exercices Supplémentaires

1. **Tester d'autres Variables** : Ajouter des variables comme l'humidité du sol ou la densité de plantation et observer l'impact sur le modèle.
2. **Analyse des Interactions** : Inclure des termes d'interaction entre les variables (par exemple, `Fertilizer * Rainfall`).
3. **Validation Croisée** : Utiliser la validation croisée pour évaluer la robustesse du modèle.

---


# 📚 Ressources Supplémentaires

- 📘 [Documentation Scikit-Learn - Régression Linéaire](https://scikit-learn.org/stable/modules/linear_model.html)
- 🎓 [Cours sur la Régression Linéaire Multiple - StatQuest (Vidéo)](https://www.youtube.com/watch?v=J_LnPL3Qg70)
- 📖 [Livre : "Applied Linear Statistical Models"](https://www.amazon.fr/Applied-Linear-Statistical-Models-Kutner/dp/0071122214)

---
