<a href="https://colab.research.google.com/github/topdeveloppement/ai-nexus-one-machine-learning/blob/main/regression_lineaire_simple.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìä Introduction √† la R√©gression Lin√©aire Simple

<div style="max-width: 800px; padding: 20px; box-shadow: 0 4px 8px rgba(0, 0, 0, 0.1); border-radius: 8px; background-color: #f9f9f9; margin: 20px auto;">
    <div style="display: flex; align-items: center; margin-bottom: 20px;">
        <div style="flex: 0 0 auto; margin-right: 15px;">
            <img src="https://github.com/topdeveloppement.png" alt="Photo de l'auteur" style="border-radius: 4px; width: 100px; height: 100px; object-fit: cover;">
        </div>
        <div style="text-align: left;">
            <h3 style="margin: 0; font-size: 1.5em;">Omar Kennouche</h3>
            <p style="margin: 5px 0;">Fonction : Chef de Projet Intelligence Artificielle et RPA</p>
            <p style="margin: 5px 0;">Entreprise : AI Nexus One</p>
        </div>
    </div>
</div>




### üë§ Auteur : Omar Kennouche, fondateur de **AI Nexus One**

**AI Nexus One** est un projet d√©di√© √† la **formation** et au **d√©veloppement de solutions en intelligence artificielle**, visant √† accompagner les entreprises dans l'exploitation des technologies avanc√©es pour **optimiser leurs op√©rations** et **innover**.

---

### üåê Objectifs et Services

AI Nexus One propose :
- Une gamme compl√®te de **modules de formation** sur des sujets comme le Machine Learning, la vision par ordinateur, et l‚Äôautomatisation (RPA).
- Des solutions **sur mesure** adapt√©es aux besoins des entreprises.
- Un accompagnement pour faciliter l'**int√©gration pratique de l'IA** dans des domaines tels que les ressources humaines, la gestion des donn√©es et la relation client.

---

### ü§ù Vision

En somme, **AI Nexus One** se veut un partenaire pour les entreprises cherchant √† se d√©marquer dans un monde en √©volution rapide, tout en conservant une approche **humaine** et **intuitive** des technologies.


<div style="text-align: center; border-radius: 20px;">
    <img src="https://github.com/topdeveloppement/ai-nexus-one-machine-learning/blob/main/ml.jpeg?raw=true" alt="R√©gression Lin√©aire" style="width: 100%; height: auto;">
</div>

# üåü La R√©gression Lin√©aire Simple

La **r√©gression lin√©aire simple** est une m√©thode statistique utilis√©e pour mod√©liser la relation entre une variable ind√©pendante (explicative) et une variable d√©pendante (√† pr√©dire) en ajustant une droite aux donn√©es observ√©es. Elle permet d‚Äôanticiper ou de comprendre comment la variable d√©pendante change en fonction de la variable ind√©pendante.

## üéØ D√©finition et Objectifs

- **Objectif principal** : Pr√©dire ou estimer la valeur de la variable d√©pendante en fonction de la variable ind√©pendante. Ce mod√®le aide √† comprendre l‚Äôinfluence qu‚Äôa la variable explicative sur la variable √† pr√©dire, rendant les r√©sultats compr√©hensibles et exploitables.
- **Mod√©lisation** : Identifier et ajuster la meilleure droite de r√©gression, √©galement appel√©e "droite de tendance", qui repr√©sente au mieux la relation lin√©aire entre les deux variables. Cette droite est calcul√©e pour minimiser les √©carts entre les valeurs observ√©es et les valeurs pr√©dites par le mod√®le.

## üìà Cas d'Utilisation et Exemples Concrets

La r√©gression lin√©aire simple est fr√©quemment utilis√©e dans divers domaines pour √©tablir des pr√©dictions et des analyses bas√©es sur des donn√©es historiques. Voici quelques exemples :

- üîç Pr√©dire le **rendement d'une culture** agricole en fonction de la quantit√© de fertilisant utilis√©e.
- üåæ Estimer la **production de c√©r√©ales** d'une coop√©rative en fonction du nombre d'adh√©rents.
- üìä Anticiper la **demande de march√©** en fonction des tendances observ√©es au cours des p√©riodes pr√©c√©dentes.

Ces exemples illustrent comment la r√©gression lin√©aire simple peut √™tre appliqu√©e dans des situations r√©elles pour pr√©voir ou optimiser des r√©sultats selon les variations d‚Äôune variable cl√©.

## ‚öôÔ∏è Hypoth√®ses de Base

Pour garantir des pr√©dictions fiables, la r√©gression lin√©aire simple repose sur plusieurs hypoth√®ses :

1. **üìê Lin√©arit√©** : La relation entre la variable ind√©pendante et la variable d√©pendante est lin√©aire. Cela signifie que le changement dans la variable d√©pendante est proportionnel √† celui de la variable ind√©pendante.
2. **üîó Ind√©pendance des erreurs** : Les r√©sidus (ou erreurs) de pr√©diction sont ind√©pendants les uns des autres, c‚Äôest-√†-dire qu‚Äôil n‚Äôexiste pas de corr√©lation entre les erreurs associ√©es aux diff√©rentes observations.
3. **‚öñÔ∏è Homoscedasticit√©** : La variance des erreurs reste constante pour toutes les valeurs de la variable ind√©pendante. En d'autres termes, les erreurs de pr√©diction n'augmentent ou ne diminuent pas syst√©matiquement avec \( X \).
4. **üìä Normalit√© des erreurs** : Les erreurs suivent une distribution normale, ce qui assure que les pr√©visions du mod√®le sont centr√©es et que les estimations des param√®tres sont optimales.

---


# üõ†Ô∏è Pr√©paration de l'Environnement

Dans cette section, nous allons :

- üì¶ Importer les biblioth√®ques n√©cessaires.
- üìÇ Charger les donn√©es d'exemple.

---


In [None]:
# Importation des biblioth√®ques n√©cessaires

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Param√®tres d'affichage
%matplotlib inline
sns.set_style('whitegrid')

print("Les biblioth√®ques ont √©t√© import√©es avec succ√®s.")

## üìä Chargement des Donn√©es d'Exemple

Pour cet exemple, nous allons cr√©er un jeu de donn√©es synth√©tique simulant le rendement en c√©r√©ales en fonction de la quantit√© de fertilisant utilis√©e.

---

In [None]:
# Cr√©ation d'un dataset synth√©tique
np.random.seed(42)
n_samples = 100
fertilizer = np.random.uniform(0, 100, n_samples)  # Quantit√© de fertilisant en kg/ha
yield_cereals = 2 + 0.5 * fertilizer + np.random.normal(0, 5, n_samples)  # Rendement en tonnes/ha

# Conversion en DataFrame pandas
data = pd.DataFrame({'Fertilizer': fertilizer, 'Yield': yield_cereals})

# Affichage des 5 premi√®res lignes
data.head()

# üîç Exploration et Visualisation des Donn√©es

Dans cette section, nous allons :

- üóÇÔ∏è Afficher les premi√®res lignes du dataset.
- üìä Obtenir des statistiques descriptives.
- üìà Visualiser la distribution des variables.
- üåê Cr√©er un nuage de points (scatter plot).

---


In [None]:
# Affichage des premi√®res lignes
data.head()

In [None]:
# Statistiques descriptives
data.describe()

**Interpr√©tation** : Les statistiques descriptives nous donnent des informations sur la moyenne, l'√©cart-type, les valeurs minimales et maximales, et les quartiles des variables 'Fertilizer' et 'Yield'. Cela nous aide √† comprendre la distribution et la dispersion des donn√©es.

In [None]:
# Visualisation de la distribution des variables

# Histogramme de Fertilizer
plt.figure(figsize=(10,4))
plt.subplot(1,2,1)
sns.histplot(data['Fertilizer'], kde=True, color='green')
plt.title('Distribution de la Quantit√© de Fertilisant')

# Histogramme de Yield
plt.subplot(1,2,2)
sns.histplot(data['Yield'], kde=True, color='orange')
plt.title('Distribution du Rendement en C√©r√©ales')

plt.show()

In [None]:
# Cr√©ation d'un nuage de points
plt.figure(figsize=(8,6))
sns.scatterplot(x='Fertilizer', y='Yield', data=data)
plt.title('Relation entre le Fertilisant et le Rendement')
plt.xlabel('Quantit√© de Fertilisant (kg/ha)')
plt.ylabel('Rendement (tonnes/ha)')
plt.show()

# üßπ Pr√©traitement des Donn√©es

Nous allons :

- üîç V√©rifier les valeurs manquantes.
- ‚ö†Ô∏è D√©tecter et traiter les valeurs aberrantes.
- üß™ S√©parer les donn√©es en ensembles d'entra√Ænement et de test.

---


In [None]:
# V√©rification des valeurs manquantes
data.isnull().sum()

Unnamed: 0,0
Fertilizer,0
Yield,0


## üö® D√©tection et Traitement des Valeurs Aberrantes

Nous utilisons des **bo√Ætes √† moustaches** pour d√©tecter les outliers.

---

In [None]:
# Bo√Æte √† moustaches pour d√©tecter les outliers
plt.figure(figsize=(10,4))
plt.subplot(1,2,1)
sns.boxplot(y='Fertilizer', data=data, color='green')
plt.title('Bo√Æte √† moustaches de Fertilizer')

plt.subplot(1,2,2)
sns.boxplot(y='Yield', data=data, color='orange')
plt.title('Bo√Æte √† moustaches de Yield')

plt.show()

## üß™ S√©paration des Donn√©es en Ensembles d'Entra√Ænement et de Test

Nous s√©parons les donn√©es pour √©valuer le mod√®le sur des donn√©es non vues.

---


In [None]:
# S√©paration des variables ind√©pendantes et d√©pendantes
X = data[['Fertilizer']]
y = data['Yield']

# Division en ensembles d'entra√Ænement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# üìê Impl√©mentation de la R√©gression Lin√©aire Simple

Nous allons :

- ‚úèÔ∏è Calculer manuellement les coefficients.
- ‚öôÔ∏è Utiliser la classe `LinearRegression` de scikit-learn.

---


## ‚úèÔ∏è Calcul Manuel des Coefficients

Nous utilisons la formule des **moindres carr√©s ordinaires (OLS)** pour calculer les coefficients :

$$
\beta = (X^T X)^{-1} X^T y
$$

### Explication de la formule

- **\( \beta \)** : Ce sont les coefficients de la r√©gression lin√©aire que nous voulons d√©terminer. Ils d√©finissent la relation entre les variables ind√©pendantes (X) et la variable d√©pendante (y).
- **\( X^T \)** : Il s'agit de la transpos√©e de la matrice \( X \), qui contient les valeurs de la variable ind√©pendante.
- **\( X^T X \)** : En multipliant \( X^T \) par \( X \), nous obtenons une matrice carr√©e. Cette multiplication est une √©tape cl√© pour comprendre comment la variable ind√©pendante influence la variable d√©pendante.
- **\( (X^T X)^{-1} \)** : On calcule ensuite l'inverse de cette matrice. Cela permet de "d√©faire" l'influence de \( X \) pour isoler le terme \( \beta \).
- **\( X^T y \)** : Enfin, on multiplie la transpos√©e de \( X \) par \( y \), ce qui int√®gre l'influence de la variable d√©pendante.

En combinant ces √©tapes, la formule nous donne les valeurs des coefficients \( \beta \) qui minimisent la somme des carr√©s des √©carts entre les valeurs pr√©dites et les valeurs r√©elles, nous offrant ainsi la meilleure droite de r√©gression.

---


In [None]:
# Ajout d'une colonne de biais (interception)
X_b = np.c_[np.ones((X_train.shape[0], 1)), X_train]

# Calcul des coefficients
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y_train)

print(f"Ordonn√©e √† l'origine (interception): {theta_best[0]:.2f}")
print(f"Pente: {theta_best[1]:.2f}")

## ‚öôÔ∏è Utilisation de la Classe `LinearRegression`

Nous utilisons **scikit-learn** pour entra√Æner le mod√®le de r√©gression lin√©aire de mani√®re simple et efficace.

---

In [None]:
# Cr√©ation du mod√®le
model = LinearRegression()

# Entra√Ænement du mod√®le
model.fit(X_train, y_train)

# Coefficients du mod√®le
print(f"Ordonn√©e √† l'origine (interception): {model.intercept_:.2f}")
print(f"Pente: {model.coef_[0]:.2f}")

# üìä √âvaluation du Mod√®le

Nous allons :

- üìè Calculer les m√©triques de performance.
- üîç Interpr√©ter les r√©sultats.

## D√©tails des √âtapes

### Calcul des M√©triques de Performance

Pour √©valuer la pr√©cision du mod√®le, nous calculons plusieurs m√©triques de performance :

1. **Mean Squared Error (MSE)** :
   - **Formule** : \( \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_{test} - y_{pred})^2 \)
   - **Explication** : Le MSE mesure la moyenne des carr√©s des erreurs (diff√©rences entre les valeurs r√©elles \( y_{test} \) et les valeurs pr√©dites \( y_{pred} \)). Un MSE plus faible signifie que les pr√©dictions sont globalement proches des valeurs observ√©es.

2. **Root Mean Squared Error (RMSE)** :
   - **Formule** : \( \text{RMSE} = \sqrt{\text{MSE}} \)
   - **Explication** : Le RMSE est la racine carr√©e de la MSE, exprim√©e dans la m√™me unit√© que la variable cible. Cela permet d'interpr√©ter l'erreur moyenne de mani√®re intuitive.

3. **Mean Absolute Error (MAE)** :
   - **Formule** : \( \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_{test} - y_{pred}| \)
   - **Explication** : Le MAE mesure l'erreur moyenne absolue, sans consid√©rer la direction de l'erreur (positif ou n√©gatif). Cela donne une estimation directe de l'√©cart moyen entre les pr√©dictions et les valeurs r√©elles.

4. **Coefficient de D√©termination (R¬≤)** :
   - **Formule** : \( R^2 = 1 - \frac{\sum (y_{test} - y_{pred})^2}{\sum (y_{test} - \bar{y}_{test})^2} \)
   - **Explication** : Le coefficient \( R^2 \) mesure la proportion de variance de la variable cible expliqu√©e par le mod√®le. Un \( R^2 \) proche de 1 indique que le mod√®le est performant, tandis qu'un \( R^2 \) proche de 0 signale un mod√®le peu explicatif.

---


In [None]:
# Pr√©dictions sur l'ensemble de test
y_pred = model.predict(X_test)

# Calcul des m√©triques
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Coefficient de D√©termination (R¬≤): {r2:.2f}")

## üîç Interpr√©tation des R√©sultats

- **MSE** : Plus la valeur est faible, meilleure est la pr√©cision moyenne des pr√©dictions.
- **RMSE** : Indique l'erreur moyenne en unit√©s de la variable cible pour une interpr√©tation directe.
- **MAE** : Mesure l'√©cart moyen absolu entre les pr√©dictions et les valeurs r√©elles.
- **R¬≤** : Proche de 1, il indique que le mod√®le explique bien la variance des donn√©es.

---


# üìâ Visualisation des R√©sultats

Nous allons :

- üìè **Tracer la droite de r√©gression** : Cela consiste √† repr√©senter graphiquement la droite de r√©gression calcul√©e par le mod√®le. En superposant cette droite aux donn√©es observ√©es, nous pouvons visualiser comment le mod√®le ajuste les pr√©dictions par rapport aux valeurs r√©elles. Plus la droite suit bien la tendance des points de donn√©es, meilleur est l‚Äôajustement du mod√®le.
  
- üîç **Visualiser les r√©sidus** : Les r√©sidus sont les diff√©rences entre les valeurs observ√©es et les valeurs pr√©dites par le mod√®le. En tra√ßant un graphique des r√©sidus, nous pouvons analyser la qualit√© de l‚Äôajustement du mod√®le. Id√©alement, les r√©sidus devraient √™tre distribu√©s al√©atoirement autour de z√©ro, ce qui indiquerait que le mod√®le est bien ajust√©. Si les r√©sidus montrent un motif ou une tendance, cela peut r√©v√©ler des biais dans le mod√®le ou des relations non lin√©aires dans les donn√©es.

Ces visualisations permettent de mieux comprendre comment le mod√®le se comporte et d‚Äôidentifier les zones d‚Äôam√©lioration potentielles.


In [None]:
# Trac√© de la droite de r√©gression sur le nuage de points
plt.figure(figsize=(8,6))
plt.scatter(X_train, y_train, color='blue', label='Donn√©es d\'entra√Ænement')
plt.plot(X_train, model.predict(X_train), color='red', label='Mod√®le entra√Æn√©')
plt.title('R√©gression Lin√©aire - Ensemble d\'entra√Ænement')
plt.xlabel('Quantit√© de Fertilisant (kg/ha)')
plt.ylabel('Rendement (tonnes/ha)')
plt.legend()
plt.show()

In [None]:
# Visualisation des r√©sidus
residuals = y_test - y_pred

plt.figure(figsize=(8,6))
sns.scatterplot(x=y_pred, y=residuals)
plt.axhline(y=0, color='r', linestyle='--')
plt.title('Graphique des r√©sidus')
plt.xlabel('Valeurs pr√©dites')
plt.ylabel('R√©sidus')
plt.show()

**Interpr√©tation** : Le graphique des r√©sidus montre la diff√©rence entre les valeurs r√©elles et les valeurs pr√©dites par le mod√®le (les r√©sidus).

- **Homoscedasticit√©** : Id√©alement, les r√©sidus doivent √™tre dispers√©s de mani√®re uniforme autour de la ligne z√©ro, sans former de motifs particuliers. Cette distribution constante des r√©sidus confirme l‚Äôhypoth√®se d‚Äôhomoscedasticit√©, indiquant que le mod√®le maintient une erreur constante quelle que soit la valeur pr√©dite.

- **D√©tection des motifs** : Si le graphique des r√©sidus r√©v√®le une tendance (par exemple, une forme courbe ou des groupes), cela pourrait indiquer un probl√®me d'ad√©quation du mod√®le. Une telle structure peut sugg√©rer que la relation entre les variables n‚Äôest pas strictement lin√©aire ou qu‚Äôune variable explicative manque dans le mod√®le.

En somme, ce graphique est essentiel pour √©valuer l'ajustement du mod√®le et identifier des biais ou des erreurs d'ajustement potentiels.


# üîÆ Pr√©dictions avec le Mod√®le

Nous allons :

- üß© **Utiliser le mod√®le pour faire des pr√©dictions** sur de nouvelles donn√©es : Une fois le mod√®le entra√Æn√©, nous pouvons l'appliquer pour pr√©dire les valeurs de la variable d√©pendante √† partir de nouvelles valeurs de la variable ind√©pendante.
  
- üìä **Interpr√©ter les pr√©dictions** : En analysant les r√©sultats obtenus, nous pouvons √©valuer si les pr√©dictions sont coh√©rentes et dans quelle mesure elles r√©pondent aux attentes. Cette √©tape permet de valider l‚Äôutilit√© du mod√®le dans des sc√©narios r√©els et d‚Äôidentifier d‚Äô√©ventuelles limites ou ajustements n√©cessaires.

---


In [None]:
# Nouvelles donn√©es (quantit√©s de fertilisant) sous forme de DataFrame pandas
X_new = pd.DataFrame({'Fertilizer': [10, 50, 90]})

# Pr√©dictions
y_new = model.predict(X_new)

# Affichage des pr√©dictions
for i, x in enumerate(X_new['Fertilizer']):
    print(f"Pour une quantit√© de fertilisant de {x} kg/ha, le rendement pr√©dit est de {y_new[i]:.2f} tonnes/ha")

## üìà Interpr√©tation des Pr√©dictions

Le mod√®le nous permet d'estimer le rendement en fonction de la quantit√© de fertilisant appliqu√©e. Ces pr√©dictions peuvent √™tre pr√©cieuses pour les agriculteurs, car elles les aident √† :

- **Optimiser l‚Äôutilisation des ressources** : En connaissant le rendement pr√©dit pour diff√©rentes quantit√©s de fertilisant, les agriculteurs peuvent ajuster les doses appliqu√©es pour maximiser le rendement tout en minimisant les co√ªts.
  
- **Planifier les r√©coltes** : Avec des pr√©dictions fiables, il devient plus facile de pr√©voir le rendement total attendu, ce qui aide √† mieux organiser la logistique, le stockage, et la distribution.

En somme, ces pr√©dictions fournissent un outil de prise de d√©cision pour une gestion agricole plus efficace et durable.


# ü©∫ Diagnostic du Mod√®le

Nous allons :

- **V√©rifier les hypoth√®ses de la r√©gression lin√©aire** : Ces hypoth√®ses sont essentielles pour s'assurer que le mod√®le est appropri√© pour les donn√©es et que les r√©sultats sont fiables. Nous allons examiner des √©l√©ments tels que la lin√©arit√©, l'ind√©pendance des erreurs, l'homoscedasticit√© (variance constante des erreurs), et la normalit√© des erreurs. Si ces hypoth√®ses sont v√©rifi√©es, cela indique que notre mod√®le est bien ajust√© aux donn√©es. En revanche, des violations de ces hypoth√®ses peuvent signaler un besoin de r√©viser le mod√®le ou d'envisager des alternatives.

- **Analyser les r√©sidus** : Les r√©sidus, qui repr√©sentent les diff√©rences entre les valeurs observ√©es et pr√©dites, fournissent des informations cl√©s sur la qualit√© de l'ajustement du mod√®le. En analysant leur distribution, nous pouvons v√©rifier si les erreurs sont r√©parties de mani√®re al√©atoire (un bon signe) ou s‚Äôil existe des motifs (indiquant des biais ou des ajustements n√©cessaires). Un graphique des r√©sidus peut par exemple r√©v√©ler des erreurs syst√©matiques ou des relations non lin√©aires non captur√©es par le mod√®le.

Ces √©tapes de diagnostic sont cruciales pour √©valuer la robustesse et la fiabilit√© du mod√®le de r√©gression lin√©aire, en identifiant les limites potentielles et en garantissant des pr√©dictions de qualit√©.


In [None]:
# V√©rification de la normalit√© des r√©sidus
plt.figure(figsize=(8,6))
sns.histplot(residuals, kde=True, color='purple')
plt.title('Distribution des r√©sidus')
plt.xlabel('R√©sidus')
plt.ylabel('Fr√©quence')
plt.show()

## üîç Analyse des R√©sidus

Si les r√©sidus suivent une **distribution normale** centr√©e autour de z√©ro, cela indique que les hypoth√®ses du mod√®le de r√©gression lin√©aire sont globalement satisfaites. Plus pr√©cis√©ment :

- **Centr√©e autour de z√©ro** : Les r√©sidus devraient se r√©partir de mani√®re √©quilibr√©e autour de z√©ro. Cela signifie que le mod√®le n‚Äôa pas de biais syst√©matique, et que les pr√©dictions ne sont pas constamment sous- ou sur-estim√©es.

- **Distribution normale** : Une distribution normale des r√©sidus implique que les erreurs sont al√©atoires et bien r√©parties, sans tendance sp√©cifique. Cela est essentiel pour que le mod√®le soit consid√©r√© comme bien ajust√© aux donn√©es, car cela respecte l'hypoth√®se de normalit√© des erreurs.

En r√©sum√©, une distribution normale des r√©sidus centr√©e autour de z√©ro est un signe positif, indiquant que le mod√®le est fiable et que les pr√©dictions sont conformes aux attentes bas√©es sur les hypoth√®ses de la r√©gression lin√©aire.


# üöÄ Am√©lioration du Mod√®le

## üîß Techniques pour Am√©liorer les Performances

- **Transformation des variables** : Appliquer des transformations (comme le logarithme ou la racine carr√©e) pour lin√©ariser les relations non lin√©aires entre les variables. Cela permet au mod√®le de capturer des variations qui seraient autrement ignor√©es.
- **Ajout de variables explicatives** : Inclure d'autres facteurs pertinents qui influencent le rendement (par exemple, type de sol, pr√©cipitations, temp√©rature). Cela enrichit le mod√®le et augmente sa capacit√© √† expliquer la variabilit√© de la variable cible.
- **D√©tection des outliers** : Identifier et traiter les valeurs aberrantes, car celles-ci peuvent fausser l'ajustement du mod√®le et influencer la pr√©cision des pr√©dictions.

## ‚ö†Ô∏è Limites de la R√©gression Lin√©aire Simple

- **Simplicit√© du mod√®le** : La r√©gression lin√©aire simple est limit√©e dans sa capacit√© √† capturer des relations complexes. Elle ne mod√©lise que les relations lin√©aires entre deux variables et n'explique pas les interactions plus subtiles.
- **Sensibilit√© aux outliers** : Les valeurs aberrantes ont un impact important sur la r√©gression lin√©aire, pouvant fausser les r√©sultats de mani√®re significative.
- **Suppositions strictes** : Le mod√®le repose sur des hypoth√®ses strictes (lin√©arit√©, ind√©pendance, homoscedasticit√©, normalit√© des erreurs). Dans la r√©alit√©, il peut √™tre difficile de satisfaire ces conditions, ce qui limite l'applicabilit√© du mod√®le.

---

Ces techniques d'am√©lioration permettent de renforcer le mod√®le en le rendant plus flexible et en tenant compte de facteurs suppl√©mentaires. Cependant, les limites soulignent la n√©cessit√© d'une attention particuli√®re aux hypoth√®ses et √† la robustesse du mod√®le.


# üìå Conclusion et R√©capitulatif

Nous avons :

- **Explor√©** le concept de r√©gression lin√©aire simple et ses applications dans le contexte agricole.
- **Cr√©√©** un dataset synth√©tique pour simuler la relation entre le fertilisant et le rendement.
- **Impl√©ment√©** le mod√®le de r√©gression lin√©aire simple manuellement et avec scikit-learn.
- **√âvalu√©** le mod√®le en utilisant diverses m√©triques et en analysant les r√©sidus.
- **Discut√©** des moyens d'am√©liorer le mod√®le et des limites de la r√©gression lin√©aire simple.

---

**Auteur :** Omar Kennouche, fondateur de **AI Nexus One**  
**Contact** : [contact@topdeveloppement.tech](mailto:contact@topdeveloppement.tech)

*Merci d'avoir suivi ce notebook ! N'h√©sitez pas √† explorer davantage et √† appliquer ces techniques √† vos propres donn√©es.*


# üìù Exercices Pratiques

1. **Modifier le Dataset** : Changez les param√®tres de la g√©n√©ration des donn√©es (par exemple, la relation entre le fertilisant et le rendement) et observez l'impact sur le mod√®le. Essayez de comprendre comment les modifications influencent les coefficients et la qualit√© de la pr√©diction.

2. **Ajouter une Variable** : Incluez une nouvelle variable explicative (par exemple, le type de sol) et passez √† une **r√©gression lin√©aire multiple**. Cette extension du mod√®le vous permettra de voir comment plusieurs facteurs influencent simultan√©ment le rendement.

3. **Tester un Dataset R√©el** : Utilisez un jeu de donn√©es r√©el li√© √† l'agriculture (par exemple, des donn√©es m√©t√©orologiques ou de rendement agricole) et appliquez les m√™mes √©tapes d‚Äôanalyse et de mod√©lisation. Comparez les r√©sultats avec les donn√©es synth√©tiques et identifiez les diff√©rences.

---

Ces exercices vous permettront d'approfondir votre compr√©hension de la r√©gression lin√©aire et d‚Äôexplorer son application dans des sc√©narios plus complexes et r√©alistes.


# üìñ Lexique des Termes Techniques

- **R√©gression lin√©aire** : M√©thode statistique pour mod√©liser la relation entre une variable d√©pendante et une ou plusieurs variables ind√©pendantes.
- **Variable ind√©pendante** : Variable utilis√©e pour pr√©dire la variable d√©pendante (ex : quantit√© de fertilisant).
- **Variable d√©pendante** : Variable cible que l'on cherche √† pr√©dire (ex : rendement en c√©r√©ales).
- **Pente (Coefficient)** : Indique l'effet moyen d'une unit√© de changement de la variable ind√©pendante sur la variable d√©pendante.
- **Ordonn√©e √† l'origine (Intercept)** : Valeur de la variable d√©pendante lorsque la variable ind√©pendante est nulle.
- **R√©sidu** : Diff√©rence entre la valeur observ√©e et la valeur pr√©dite par le mod√®le.
- **MSE** : Mean Squared Error, moyenne des erreurs quadratiques. Mesure de la pr√©cision en prenant en compte les erreurs au carr√©.
- **RMSE** : Root Mean Squared Error, racine carr√©e du MSE, exprim√©e dans les m√™mes unit√©s que la variable cible.
- **MAE** : Mean Absolute Error, moyenne des erreurs absolues entre les valeurs pr√©dites et observ√©es.
- **R¬≤** : Coefficient de d√©termination, mesure la proportion de la variance de la variable cible expliqu√©e par le mod√®le, indiquant sa qualit√© d'ajustement.

---

Ce lexique fournit une d√©finition claire et concise des principaux termes techniques utilis√©s dans l'analyse de la r√©gression lin√©aire.


# üìö Ressources Suppl√©mentaires

- üìò [Documentation Scikit-Learn - R√©gression Lin√©aire](https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares)
- üéì [Cours sur la R√©gression Lin√©aire - OpenClassrooms](https://openclassrooms.com/fr/courses/4525286-realisez-des-analyses-statistiques-avec-python)
- üé• [Introduction √† la R√©gression Lin√©aire - StatQuest (Vid√©o)](https://www.youtube.com/watch?v=nk2CQITm_eo)
- üìñ [Livre : "An Introduction to Statistical Learning" - Chapitre sur la R√©gression Lin√©aire](https://www.statlearning.com/)

---