# 📉 Jour 5 : Régression Linéaire Simple avec `statsmodels`

La régression linéaire permet d’étudier la relation entre une variable dépendante (Y) et une variable indépendante (X).
Nous allons implémenter un modèle simple avec `statsmodels` et interpréter les résultats.

In [None]:
# 📦 Installation (si nécessaire)
# !pip install statsmodels

In [None]:
import pandas as pd
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt

## 📥 Chargement du dataset

In [None]:
df = sns.load_dataset('tips')
df.head()

## 🔍 Visualisation de la relation entre `total_bill` et `tip`

In [None]:
sns.scatterplot(x='total_bill', y='tip', data=df)
plt.title('Pourboire vs Total Bill')
plt.show()

## 📊 Implémentation du modèle

In [None]:
# Variable indépendante (X) et dépendante (y)
X = df['total_bill']
y = df['tip']

# Ajouter une constante pour l'interception
X = sm.add_constant(X)

# Ajuster le modèle
model = sm.OLS(y, X).fit()
model.summary()

## 📈 Analyse des résidus

In [None]:
df['predicted'] = model.predict(X)
df['residuals'] = df['tip'] - df['predicted']
sns.histplot(df['residuals'], kde=True)
plt.title('Distribution des résidus')
plt.show()

## 📐 Courbe de régression

In [None]:
sns.scatterplot(x='total_bill', y='tip', data=df, label='Données réelles')
sns.lineplot(x='total_bill', y='predicted', data=df, color='red', label='Régression')
plt.title('Régression linéaire simple')
plt.legend()
plt.show()

## 📝 Exercices
- Refaites la même régression avec `size` comme variable explicative.
- Interprétez les coefficients du modèle (`coef`, `p-value`, `R²`).
- Que signifient les résidus ? Sont-ils normalement distribués ?