# 📊 Chapitre 08 : Statistiques

## 🎯 Objectifs d'apprentissage

Dans ce chapitre, vous allez maîtriser :
- 📈 Les statistiques descriptives (moyenne, médiane, mode)
- 📉 Les mesures de dispersion (variance, écart-type, IQR)
- 📊 Les visualisations statistiques (histogrammes, boxplots, scatter)
- 🎲 Les distributions empiriques
- 🔔 Le théorème central limite
- 🧪 Les tests d'hypothèses (t-test, chi-carré)
- 📏 Les intervalles de confiance
- 📈 La corrélation et régression linéaire simple

## 💼 Applications en Finance Quantitative

Les statistiques sont **fondamentales** en finance :
- Analyse des rendements d'actifs
- Gestion du risque (VaR, volatilité)
- Tests de stratégies de trading
- Validation de modèles de pricing
- Détection d'anomalies de marché

In [None]:
# Imports nécessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import norm, t, chi2
import warnings
warnings.filterwarnings('ignore')

# Configuration pour de beaux graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

---

## 1️⃣ Statistiques Descriptives

### 📚 Théorie

Les statistiques descriptives résument les caractéristiques principales d'un ensemble de données.

#### Mesures de tendance centrale :

**Moyenne (mean)** :
$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$

**Médiane (median)** : Valeur centrale qui sépare les données en deux moitiés égales

**Mode** : Valeur la plus fréquente dans les données

### 💡 Quand utiliser quelle mesure ?

- **Moyenne** : Données symétriques sans outliers
- **Médiane** : Données asymétriques ou avec outliers (plus robuste)
- **Mode** : Données catégorielles ou distribution multimodale

In [None]:
# Exemple : Rendements quotidiens d'une action
np.random.seed(42)
rendements = np.random.normal(0.001, 0.02, 252)  # 252 jours de trading

# Calcul des mesures de tendance centrale
moyenne = np.mean(rendements)
mediane = np.median(rendements)
# Pour le mode, on utilise scipy.stats
mode_result = stats.mode(np.round(rendements, 3), keepdims=True)

print("📊 Analyse des Rendements Quotidiens")
print("="*50)
print(f"Moyenne (μ)   : {moyenne:.4%}")
print(f"Médiane       : {mediane:.4%}")
print(f"\n💰 Rendement annualisé (252 jours) : {moyenne * 252:.2%}")

### 🎯 Applications ML

En Machine Learning, les statistiques descriptives permettent de :
- **Feature engineering** : Normalisation des données
- **Data quality** : Détection d'anomalies
- **Model validation** : Analyse des résidus

In [None]:
# Exemple avec Pandas pour une analyse complète
data = pd.DataFrame({
    'Rendement': rendements,
    'Volume': np.random.randint(1000000, 5000000, 252)
})

print("\n📈 Statistiques Descriptives Complètes")
print("="*50)
print(data.describe())

---

## 2️⃣ Mesures de Dispersion

### 📚 Théorie

Les mesures de dispersion quantifient la variabilité des données.

#### Variance :
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2$$

#### Écart-type (Standard Deviation) :
$$\sigma = \sqrt{\sigma^2}$$

#### Intervalle Interquartile (IQR) :
$$IQR = Q_3 - Q_1$$

où $Q_1$ est le 1er quartile (25%) et $Q_3$ le 3ème quartile (75%)

### 💰 Importance en Finance

- **Écart-type** = **Volatilité** = **Risque**
- Plus l'écart-type est élevé, plus l'actif est risqué
- Ratio de Sharpe = $\frac{Rendement - Taux\ sans\ risque}{Volatilité}$

In [None]:
# Mesures de dispersion
variance = np.var(rendements)
ecart_type = np.std(rendements)
volatilite_annuelle = ecart_type * np.sqrt(252)  # Annualisation

# Quartiles et IQR
q1 = np.percentile(rendements, 25)
q2 = np.percentile(rendements, 50)  # = médiane
q3 = np.percentile(rendements, 75)
iqr = q3 - q1

print("📊 Mesures de Dispersion")
print("="*50)
print(f"Variance          : {variance:.6f}")
print(f"Écart-type (σ)    : {ecart_type:.4%}")
print(f"Volatilité annuelle : {volatilite_annuelle:.2%}")
print(f"\nQuartiles :")
print(f"  Q1 (25%)        : {q1:.4%}")
print(f"  Q2 (50%, médiane): {q2:.4%}")
print(f"  Q3 (75%)        : {q3:.4%}")
print(f"  IQR             : {iqr:.4%}")

In [None]:
# Calcul du Ratio de Sharpe
taux_sans_risque = 0.02  # 2% annuel
rendement_annuel = moyenne * 252
sharpe_ratio = (rendement_annuel - taux_sans_risque) / volatilite_annuelle

print(f"\n💎 Ratio de Sharpe : {sharpe_ratio:.2f}")
print(f"   Interprétation : {'Excellent (>2)' if sharpe_ratio > 2 else 'Bon (>1)' if sharpe_ratio > 1 else 'Moyen'}")

---

## 3️⃣ Visualisations Statistiques

### 📚 Théorie

Les visualisations permettent de comprendre rapidement la distribution des données.

#### Types de graphiques :

1. **Histogramme** : Distribution de fréquences
2. **Boxplot (Boîte à moustaches)** : Résumé des 5 nombres (min, Q1, médiane, Q3, max)
3. **Scatter plot** : Relation entre deux variables
4. **Q-Q plot** : Comparaison avec une distribution théorique

In [None]:
# Création de visualisations complètes
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Histogramme avec courbe de densité
axes[0, 0].hist(rendements, bins=30, density=True, alpha=0.7, color='skyblue', edgecolor='black')
# Ajout de la courbe normale théorique
x = np.linspace(rendements.min(), rendements.max(), 100)
axes[0, 0].plot(x, norm.pdf(x, moyenne, ecart_type), 'r-', linewidth=2, label='Normale théorique')
axes[0, 0].axvline(moyenne, color='green', linestyle='--', linewidth=2, label=f'Moyenne: {moyenne:.4%}')
axes[0, 0].axvline(mediane, color='orange', linestyle='--', linewidth=2, label=f'Médiane: {mediane:.4%}')
axes[0, 0].set_title('📊 Histogramme des Rendements', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Rendement')
axes[0, 0].set_ylabel('Densité')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# 2. Boxplot
bp = axes[0, 1].boxplot(rendements, vert=True, patch_artist=True)
bp['boxes'][0].set_facecolor('lightblue')
bp['boxes'][0].set_alpha(0.7)
axes[0, 1].set_title('📦 Boxplot des Rendements', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Rendement')
axes[0, 1].grid(True, alpha=0.3, axis='y')
# Annotations
axes[0, 1].text(1.15, q3, f'Q3: {q3:.3%}', fontsize=10)
axes[0, 1].text(1.15, q2, f'Médiane: {q2:.3%}', fontsize=10)
axes[0, 1].text(1.15, q1, f'Q1: {q1:.3%}', fontsize=10)

# 3. Série temporelle
axes[1, 0].plot(rendements, linewidth=1, alpha=0.7, color='steelblue')
axes[1, 0].axhline(moyenne, color='red', linestyle='--', linewidth=1.5, label=f'Moyenne: {moyenne:.4%}')
axes[1, 0].fill_between(range(len(rendements)), moyenne - ecart_type, moyenne + ecart_type, 
                         alpha=0.2, color='red', label=f'±1σ: {ecart_type:.4%}')
axes[1, 0].set_title('📈 Série Temporelle des Rendements', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Jour')
axes[1, 0].set_ylabel('Rendement')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# 4. Q-Q Plot (Quantile-Quantile)
stats.probplot(rendements, dist="norm", plot=axes[1, 1])
axes[1, 1].set_title('📐 Q-Q Plot (Normalité)', fontsize=14, fontweight='bold')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n💡 Interprétation du Q-Q Plot :")
print("   Si les points suivent la ligne rouge → distribution normale")
print("   Déviations aux extrémités → queues plus épaisses (fat tails)")

### 🎯 Applications ML

Les visualisations aident à :
- **Détecter les outliers** avant l'entraînement
- **Vérifier la normalité** des features
- **Analyser les corrélations** entre variables

In [None]:
# Détection d'outliers avec la méthode IQR
limite_basse = q1 - 1.5 * iqr
limite_haute = q3 + 1.5 * iqr

outliers = rendements[(rendements < limite_basse) | (rendements > limite_haute)]

print(f"\n🚨 Détection d'Outliers (Méthode IQR)")
print(f"="*50)
print(f"Limite basse : {limite_basse:.4%}")
print(f"Limite haute : {limite_haute:.4%}")
print(f"Nombre d'outliers : {len(outliers)} ({len(outliers)/len(rendements)*100:.1f}%)")

---

## 4️⃣ Distributions Empiriques et Théorème Central Limite

### 📚 Théorème Central Limite (TCL)

**Énoncé** : La distribution des moyennes d'échantillons tend vers une distribution normale, quelle que soit la distribution de la population d'origine, lorsque la taille de l'échantillon augmente.

$$\bar{X} \sim \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right) \text{ pour } n \text{ grand}$$

### 💡 Importance

- Permet l'utilisation de tests statistiques basés sur la normalité
- Fondamental pour les intervalles de confiance
- Justifie de nombreuses hypothèses en ML

In [None]:
# Démonstration du Théorème Central Limite
np.random.seed(42)

# Distribution d'origine : exponentielle (très asymétrique)
population = np.random.exponential(scale=2, size=100000)

# Tirage de moyennes d'échantillons de tailles différentes
tailles = [5, 10, 30, 100]
moyennes_echantillons = {}

for n in tailles:
    moyennes = []
    for _ in range(1000):
        echantillon = np.random.choice(population, size=n)
        moyennes.append(np.mean(echantillon))
    moyennes_echantillons[n] = moyennes

# Visualisation
fig, axes = plt.subplots(2, 3, figsize=(15, 8))
axes = axes.flatten()

# Population d'origine
axes[0].hist(population[:1000], bins=50, density=True, alpha=0.7, color='salmon', edgecolor='black')
axes[0].set_title('🎲 Distribution Originale\n(Exponentielle)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Densité')
axes[0].grid(True, alpha=0.3)

# Distributions des moyennes
for idx, n in enumerate(tailles, start=1):
    axes[idx].hist(moyennes_echantillons[n], bins=30, density=True, alpha=0.7, 
                   color='skyblue', edgecolor='black')
    
    # Courbe normale théorique
    mu = np.mean(moyennes_echantillons[n])
    sigma = np.std(moyennes_echantillons[n])
    x = np.linspace(min(moyennes_echantillons[n]), max(moyennes_echantillons[n]), 100)
    axes[idx].plot(x, norm.pdf(x, mu, sigma), 'r-', linewidth=2, label='Normale')
    
    axes[idx].set_title(f'📊 Moyennes (n={n})', fontsize=12, fontweight='bold')
    axes[idx].set_ylabel('Densité')
    axes[idx].legend()
    axes[idx].grid(True, alpha=0.3)

# Supprimer le dernier subplot vide
fig.delaxes(axes[5])

plt.tight_layout()
plt.show()

print("\n🔔 Observation du Théorème Central Limite :")
print("   ➤ Plus n augmente, plus la distribution devient normale")
print("   ➤ La variance diminue avec 1/n")

---

## 5️⃣ Tests d'Hypothèses

### 📚 Théorie

Un test d'hypothèse permet de prendre une décision statistique :

- **H₀** (Hypothèse nulle) : Aucun effet, pas de différence
- **H₁** (Hypothèse alternative) : Il y a un effet, une différence

#### P-value :
Probabilité d'observer un résultat au moins aussi extrême si H₀ est vraie.

**Règle de décision** :
- Si p-value < α (seuil, souvent 0.05) → Rejeter H₀
- Sinon → Ne pas rejeter H₀

### 🧪 T-Test (Test de Student)

Teste si la moyenne d'un échantillon est significativement différente d'une valeur théorique.

$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$

où $s$ est l'écart-type de l'échantillon.

In [None]:
# Exemple : Test si le rendement moyen est significativement différent de 0
# H0 : μ = 0 (pas de rendement)
# H1 : μ ≠ 0 (rendement significatif)

t_statistic, p_value = stats.ttest_1samp(rendements, 0)

print("🧪 T-Test : Le rendement est-il différent de 0 ?")
print("="*50)
print(f"H₀ : μ = 0 (pas de rendement)")
print(f"H₁ : μ ≠ 0 (rendement significatif)")
print(f"\nStatistique t : {t_statistic:.4f}")
print(f"P-value       : {p_value:.4f}")
print(f"\nDécision (α=0.05) : {'Rejeter H₀' if p_value < 0.05 else 'Ne pas rejeter H₀'}")

if p_value < 0.05:
    print(f"✅ Le rendement moyen ({moyenne:.4%}) est statistiquement différent de 0")
else:
    print(f"❌ Pas assez d'évidence pour dire que le rendement est différent de 0")

### 🧪 Test du Chi-Carré (χ²)

Teste l'indépendance entre deux variables catégorielles.

$$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$

où $O_i$ = fréquences observées, $E_i$ = fréquences attendues

In [None]:
# Exemple : Test d'indépendance entre secteur et performance
# Table de contingence : Secteur vs Performance (Hausse/Baisse)
observed = np.array([
    [60, 40],  # Tech : Hausse, Baisse
    [45, 55],  # Finance : Hausse, Baisse
    [70, 30]   # Santé : Hausse, Baisse
])

chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)

print("\n🧪 Test du Chi-Carré : Secteur et Performance sont-ils indépendants ?")
print("="*50)
print("H₀ : Secteur et Performance sont indépendants")
print("H₁ : Il y a une relation entre Secteur et Performance")
print(f"\nStatistique χ² : {chi2_stat:.4f}")
print(f"P-value        : {p_value:.4f}")
print(f"Degrés de liberté : {dof}")
print(f"\nFréquences attendues sous H₀ :")
print(expected)
print(f"\nDécision (α=0.05) : {'Rejeter H₀' if p_value < 0.05 else 'Ne pas rejeter H₀'}")

if p_value < 0.05:
    print("✅ Il y a une relation significative entre secteur et performance")
else:
    print("❌ Pas de relation significative détectée")

### 💰 Application Finance : A/B Testing de Stratégies

Comparaison de deux stratégies de trading

In [None]:
# Génération de rendements pour deux stratégies
np.random.seed(42)
strategie_A = np.random.normal(0.0015, 0.02, 100)  # Rendement moyen 0.15%
strategie_B = np.random.normal(0.0020, 0.025, 100)  # Rendement moyen 0.20%, plus volatile

# Test de comparaison (t-test à deux échantillons)
t_stat, p_val = stats.ttest_ind(strategie_A, strategie_B)

print("\n💰 A/B Test : Comparaison de Deux Stratégies")
print("="*50)
print(f"Stratégie A - Moyenne : {np.mean(strategie_A):.4%}, σ : {np.std(strategie_A):.4%}")
print(f"Stratégie B - Moyenne : {np.mean(strategie_B):.4%}, σ : {np.std(strategie_B):.4%}")
print(f"\nH₀ : Les deux stratégies ont le même rendement moyen")
print(f"H₁ : Les stratégies ont des rendements différents")
print(f"\nStatistique t : {t_stat:.4f}")
print(f"P-value       : {p_val:.4f}")
print(f"\nDécision : {'Rejeter H₀ - différence significative' if p_val < 0.05 else 'Ne pas rejeter H₀'}")

---

## 6️⃣ Intervalles de Confiance

### 📚 Théorie

Un intervalle de confiance à 95% donne une plage de valeurs qui contient la vraie valeur du paramètre avec 95% de probabilité.

#### Pour la moyenne (échantillon grand, n > 30) :
$$IC_{95\%} = \bar{x} \pm 1.96 \times \frac{\sigma}{\sqrt{n}}$$

#### Pour petit échantillon (distribution t) :
$$IC_{95\%} = \bar{x} \pm t_{\alpha/2, n-1} \times \frac{s}{\sqrt{n}}$$

### 💡 Interprétation

"Nous sommes confiants à 95% que la vraie moyenne se trouve dans cet intervalle"

In [None]:
# Calcul de l'intervalle de confiance pour le rendement moyen
confidence_level = 0.95
n = len(rendements)
mean = np.mean(rendements)
std_err = stats.sem(rendements)  # Erreur standard de la moyenne

# Utilisation de la distribution t (plus conservatrice pour petits échantillons)
ci = stats.t.interval(confidence_level, n-1, loc=mean, scale=std_err)

print("📏 Intervalle de Confiance à 95% pour le Rendement Moyen")
print("="*50)
print(f"Moyenne observée : {mean:.4%}")
print(f"Erreur standard  : {std_err:.4%}")
print(f"\nIC à 95% : [{ci[0]:.4%}, {ci[1]:.4%}]")
print(f"\n💡 Interprétation :")
print(f"   Nous sommes confiants à 95% que le vrai rendement moyen")
print(f"   quotidien se situe entre {ci[0]:.4%} et {ci[1]:.4%}")

# Intervalles pour différents niveaux de confiance
levels = [0.90, 0.95, 0.99]
print("\n📊 Comparaison des Niveaux de Confiance :")
for level in levels:
    ci_temp = stats.t.interval(level, n-1, loc=mean, scale=std_err)
    width = ci_temp[1] - ci_temp[0]
    print(f"   IC à {level*100:.0f}% : [{ci_temp[0]:.4%}, {ci_temp[1]:.4%}] (largeur: {width:.4%})")

In [None]:
# Visualisation de l'intervalle de confiance
fig, ax = plt.subplots(figsize=(10, 6))

# Distribution t
x = np.linspace(mean - 4*std_err, mean + 4*std_err, 1000)
y = stats.t.pdf(x, n-1, loc=mean, scale=std_err)

ax.plot(x, y, 'b-', linewidth=2, label='Distribution t')
ax.axvline(mean, color='red', linestyle='--', linewidth=2, label=f'Moyenne: {mean:.4%}')
ax.axvline(ci[0], color='green', linestyle='--', linewidth=1.5, label=f'IC 95%: [{ci[0]:.4%}, {ci[1]:.4%}]')
ax.axvline(ci[1], color='green', linestyle='--', linewidth=1.5)

# Zone de l'IC
x_fill = x[(x >= ci[0]) & (x <= ci[1])]
y_fill = stats.t.pdf(x_fill, n-1, loc=mean, scale=std_err)
ax.fill_between(x_fill, y_fill, alpha=0.3, color='green')

ax.set_title('📏 Intervalle de Confiance à 95% pour le Rendement Moyen', fontsize=14, fontweight='bold')
ax.set_xlabel('Rendement')
ax.set_ylabel('Densité de probabilité')
ax.legend()
ax.grid(True, alpha=0.3)
plt.show()

---

## 7️⃣ Corrélation et Régression Linéaire Simple

### 📚 Corrélation

Le coefficient de corrélation de Pearson mesure la relation linéaire entre deux variables :

$$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \sum(y_i - \bar{y})^2}}$$

- **r = 1** : Corrélation positive parfaite
- **r = 0** : Aucune corrélation linéaire
- **r = -1** : Corrélation négative parfaite

### 📈 Régression Linéaire Simple

Modèle : $y = \alpha + \beta x + \epsilon$

- **α** (alpha) : Ordonnée à l'origine
- **β** (beta) : Pente (sensibilité)
- **ε** (epsilon) : Erreur résiduelle

### 💰 Application Finance : Modèle de Marché (CAPM)

$$R_{actif} = \alpha + \beta \times R_{marché} + \epsilon$$

- **β > 1** : Actif plus volatil que le marché
- **β = 1** : Actif suit le marché
- **β < 1** : Actif moins volatil que le marché
- **α** : Performance excédentaire (alpha de Jensen)

In [None]:
# Génération de données : Rendements d'un actif vs rendements du marché
np.random.seed(42)
rendements_marche = np.random.normal(0.0008, 0.015, 252)
beta_reel = 1.2  # Actif 20% plus volatil que le marché
alpha_reel = 0.0002  # 0.02% de rendement excédentaire par jour

# Génération des rendements de l'actif selon le modèle
bruit = np.random.normal(0, 0.005, 252)
rendements_actif = alpha_reel + beta_reel * rendements_marche + bruit

# Calcul de la corrélation
correlation = np.corrcoef(rendements_marche, rendements_actif)[0, 1]

print("📊 Analyse de Corrélation")
print("="*50)
print(f"Coefficient de corrélation (r) : {correlation:.4f}")
print(f"R² (variance expliquée)        : {correlation**2:.4f} ({correlation**2*100:.1f}%)")
print(f"\n💡 Interprétation :")
if abs(correlation) > 0.7:
    print(f"   Corrélation {'positive' if correlation > 0 else 'négative'} forte")
elif abs(correlation) > 0.3:
    print(f"   Corrélation {'positive' if correlation > 0 else 'négative'} modérée")
else:
    print(f"   Corrélation faible ou nulle")

In [None]:
# Régression linéaire avec scipy
from scipy.stats import linregress

slope, intercept, r_value, p_value, std_err = linregress(rendements_marche, rendements_actif)

print("\n📈 Régression Linéaire : Modèle de Marché (CAPM)")
print("="*50)
print(f"Modèle : R_actif = α + β × R_marché + ε")
print(f"\nParamètres estimés :")
print(f"  α (alpha, Jensen)   : {intercept:.6f} ({intercept*252:.4%} annualisé)")
print(f"  β (beta, marché)    : {slope:.4f}")
print(f"  R² (qualité du fit) : {r_value**2:.4f}")
print(f"  P-value (β)         : {p_value:.6f}")
print(f"  Erreur std (β)      : {std_err:.4f}")

print(f"\n💎 Comparaison avec les vraies valeurs :")
print(f"  α réel : {alpha_reel:.6f}, estimé : {intercept:.6f}")
print(f"  β réel : {beta_reel:.4f}, estimé : {slope:.4f}")

print(f"\n💡 Interprétation du β :")
if slope > 1:
    print(f"   β > 1 → Actif {(slope-1)*100:.1f}% plus volatil que le marché (actif agressif)")
elif slope < 1:
    print(f"   β < 1 → Actif {(1-slope)*100:.1f}% moins volatil que le marché (actif défensif)")
else:
    print(f"   β ≈ 1 → Actif suit le marché")

In [None]:
# Visualisation de la régression
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 1. Scatter plot avec droite de régression
axes[0].scatter(rendements_marche, rendements_actif, alpha=0.6, s=30, color='steelblue', label='Observations')

# Droite de régression
x_fit = np.linspace(rendements_marche.min(), rendements_marche.max(), 100)
y_fit = intercept + slope * x_fit
axes[0].plot(x_fit, y_fit, 'r-', linewidth=2, label=f'y = {intercept:.4f} + {slope:.2f}x')

axes[0].set_xlabel('Rendement Marché', fontsize=11)
axes[0].set_ylabel('Rendement Actif', fontsize=11)
axes[0].set_title(f'📊 Régression Linéaire (R² = {r_value**2:.3f})', fontsize=13, fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# 2. Analyse des résidus
residus = rendements_actif - (intercept + slope * rendements_marche)

axes[1].scatter(rendements_marche, residus, alpha=0.6, s=30, color='coral')
axes[1].axhline(0, color='black', linestyle='--', linewidth=1.5)
axes[1].axhline(np.std(residus), color='red', linestyle=':', linewidth=1, label=f'±σ = {np.std(residus):.4f}')
axes[1].axhline(-np.std(residus), color='red', linestyle=':', linewidth=1)

axes[1].set_xlabel('Rendement Marché', fontsize=11)
axes[1].set_ylabel('Résidus', fontsize=11)
axes[1].set_title('🔍 Analyse des Résidus', fontsize=13, fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n💡 Validation du modèle via les résidus :")
print("   ✅ Les résidus doivent être aléatoires (pas de pattern)")
print("   ✅ Les résidus doivent être centrés sur 0")
print("   ✅ La variance des résidus doit être constante (homoscédasticité)")

### 🎯 Applications ML

La régression linéaire est la base de nombreux algorithmes ML :
- **Feature importance** : Coefficients du modèle
- **Baseline model** : Point de référence pour modèles complexes
- **Interpretability** : Modèle facilement interprétable

In [None]:
# Utilisation de statsmodels pour une analyse complète
import statsmodels.api as sm

# Ajout d'une constante pour l'intercept
X = sm.add_constant(rendements_marche)
y = rendements_actif

# Régression OLS (Ordinary Least Squares)
model = sm.OLS(y, X)
results = model.fit()

print("\n📊 Résumé Complet de la Régression (statsmodels)")
print("="*50)
print(results.summary())

### ✏️ Pratique maintenant !
📁 **Exercices** : `exercices_08_statistiques.ipynb` → Ex 1.1 à 1.5