# üìä Chapitre 08 : Statistiques

## üéØ Objectifs d'apprentissage

Dans ce chapitre, vous allez ma√Ætriser :
- üìà Les statistiques descriptives (moyenne, m√©diane, mode)
- üìâ Les mesures de dispersion (variance, √©cart-type, IQR)
- üìä Les visualisations statistiques (histogrammes, boxplots, scatter)
- üé≤ Les distributions empiriques
- üîî Le th√©or√®me central limite
- üß™ Les tests d'hypoth√®ses (t-test, chi-carr√©)
- üìè Les intervalles de confiance
- üìà La corr√©lation et r√©gression lin√©aire simple

## üíº Applications en Finance Quantitative

Les statistiques sont **fondamentales** en finance :
- Analyse des rendements d'actifs
- Gestion du risque (VaR, volatilit√©)
- Tests de strat√©gies de trading
- Validation de mod√®les de pricing
- D√©tection d'anomalies de march√©

In [None]:
# Imports n√©cessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import norm, t, chi2
import warnings
warnings.filterwarnings('ignore')

# Configuration pour de beaux graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

---

## 1Ô∏è‚É£ Statistiques Descriptives

### üìö Th√©orie

Les statistiques descriptives r√©sument les caract√©ristiques principales d'un ensemble de donn√©es.

#### Mesures de tendance centrale :

**Moyenne (mean)** :
$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$

**M√©diane (median)** : Valeur centrale qui s√©pare les donn√©es en deux moiti√©s √©gales

**Mode** : Valeur la plus fr√©quente dans les donn√©es

### üí° Quand utiliser quelle mesure ?

- **Moyenne** : Donn√©es sym√©triques sans outliers
- **M√©diane** : Donn√©es asym√©triques ou avec outliers (plus robuste)
- **Mode** : Donn√©es cat√©gorielles ou distribution multimodale

In [None]:
# Exemple : Rendements quotidiens d'une action
np.random.seed(42)
rendements = np.random.normal(0.001, 0.02, 252)  # 252 jours de trading

# Calcul des mesures de tendance centrale
moyenne = np.mean(rendements)
mediane = np.median(rendements)
# Pour le mode, on utilise scipy.stats
mode_result = stats.mode(np.round(rendements, 3), keepdims=True)

print("üìä Analyse des Rendements Quotidiens")
print("="*50)
print(f"Moyenne (Œº)   : {moyenne:.4%}")
print(f"M√©diane       : {mediane:.4%}")
print(f"\nüí∞ Rendement annualis√© (252 jours) : {moyenne * 252:.2%}")

### üéØ Applications ML

En Machine Learning, les statistiques descriptives permettent de :
- **Feature engineering** : Normalisation des donn√©es
- **Data quality** : D√©tection d'anomalies
- **Model validation** : Analyse des r√©sidus

In [None]:
# Exemple avec Pandas pour une analyse compl√®te
data = pd.DataFrame({
    'Rendement': rendements,
    'Volume': np.random.randint(1000000, 5000000, 252)
})

print("\nüìà Statistiques Descriptives Compl√®tes")
print("="*50)
print(data.describe())

---

## 2Ô∏è‚É£ Mesures de Dispersion

### üìö Th√©orie

Les mesures de dispersion quantifient la variabilit√© des donn√©es.

#### Variance :
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2$$

#### √âcart-type (Standard Deviation) :
$$\sigma = \sqrt{\sigma^2}$$

#### Intervalle Interquartile (IQR) :
$$IQR = Q_3 - Q_1$$

o√π $Q_1$ est le 1er quartile (25%) et $Q_3$ le 3√®me quartile (75%)

### üí∞ Importance en Finance

- **√âcart-type** = **Volatilit√©** = **Risque**
- Plus l'√©cart-type est √©lev√©, plus l'actif est risqu√©
- Ratio de Sharpe = $\frac{Rendement - Taux\ sans\ risque}{Volatilit√©}$

In [None]:
# Mesures de dispersion
variance = np.var(rendements)
ecart_type = np.std(rendements)
volatilite_annuelle = ecart_type * np.sqrt(252)  # Annualisation

# Quartiles et IQR
q1 = np.percentile(rendements, 25)
q2 = np.percentile(rendements, 50)  # = m√©diane
q3 = np.percentile(rendements, 75)
iqr = q3 - q1

print("üìä Mesures de Dispersion")
print("="*50)
print(f"Variance          : {variance:.6f}")
print(f"√âcart-type (œÉ)    : {ecart_type:.4%}")
print(f"Volatilit√© annuelle : {volatilite_annuelle:.2%}")
print(f"\nQuartiles :")
print(f"  Q1 (25%)        : {q1:.4%}")
print(f"  Q2 (50%, m√©diane): {q2:.4%}")
print(f"  Q3 (75%)        : {q3:.4%}")
print(f"  IQR             : {iqr:.4%}")

In [None]:
# Calcul du Ratio de Sharpe
taux_sans_risque = 0.02  # 2% annuel
rendement_annuel = moyenne * 252
sharpe_ratio = (rendement_annuel - taux_sans_risque) / volatilite_annuelle

print(f"\nüíé Ratio de Sharpe : {sharpe_ratio:.2f}")
print(f"   Interpr√©tation : {'Excellent (>2)' if sharpe_ratio > 2 else 'Bon (>1)' if sharpe_ratio > 1 else 'Moyen'}")

---

## 3Ô∏è‚É£ Visualisations Statistiques

### üìö Th√©orie

Les visualisations permettent de comprendre rapidement la distribution des donn√©es.

#### Types de graphiques :

1. **Histogramme** : Distribution de fr√©quences
2. **Boxplot (Bo√Æte √† moustaches)** : R√©sum√© des 5 nombres (min, Q1, m√©diane, Q3, max)
3. **Scatter plot** : Relation entre deux variables
4. **Q-Q plot** : Comparaison avec une distribution th√©orique

In [None]:
# Cr√©ation de visualisations compl√®tes
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Histogramme avec courbe de densit√©
axes[0, 0].hist(rendements, bins=30, density=True, alpha=0.7, color='skyblue', edgecolor='black')
# Ajout de la courbe normale th√©orique
x = np.linspace(rendements.min(), rendements.max(), 100)
axes[0, 0].plot(x, norm.pdf(x, moyenne, ecart_type), 'r-', linewidth=2, label='Normale th√©orique')
axes[0, 0].axvline(moyenne, color='green', linestyle='--', linewidth=2, label=f'Moyenne: {moyenne:.4%}')
axes[0, 0].axvline(mediane, color='orange', linestyle='--', linewidth=2, label=f'M√©diane: {mediane:.4%}')
axes[0, 0].set_title('üìä Histogramme des Rendements', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Rendement')
axes[0, 0].set_ylabel('Densit√©')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# 2. Boxplot
bp = axes[0, 1].boxplot(rendements, vert=True, patch_artist=True)
bp['boxes'][0].set_facecolor('lightblue')
bp['boxes'][0].set_alpha(0.7)
axes[0, 1].set_title('üì¶ Boxplot des Rendements', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Rendement')
axes[0, 1].grid(True, alpha=0.3, axis='y')
# Annotations
axes[0, 1].text(1.15, q3, f'Q3: {q3:.3%}', fontsize=10)
axes[0, 1].text(1.15, q2, f'M√©diane: {q2:.3%}', fontsize=10)
axes[0, 1].text(1.15, q1, f'Q1: {q1:.3%}', fontsize=10)

# 3. S√©rie temporelle
axes[1, 0].plot(rendements, linewidth=1, alpha=0.7, color='steelblue')
axes[1, 0].axhline(moyenne, color='red', linestyle='--', linewidth=1.5, label=f'Moyenne: {moyenne:.4%}')
axes[1, 0].fill_between(range(len(rendements)), moyenne - ecart_type, moyenne + ecart_type, 
                         alpha=0.2, color='red', label=f'¬±1œÉ: {ecart_type:.4%}')
axes[1, 0].set_title('üìà S√©rie Temporelle des Rendements', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Jour')
axes[1, 0].set_ylabel('Rendement')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# 4. Q-Q Plot (Quantile-Quantile)
stats.probplot(rendements, dist="norm", plot=axes[1, 1])
axes[1, 1].set_title('üìê Q-Q Plot (Normalit√©)', fontsize=14, fontweight='bold')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüí° Interpr√©tation du Q-Q Plot :")
print("   Si les points suivent la ligne rouge ‚Üí distribution normale")
print("   D√©viations aux extr√©mit√©s ‚Üí queues plus √©paisses (fat tails)")

### üéØ Applications ML

Les visualisations aident √† :
- **D√©tecter les outliers** avant l'entra√Ænement
- **V√©rifier la normalit√©** des features
- **Analyser les corr√©lations** entre variables

In [None]:
# D√©tection d'outliers avec la m√©thode IQR
limite_basse = q1 - 1.5 * iqr
limite_haute = q3 + 1.5 * iqr

outliers = rendements[(rendements < limite_basse) | (rendements > limite_haute)]

print(f"\nüö® D√©tection d'Outliers (M√©thode IQR)")
print(f"="*50)
print(f"Limite basse : {limite_basse:.4%}")
print(f"Limite haute : {limite_haute:.4%}")
print(f"Nombre d'outliers : {len(outliers)} ({len(outliers)/len(rendements)*100:.1f}%)")

---

## 4Ô∏è‚É£ Distributions Empiriques et Th√©or√®me Central Limite

### üìö Th√©or√®me Central Limite (TCL)

**√ânonc√©** : La distribution des moyennes d'√©chantillons tend vers une distribution normale, quelle que soit la distribution de la population d'origine, lorsque la taille de l'√©chantillon augmente.

$$\bar{X} \sim \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right) \text{ pour } n \text{ grand}$$

### üí° Importance

- Permet l'utilisation de tests statistiques bas√©s sur la normalit√©
- Fondamental pour les intervalles de confiance
- Justifie de nombreuses hypoth√®ses en ML

In [None]:
# D√©monstration du Th√©or√®me Central Limite
np.random.seed(42)

# Distribution d'origine : exponentielle (tr√®s asym√©trique)
population = np.random.exponential(scale=2, size=100000)

# Tirage de moyennes d'√©chantillons de tailles diff√©rentes
tailles = [5, 10, 30, 100]
moyennes_echantillons = {}

for n in tailles:
    moyennes = []
    for _ in range(1000):
        echantillon = np.random.choice(population, size=n)
        moyennes.append(np.mean(echantillon))
    moyennes_echantillons[n] = moyennes

# Visualisation
fig, axes = plt.subplots(2, 3, figsize=(15, 8))
axes = axes.flatten()

# Population d'origine
axes[0].hist(population[:1000], bins=50, density=True, alpha=0.7, color='salmon', edgecolor='black')
axes[0].set_title('üé≤ Distribution Originale\n(Exponentielle)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Densit√©')
axes[0].grid(True, alpha=0.3)

# Distributions des moyennes
for idx, n in enumerate(tailles, start=1):
    axes[idx].hist(moyennes_echantillons[n], bins=30, density=True, alpha=0.7, 
                   color='skyblue', edgecolor='black')
    
    # Courbe normale th√©orique
    mu = np.mean(moyennes_echantillons[n])
    sigma = np.std(moyennes_echantillons[n])
    x = np.linspace(min(moyennes_echantillons[n]), max(moyennes_echantillons[n]), 100)
    axes[idx].plot(x, norm.pdf(x, mu, sigma), 'r-', linewidth=2, label='Normale')
    
    axes[idx].set_title(f'üìä Moyennes (n={n})', fontsize=12, fontweight='bold')
    axes[idx].set_ylabel('Densit√©')
    axes[idx].legend()
    axes[idx].grid(True, alpha=0.3)

# Supprimer le dernier subplot vide
fig.delaxes(axes[5])

plt.tight_layout()
plt.show()

print("\nüîî Observation du Th√©or√®me Central Limite :")
print("   ‚û§ Plus n augmente, plus la distribution devient normale")
print("   ‚û§ La variance diminue avec 1/n")

---

## 5Ô∏è‚É£ Tests d'Hypoth√®ses

### üìö Th√©orie

Un test d'hypoth√®se permet de prendre une d√©cision statistique :

- **H‚ÇÄ** (Hypoth√®se nulle) : Aucun effet, pas de diff√©rence
- **H‚ÇÅ** (Hypoth√®se alternative) : Il y a un effet, une diff√©rence

#### P-value :
Probabilit√© d'observer un r√©sultat au moins aussi extr√™me si H‚ÇÄ est vraie.

**R√®gle de d√©cision** :
- Si p-value < Œ± (seuil, souvent 0.05) ‚Üí Rejeter H‚ÇÄ
- Sinon ‚Üí Ne pas rejeter H‚ÇÄ

### üß™ T-Test (Test de Student)

Teste si la moyenne d'un √©chantillon est significativement diff√©rente d'une valeur th√©orique.

$$t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}$$

o√π $s$ est l'√©cart-type de l'√©chantillon.

In [None]:
# Exemple : Test si le rendement moyen est significativement diff√©rent de 0
# H0 : Œº = 0 (pas de rendement)
# H1 : Œº ‚â† 0 (rendement significatif)

t_statistic, p_value = stats.ttest_1samp(rendements, 0)

print("üß™ T-Test : Le rendement est-il diff√©rent de 0 ?")
print("="*50)
print(f"H‚ÇÄ : Œº = 0 (pas de rendement)")
print(f"H‚ÇÅ : Œº ‚â† 0 (rendement significatif)")
print(f"\nStatistique t : {t_statistic:.4f}")
print(f"P-value       : {p_value:.4f}")
print(f"\nD√©cision (Œ±=0.05) : {'Rejeter H‚ÇÄ' if p_value < 0.05 else 'Ne pas rejeter H‚ÇÄ'}")

if p_value < 0.05:
    print(f"‚úÖ Le rendement moyen ({moyenne:.4%}) est statistiquement diff√©rent de 0")
else:
    print(f"‚ùå Pas assez d'√©vidence pour dire que le rendement est diff√©rent de 0")

### üß™ Test du Chi-Carr√© (œá¬≤)

Teste l'ind√©pendance entre deux variables cat√©gorielles.

$$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$

o√π $O_i$ = fr√©quences observ√©es, $E_i$ = fr√©quences attendues

In [None]:
# Exemple : Test d'ind√©pendance entre secteur et performance
# Table de contingence : Secteur vs Performance (Hausse/Baisse)
observed = np.array([
    [60, 40],  # Tech : Hausse, Baisse
    [45, 55],  # Finance : Hausse, Baisse
    [70, 30]   # Sant√© : Hausse, Baisse
])

chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)

print("\nüß™ Test du Chi-Carr√© : Secteur et Performance sont-ils ind√©pendants ?")
print("="*50)
print("H‚ÇÄ : Secteur et Performance sont ind√©pendants")
print("H‚ÇÅ : Il y a une relation entre Secteur et Performance")
print(f"\nStatistique œá¬≤ : {chi2_stat:.4f}")
print(f"P-value        : {p_value:.4f}")
print(f"Degr√©s de libert√© : {dof}")
print(f"\nFr√©quences attendues sous H‚ÇÄ :")
print(expected)
print(f"\nD√©cision (Œ±=0.05) : {'Rejeter H‚ÇÄ' if p_value < 0.05 else 'Ne pas rejeter H‚ÇÄ'}")

if p_value < 0.05:
    print("‚úÖ Il y a une relation significative entre secteur et performance")
else:
    print("‚ùå Pas de relation significative d√©tect√©e")

### üí∞ Application Finance : A/B Testing de Strat√©gies

Comparaison de deux strat√©gies de trading

In [None]:
# G√©n√©ration de rendements pour deux strat√©gies
np.random.seed(42)
strategie_A = np.random.normal(0.0015, 0.02, 100)  # Rendement moyen 0.15%
strategie_B = np.random.normal(0.0020, 0.025, 100)  # Rendement moyen 0.20%, plus volatile

# Test de comparaison (t-test √† deux √©chantillons)
t_stat, p_val = stats.ttest_ind(strategie_A, strategie_B)

print("\nüí∞ A/B Test : Comparaison de Deux Strat√©gies")
print("="*50)
print(f"Strat√©gie A - Moyenne : {np.mean(strategie_A):.4%}, œÉ : {np.std(strategie_A):.4%}")
print(f"Strat√©gie B - Moyenne : {np.mean(strategie_B):.4%}, œÉ : {np.std(strategie_B):.4%}")
print(f"\nH‚ÇÄ : Les deux strat√©gies ont le m√™me rendement moyen")
print(f"H‚ÇÅ : Les strat√©gies ont des rendements diff√©rents")
print(f"\nStatistique t : {t_stat:.4f}")
print(f"P-value       : {p_val:.4f}")
print(f"\nD√©cision : {'Rejeter H‚ÇÄ - diff√©rence significative' if p_val < 0.05 else 'Ne pas rejeter H‚ÇÄ'}")

---

## 6Ô∏è‚É£ Intervalles de Confiance

### üìö Th√©orie

Un intervalle de confiance √† 95% donne une plage de valeurs qui contient la vraie valeur du param√®tre avec 95% de probabilit√©.

#### Pour la moyenne (√©chantillon grand, n > 30) :
$$IC_{95\%} = \bar{x} \pm 1.96 \times \frac{\sigma}{\sqrt{n}}$$

#### Pour petit √©chantillon (distribution t) :
$$IC_{95\%} = \bar{x} \pm t_{\alpha/2, n-1} \times \frac{s}{\sqrt{n}}$$

### üí° Interpr√©tation

"Nous sommes confiants √† 95% que la vraie moyenne se trouve dans cet intervalle"

In [None]:
# Calcul de l'intervalle de confiance pour le rendement moyen
confidence_level = 0.95
n = len(rendements)
mean = np.mean(rendements)
std_err = stats.sem(rendements)  # Erreur standard de la moyenne

# Utilisation de la distribution t (plus conservatrice pour petits √©chantillons)
ci = stats.t.interval(confidence_level, n-1, loc=mean, scale=std_err)

print("üìè Intervalle de Confiance √† 95% pour le Rendement Moyen")
print("="*50)
print(f"Moyenne observ√©e : {mean:.4%}")
print(f"Erreur standard  : {std_err:.4%}")
print(f"\nIC √† 95% : [{ci[0]:.4%}, {ci[1]:.4%}]")
print(f"\nüí° Interpr√©tation :")
print(f"   Nous sommes confiants √† 95% que le vrai rendement moyen")
print(f"   quotidien se situe entre {ci[0]:.4%} et {ci[1]:.4%}")

# Intervalles pour diff√©rents niveaux de confiance
levels = [0.90, 0.95, 0.99]
print("\nüìä Comparaison des Niveaux de Confiance :")
for level in levels:
    ci_temp = stats.t.interval(level, n-1, loc=mean, scale=std_err)
    width = ci_temp[1] - ci_temp[0]
    print(f"   IC √† {level*100:.0f}% : [{ci_temp[0]:.4%}, {ci_temp[1]:.4%}] (largeur: {width:.4%})")

In [None]:
# Visualisation de l'intervalle de confiance
fig, ax = plt.subplots(figsize=(10, 6))

# Distribution t
x = np.linspace(mean - 4*std_err, mean + 4*std_err, 1000)
y = stats.t.pdf(x, n-1, loc=mean, scale=std_err)

ax.plot(x, y, 'b-', linewidth=2, label='Distribution t')
ax.axvline(mean, color='red', linestyle='--', linewidth=2, label=f'Moyenne: {mean:.4%}')
ax.axvline(ci[0], color='green', linestyle='--', linewidth=1.5, label=f'IC 95%: [{ci[0]:.4%}, {ci[1]:.4%}]')
ax.axvline(ci[1], color='green', linestyle='--', linewidth=1.5)

# Zone de l'IC
x_fill = x[(x >= ci[0]) & (x <= ci[1])]
y_fill = stats.t.pdf(x_fill, n-1, loc=mean, scale=std_err)
ax.fill_between(x_fill, y_fill, alpha=0.3, color='green')

ax.set_title('üìè Intervalle de Confiance √† 95% pour le Rendement Moyen', fontsize=14, fontweight='bold')
ax.set_xlabel('Rendement')
ax.set_ylabel('Densit√© de probabilit√©')
ax.legend()
ax.grid(True, alpha=0.3)
plt.show()

---

## 7Ô∏è‚É£ Corr√©lation et R√©gression Lin√©aire Simple

### üìö Corr√©lation

Le coefficient de corr√©lation de Pearson mesure la relation lin√©aire entre deux variables :

$$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \sum(y_i - \bar{y})^2}}$$

- **r = 1** : Corr√©lation positive parfaite
- **r = 0** : Aucune corr√©lation lin√©aire
- **r = -1** : Corr√©lation n√©gative parfaite

### üìà R√©gression Lin√©aire Simple

Mod√®le : $y = \alpha + \beta x + \epsilon$

- **Œ±** (alpha) : Ordonn√©e √† l'origine
- **Œ≤** (beta) : Pente (sensibilit√©)
- **Œµ** (epsilon) : Erreur r√©siduelle

### üí∞ Application Finance : Mod√®le de March√© (CAPM)

$$R_{actif} = \alpha + \beta \times R_{march√©} + \epsilon$$

- **Œ≤ > 1** : Actif plus volatil que le march√©
- **Œ≤ = 1** : Actif suit le march√©
- **Œ≤ < 1** : Actif moins volatil que le march√©
- **Œ±** : Performance exc√©dentaire (alpha de Jensen)

In [None]:
# G√©n√©ration de donn√©es : Rendements d'un actif vs rendements du march√©
np.random.seed(42)
rendements_marche = np.random.normal(0.0008, 0.015, 252)
beta_reel = 1.2  # Actif 20% plus volatil que le march√©
alpha_reel = 0.0002  # 0.02% de rendement exc√©dentaire par jour

# G√©n√©ration des rendements de l'actif selon le mod√®le
bruit = np.random.normal(0, 0.005, 252)
rendements_actif = alpha_reel + beta_reel * rendements_marche + bruit

# Calcul de la corr√©lation
correlation = np.corrcoef(rendements_marche, rendements_actif)[0, 1]

print("üìä Analyse de Corr√©lation")
print("="*50)
print(f"Coefficient de corr√©lation (r) : {correlation:.4f}")
print(f"R¬≤ (variance expliqu√©e)        : {correlation**2:.4f} ({correlation**2*100:.1f}%)")
print(f"\nüí° Interpr√©tation :")
if abs(correlation) > 0.7:
    print(f"   Corr√©lation {'positive' if correlation > 0 else 'n√©gative'} forte")
elif abs(correlation) > 0.3:
    print(f"   Corr√©lation {'positive' if correlation > 0 else 'n√©gative'} mod√©r√©e")
else:
    print(f"   Corr√©lation faible ou nulle")

In [None]:
# R√©gression lin√©aire avec scipy
from scipy.stats import linregress

slope, intercept, r_value, p_value, std_err = linregress(rendements_marche, rendements_actif)

print("\nüìà R√©gression Lin√©aire : Mod√®le de March√© (CAPM)")
print("="*50)
print(f"Mod√®le : R_actif = Œ± + Œ≤ √ó R_march√© + Œµ")
print(f"\nParam√®tres estim√©s :")
print(f"  Œ± (alpha, Jensen)   : {intercept:.6f} ({intercept*252:.4%} annualis√©)")
print(f"  Œ≤ (beta, march√©)    : {slope:.4f}")
print(f"  R¬≤ (qualit√© du fit) : {r_value**2:.4f}")
print(f"  P-value (Œ≤)         : {p_value:.6f}")
print(f"  Erreur std (Œ≤)      : {std_err:.4f}")

print(f"\nüíé Comparaison avec les vraies valeurs :")
print(f"  Œ± r√©el : {alpha_reel:.6f}, estim√© : {intercept:.6f}")
print(f"  Œ≤ r√©el : {beta_reel:.4f}, estim√© : {slope:.4f}")

print(f"\nüí° Interpr√©tation du Œ≤ :")
if slope > 1:
    print(f"   Œ≤ > 1 ‚Üí Actif {(slope-1)*100:.1f}% plus volatil que le march√© (actif agressif)")
elif slope < 1:
    print(f"   Œ≤ < 1 ‚Üí Actif {(1-slope)*100:.1f}% moins volatil que le march√© (actif d√©fensif)")
else:
    print(f"   Œ≤ ‚âà 1 ‚Üí Actif suit le march√©")

In [None]:
# Visualisation de la r√©gression
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 1. Scatter plot avec droite de r√©gression
axes[0].scatter(rendements_marche, rendements_actif, alpha=0.6, s=30, color='steelblue', label='Observations')

# Droite de r√©gression
x_fit = np.linspace(rendements_marche.min(), rendements_marche.max(), 100)
y_fit = intercept + slope * x_fit
axes[0].plot(x_fit, y_fit, 'r-', linewidth=2, label=f'y = {intercept:.4f} + {slope:.2f}x')

axes[0].set_xlabel('Rendement March√©', fontsize=11)
axes[0].set_ylabel('Rendement Actif', fontsize=11)
axes[0].set_title(f'üìä R√©gression Lin√©aire (R¬≤ = {r_value**2:.3f})', fontsize=13, fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# 2. Analyse des r√©sidus
residus = rendements_actif - (intercept + slope * rendements_marche)

axes[1].scatter(rendements_marche, residus, alpha=0.6, s=30, color='coral')
axes[1].axhline(0, color='black', linestyle='--', linewidth=1.5)
axes[1].axhline(np.std(residus), color='red', linestyle=':', linewidth=1, label=f'¬±œÉ = {np.std(residus):.4f}')
axes[1].axhline(-np.std(residus), color='red', linestyle=':', linewidth=1)

axes[1].set_xlabel('Rendement March√©', fontsize=11)
axes[1].set_ylabel('R√©sidus', fontsize=11)
axes[1].set_title('üîç Analyse des R√©sidus', fontsize=13, fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüí° Validation du mod√®le via les r√©sidus :")
print("   ‚úÖ Les r√©sidus doivent √™tre al√©atoires (pas de pattern)")
print("   ‚úÖ Les r√©sidus doivent √™tre centr√©s sur 0")
print("   ‚úÖ La variance des r√©sidus doit √™tre constante (homosc√©dasticit√©)")

### üéØ Applications ML

La r√©gression lin√©aire est la base de nombreux algorithmes ML :
- **Feature importance** : Coefficients du mod√®le
- **Baseline model** : Point de r√©f√©rence pour mod√®les complexes
- **Interpretability** : Mod√®le facilement interpr√©table

In [None]:
# Utilisation de statsmodels pour une analyse compl√®te
import statsmodels.api as sm

# Ajout d'une constante pour l'intercept
X = sm.add_constant(rendements_marche)
y = rendements_actif

# R√©gression OLS (Ordinary Least Squares)
model = sm.OLS(y, X)
results = model.fit()

print("\nüìä R√©sum√© Complet de la R√©gression (statsmodels)")
print("="*50)
print(results.summary())

---

## üéì R√©sum√© du Chapitre

### ‚úÖ Concepts Ma√Ætris√©s

1. **Statistiques Descriptives**
   - Moyenne, m√©diane, mode
   - Choix de la mesure appropri√©e

2. **Mesures de Dispersion**
   - Variance, √©cart-type (volatilit√©)
   - IQR, d√©tection d'outliers
   - Ratio de Sharpe

3. **Visualisations**
   - Histogrammes, boxplots
   - Q-Q plots pour normalit√©
   - Scatter plots pour corr√©lations

4. **Th√©or√®me Central Limite**
   - Distribution des moyennes ‚Üí normale
   - Applications en inf√©rence statistique

5. **Tests d'Hypoth√®ses**
   - T-test pour moyennes
   - Chi-carr√© pour ind√©pendance
   - P-values et d√©cisions

6. **Intervalles de Confiance**
   - Estimation par intervalle
   - Niveaux de confiance

7. **R√©gression Lin√©aire**
   - Corr√©lation de Pearson
   - Mod√®le CAPM (Œ±, Œ≤)
   - Analyse des r√©sidus

### üöÄ Applications Finance

- Analyse de rendements et risque
- Tests de strat√©gies (A/B testing)
- Mod√®le de march√© (CAPM)
- Validation statistique de mod√®les

### üìö Prochaine √âtape

üëâ **[Exercices : exercices_08_statistiques.ipynb](../envs/phase_1_math/exercices_08_statistiques.ipynb)**

35+ exercices pour pratiquer tous les concepts !

---

## üìñ Ressources Suppl√©mentaires

- [Documentation NumPy Statistics](https://numpy.org/doc/stable/reference/routines.statistics.html)
- [SciPy Stats Module](https://docs.scipy.org/doc/scipy/reference/stats.html)
- [Statsmodels Documentation](https://www.statsmodels.org/stable/index.html)
- [Khan Academy - Statistics](https://www.khanacademy.org/math/statistics-probability)