# S√©ance 3 ‚Äî Statsmodels & analyses statistiques de base

## üéØ Objectifs
- R√©aliser des tests statistiques simples
- Comprendre et impl√©menter des r√©gressions lin√©aires pour features diagnostics
- Ma√Ætriser les statistiques descriptives avanc√©es
- Effectuer des tests d'hypoth√®ses

---

## üìö Introduction

**Statsmodels** est une biblioth√®que Python pour l'estimation de mod√®les statistiques et les tests statistiques. Elle offre des outils complets pour l'analyse de r√©gression, les tests d'hypoth√®ses, et plus encore.

**Installation :**
```bash
pip install statsmodels scipy pandas numpy matplotlib
```

In [None]:
# Imports n√©cessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
from statsmodels.stats import diagnostic
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8-darkgrid')
%matplotlib inline

## üìä 1. Pr√©paration des donn√©es

Nous allons cr√©er un jeu de donn√©es simul√© repr√©sentant des documents avec diff√©rentes caract√©ristiques.

In [None]:
# Cr√©ation d'un dataset de documents
np.random.seed(42)
n_docs = 500

# G√©n√©ration des features
longueur = np.random.normal(1000, 300, n_docs).clip(100, 3000)
mots_rares = np.random.poisson(20, n_docs)
phrases_longues = np.random.normal(15, 5, n_docs).clip(0, 40)
niveau_technique = np.random.choice([1, 2, 3, 4, 5], n_docs)

# Variable cible : difficult√© (fonction de plusieurs features + bruit)
difficulte = (
    0.002 * longueur +
    0.15 * mots_rares +
    0.3 * phrases_longues +
    2 * niveau_technique +
    np.random.normal(0, 3, n_docs)
).clip(1, 100)

# Cr√©ation du DataFrame
df = pd.DataFrame({
    'longueur': longueur,
    'mots_rares': mots_rares,
    'phrases_longues': phrases_longues,
    'niveau_technique': niveau_technique,
    'difficulte': difficulte
})

print("Dataset cr√©√© avec succ√®s!")
print(f"Dimensions: {df.shape}")
print("\nPremi√®res lignes:")
df.head()

## üìà 2. Statistiques descriptives avanc√©es

In [None]:
# Statistiques descriptives compl√®tes
print("=" * 60)
print("STATISTIQUES DESCRIPTIVES")
print("=" * 60)
print(df.describe())

print("\n" + "=" * 60)
print("ASYM√âTRIE (SKEWNESS) ET APLATISSEMENT (KURTOSIS)")
print("=" * 60)
for col in df.columns:
    skew = stats.skew(df[col])
    kurt = stats.kurtosis(df[col])
    print(f"{col:20s} | Skewness: {skew:7.3f} | Kurtosis: {kurt:7.3f}")

## üîó 3. Analyse de corr√©lation

In [None]:
# Matrice de corr√©lation
corr_matrix = df.corr()
print("Matrice de corr√©lation:")
print(corr_matrix)

# Visualisation
fig, ax = plt.subplots(figsize=(10, 8))
im = ax.imshow(corr_matrix, cmap='coolwarm', aspect='auto', vmin=-1, vmax=1)
ax.set_xticks(range(len(corr_matrix.columns)))
ax.set_yticks(range(len(corr_matrix.columns)))
ax.set_xticklabels(corr_matrix.columns, rotation=45, ha='right')
ax.set_yticklabels(corr_matrix.columns)

# Ajouter les valeurs dans les cellules
for i in range(len(corr_matrix)):
    for j in range(len(corr_matrix)):
        text = ax.text(j, i, f'{corr_matrix.iloc[i, j]:.2f}',
                      ha="center", va="center", color="black", fontsize=9)

plt.colorbar(im, ax=ax)
plt.title('Matrice de corr√©lation', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## üß™ 4. Tests d'hypoth√®ses

### Test de normalit√© (Shapiro-Wilk)

In [None]:
# Test de normalit√© pour chaque variable
print("=" * 60)
print("TESTS DE NORMALIT√â (Shapiro-Wilk)")
print("=" * 60)
for col in df.columns:
    stat, p_value = stats.shapiro(df[col])
    is_normal = "OUI" if p_value > 0.05 else "NON"
    print(f"{col:20s} | p-value: {p_value:.4f} | Normal: {is_normal}")

### Test t de Student (comparaison de moyennes)

In [None]:
# Comparer la difficult√© entre documents de niveau technique bas (1-2) et haut (4-5)
niveau_bas = df[df['niveau_technique'].isin([1, 2])]['difficulte']
niveau_haut = df[df['niveau_technique'].isin([4, 5])]['difficulte']

t_stat, p_value = stats.ttest_ind(niveau_bas, niveau_haut)

print("=" * 60)
print("TEST T DE STUDENT")
print("=" * 60)
print(f"Moyenne difficult√© (niveau bas):  {niveau_bas.mean():.2f}")
print(f"Moyenne difficult√© (niveau haut): {niveau_haut.mean():.2f}")
print(f"\nStatistique t: {t_stat:.4f}")
print(f"p-value: {p_value:.4f}")
print(f"\nConclusion: La diff√©rence est {'significative' if p_value < 0.05 else 'non significative'} (Œ±=0.05)")

## üìâ 5. R√©gression lin√©aire simple (OLS)

### Mod√®le univari√© : longueur ‚Üí difficult√©

In [None]:
# Pr√©paration des donn√©es
X = df['longueur']
y = df['difficulte']

# Ajout de la constante (intercept)
X_with_const = sm.add_constant(X)

# Estimation du mod√®le
model_simple = sm.OLS(y, X_with_const)
results_simple = model_simple.fit()

# Affichage du r√©sum√©
print(results_simple.summary())

In [None]:
# Visualisation du mod√®le
fig, ax = plt.subplots(figsize=(10, 6))

# Points observ√©s
ax.scatter(X, y, alpha=0.5, label='Donn√©es observ√©es')

# Droite de r√©gression
x_pred = np.linspace(X.min(), X.max(), 100)
X_pred_const = sm.add_constant(x_pred)
y_pred = results_simple.predict(X_pred_const)
ax.plot(x_pred, y_pred, 'r-', linewidth=2, label='Droite de r√©gression')

# Intervalle de confiance
predictions = results_simple.get_prediction(X_pred_const)
pred_summary = predictions.summary_frame(alpha=0.05)
ax.fill_between(x_pred, pred_summary['obs_ci_lower'], pred_summary['obs_ci_upper'],
                alpha=0.2, color='red', label='Intervalle de confiance 95%')

ax.set_xlabel('Longueur du document', fontsize=12)
ax.set_ylabel('Difficult√©', fontsize=12)
ax.set_title('R√©gression lin√©aire: Longueur ‚Üí Difficult√©', fontsize=14, fontweight='bold')
ax.legend()
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\n√âquation: Difficult√© = {results_simple.params[0]:.2f} + {results_simple.params[1]:.4f} √ó Longueur")
print(f"R¬≤ = {results_simple.rsquared:.4f}")

## üìä 6. R√©gression lin√©aire multiple

### Mod√®le multivari√© : toutes les features ‚Üí difficult√©

In [None]:
# Pr√©paration des donn√©es
X_multi = df[['longueur', 'mots_rares', 'phrases_longues', 'niveau_technique']]
y_multi = df['difficulte']

# Ajout de la constante
X_multi_const = sm.add_constant(X_multi)

# Estimation du mod√®le
model_multi = sm.OLS(y_multi, X_multi_const)
results_multi = model_multi.fit()

# Affichage du r√©sum√©
print(results_multi.summary())

## üîç 7. Diagnostics de r√©gression

In [None]:
# Graphiques de diagnostic
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. R√©sidus vs valeurs pr√©dites
residuals = results_multi.resid
fitted = results_multi.fittedvalues
axes[0, 0].scatter(fitted, residuals, alpha=0.5)
axes[0, 0].axhline(y=0, color='r', linestyle='--')
axes[0, 0].set_xlabel('Valeurs pr√©dites')
axes[0, 0].set_ylabel('R√©sidus')
axes[0, 0].set_title('R√©sidus vs Valeurs pr√©dites')
axes[0, 0].grid(True, alpha=0.3)

# 2. Q-Q plot (normalit√© des r√©sidus)
sm.qqplot(residuals, line='s', ax=axes[0, 1])
axes[0, 1].set_title('Q-Q Plot')
axes[0, 1].grid(True, alpha=0.3)

# 3. Scale-Location (homosc√©dasticit√©)
standardized_resid = np.sqrt(np.abs((residuals - residuals.mean()) / residuals.std()))
axes[1, 0].scatter(fitted, standardized_resid, alpha=0.5)
axes[1, 0].set_xlabel('Valeurs pr√©dites')
axes[1, 0].set_ylabel('‚àö|R√©sidus standardis√©s|')
axes[1, 0].set_title('Scale-Location')
axes[1, 0].grid(True, alpha=0.3)

# 4. Histogramme des r√©sidus
axes[1, 1].hist(residuals, bins=30, edgecolor='black', alpha=0.7)
axes[1, 1].set_xlabel('R√©sidus')
axes[1, 1].set_ylabel('Fr√©quence')
axes[1, 1].set_title('Distribution des r√©sidus')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## üìã 8. Comparaison des mod√®les

In [None]:
# Tableau comparatif
comparison = pd.DataFrame({
    'Mod√®le': ['Simple (longueur)', 'Multiple (toutes features)'],
    'R¬≤': [results_simple.rsquared, results_multi.rsquared],
    'R¬≤ ajust√©': [results_simple.rsquared_adj, results_multi.rsquared_adj],
    'AIC': [results_simple.aic, results_multi.aic],
    'BIC': [results_simple.bic, results_multi.bic],
    'RMSE': [
        np.sqrt(np.mean(results_simple.resid**2)),
        np.sqrt(np.mean(results_multi.resid**2))
    ]
})

print("=" * 80)
print("COMPARAISON DES MOD√àLES")
print("=" * 80)
print(comparison.to_string(index=False))
print("\nNote: Plus le R¬≤ est √©lev√©, mieux c'est. Plus l'AIC/BIC est faible, mieux c'est.")

## üéØ EXERCICE : Votre mod√®le OLS

**Objectif**: Cr√©er un mod√®le OLS simplifi√© pour pr√©dire une m√©trique de votre choix.

**Instructions**:
1. Choisissez une variable cible (par exemple: difficult√©, longueur, etc.)
2. S√©lectionnez 2-3 variables explicatives
3. Construisez le mod√®le OLS
4. Analysez les r√©sultats (coefficients, p-values, R¬≤)
5. Cr√©ez les graphiques de diagnostic
6. Interpr√©tez les r√©sultats

**Questions √† r√©pondre**:
- Quelles variables sont significatives ?
- Quel est le pouvoir explicatif du mod√®le (R¬≤) ?
- Les hypoth√®ses de la r√©gression sont-elles respect√©es ?
- Comment am√©liorer le mod√®le ?

In [None]:
# VOTRE CODE ICI
# Exemple de structure:

# 1. S√©lection des variables
# X_ex = df[['variable1', 'variable2']]
# y_ex = df['cible']

# 2. Ajout de la constante
# X_ex_const = sm.add_constant(X_ex)

# 3. Estimation du mod√®le
# model_ex = sm.OLS(y_ex, X_ex_const)
# results_ex = model_ex.fit()

# 4. Affichage des r√©sultats
# print(results_ex.summary())

# 5. Visualisations et diagnostics
# ...

## üìù Conclusion

Dans cette s√©ance, nous avons appris √† :
- Calculer des statistiques descriptives avanc√©es
- Effectuer des tests d'hypoth√®ses (normalit√©, test t)
- Construire des mod√®les de r√©gression lin√©aire (simple et multiple)
- Diagnostiquer et √©valuer les mod√®les
- Interpr√©ter les r√©sultats statistiques

**Points cl√©s √† retenir** :
1. Les tests statistiques n√©cessitent des hypoth√®ses (ex: normalit√©)
2. Le R¬≤ mesure la qualit√© de l'ajustement mais ne garantit pas la causalit√©
3. Les diagnostics de r√©gression sont essentiels pour valider les mod√®les
4. Un mod√®le simple peut √™tre pr√©f√©rable √† un mod√®le complexe (principe de parcimonie)

**Ressources suppl√©mentaires** :
- Documentation Statsmodels: https://www.statsmodels.org/
- Scipy Stats: https://docs.scipy.org/doc/scipy/reference/stats.html