# 4.3 Exercices Pratiques - Régression et Classification

## PSY3913/6913 - IA, Psychologie et Neuroscience Cognitive

Ce notebook contient des exercices progressifs pour mettre en pratique les concepts de régression et classification linéaires.

**Instructions:**
- Lisez attentivement chaque exercice
- Complétez le code dans les cellules prévues
- Exécutez et testez votre code
- Répondez aux questions de réflexion

## Setup

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.datasets import make_circles
import seaborn as sns

plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (10, 6)
np.random.seed(42)

---

## Exercice 1 : Régression avec features polynomiales

### Contexte
Dans cet exercice, vous allez découvrir comment améliorer un modèle linéaire en ajoutant des features polynomiales pour capturer des relations non-linéaires.

### Données
Nous allons créer des données suivant une relation **quadratique** : $y = 0.5x^2 + 2x + 1 + \text{bruit}$

In [None]:
# Générer les données
np.random.seed(42)
X_ex1 = np.random.rand(100, 1) * 10 - 5  # Valeurs entre -5 et 5
y_ex1 = 0.5 * X_ex1**2 + 2 * X_ex1 + 1 + np.random.randn(100, 1) * 5

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X_ex1, y_ex1, alpha=0.6)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Données avec relation non-linéaire')
plt.grid(True, alpha=0.3)
plt.show()

print("💡 Observation: Les données suivent clairement une courbe, pas une ligne!")

### Tâche 1.1 : Modèle linéaire simple

Commencez par entraîner un modèle de régression linéaire simple sur ces données.

In [None]:
# TODO: Créer et entraîner un modèle de régression linéaire
model_linear = LinearRegression()
# Votre code ici


# TODO: Faire des prédictions
y_pred_linear = # Votre code ici

# TODO: Calculer R² et MSE
r2_linear = # Votre code ici
mse_linear = # Votre code ici

print(f"📈 Performance du modèle linéaire:")
print(f"   R² = {r2_linear:.4f}")
print(f"   MSE = {mse_linear:.4f}")

# Visualisation
X_plot = np.linspace(-5, 5, 100).reshape(-1, 1)
y_plot_linear = model_linear.predict(X_plot)

plt.figure(figsize=(10, 6))
plt.scatter(X_ex1, y_ex1, alpha=0.6, label='Données')
plt.plot(X_plot, y_plot_linear, 'r-', linewidth=2, label='Régression linéaire')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Régression linéaire sur données non-linéaires')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

### Tâche 1.2 : Modèle avec features polynomiales

Maintenant, utilisez `PolynomialFeatures` pour créer des features polynomiales de degré 2, puis entraînez un nouveau modèle.

In [None]:
# TODO: Créer des features polynomiales (degré 2)
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = # Votre code ici

print(f"Forme originale: {X_ex1.shape}")
print(f"Forme avec features polynomiales: {X_poly.shape}")
print(f"\nFeatures créées: x, x²")

# TODO: Entraîner le modèle sur les features polynomiales
model_poly = LinearRegression()
# Votre code ici


# TODO: Faire des prédictions
y_pred_poly = # Votre code ici

# TODO: Calculer R² et MSE
r2_poly = # Votre code ici
mse_poly = # Votre code ici

print(f"\n📈 Performance du modèle polynomial:")
print(f"   R² = {r2_poly:.4f}")
print(f"   MSE = {mse_poly:.4f}")

# Visualisation
X_plot_poly = poly.transform(X_plot)
y_plot_poly = model_poly.predict(X_plot_poly)

plt.figure(figsize=(10, 6))
plt.scatter(X_ex1, y_ex1, alpha=0.6, label='Données')
plt.plot(X_plot, y_plot_linear, 'r-', linewidth=2, label='Linéaire', alpha=0.5)
plt.plot(X_plot, y_plot_poly, 'g-', linewidth=2, label='Polynomial (degré 2)')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Comparaison: Linéaire vs Polynomial')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\n📊 Comparaison:")
print(f"   Amélioration du R²: {r2_poly - r2_linear:.4f}")
print(f"   Réduction du MSE: {mse_linear - mse_poly:.4f}")

### Question de réflexion 1

**Q1:** Pourquoi le modèle polynomial performe-t-il mieux ?

*Votre réponse:*

**Q2:** Que se passerait-il si vous utilisiez un degré polynomial trop élevé (par exemple, degré 10) ?

*Votre réponse:*

---

## Exercice 2 : Classification avec données déséquilibrées

### Contexte
En neurosciences, il est fréquent d'avoir des classes déséquilibrées (par exemple, beaucoup plus d'essais dans une direction que dans une autre). Dans cet exercice, vous allez apprendre à gérer ce problème.

In [None]:
# Créer des données déséquilibrées
np.random.seed(42)

# Classe 0: 80 échantillons
X_class0 = np.random.randn(80, 2) + np.array([-2, -2])
y_class0 = np.zeros(80)

# Classe 1: 20 échantillons (minoritaire)
X_class1 = np.random.randn(20, 2) + np.array([2, 2])
y_class1 = np.ones(20)

# Combiner
X_ex2 = np.vstack([X_class0, X_class1])
y_ex2 = np.hstack([y_class0, y_class1])

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X_ex2[y_ex2==0, 0], X_ex2[y_ex2==0, 1], 
           c='blue', label=f'Classe 0 (n={np.sum(y_ex2==0)})', alpha=0.6, edgecolors='k')
plt.scatter(X_ex2[y_ex2==1, 0], X_ex2[y_ex2==1, 1], 
           c='red', label=f'Classe 1 (n={np.sum(y_ex2==1)})', alpha=0.6, edgecolors='k')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Dataset avec classes déséquilibrées (80/20)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"⚖️ Déséquilibre:")
print(f"   Classe 0: {np.sum(y_ex2==0)} échantillons ({np.sum(y_ex2==0)/len(y_ex2)*100:.1f}%)")
print(f"   Classe 1: {np.sum(y_ex2==1)} échantillons ({np.sum(y_ex2==1)/len(y_ex2)*100:.1f}%)")

### Tâche 2.1 : Modèle sans pondération

Entraînez un modèle de régression logistique standard.

In [None]:
# Division des données
X_train_ex2, X_test_ex2, y_train_ex2, y_test_ex2 = train_test_split(
    X_ex2, y_ex2, test_size=0.3, random_state=42, stratify=y_ex2
)

# TODO: Entraîner le modèle sans pondération
model_unweighted = LogisticRegression(random_state=42)
# Votre code ici


# TODO: Prédictions et évaluation
y_pred_unweighted = # Votre code ici
accuracy_unweighted = # Votre code ici

print(f"📈 Accuracy (sans pondération): {accuracy_unweighted:.4f}")

# Matrice de confusion
cm_unweighted = confusion_matrix(y_test_ex2, y_pred_unweighted)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_unweighted, annot=True, fmt='d', cmap='Blues',
           xticklabels=['Classe 0', 'Classe 1'],
           yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Prédiction')
plt.ylabel('Vraie classe')
plt.title('Matrice de confusion (sans pondération)')
plt.show()

print(f"\n💡 Question: Le modèle performe-t-il bien sur la classe minoritaire (classe 1)?")

### Tâche 2.2 : Modèle avec pondération

Utilisez `class_weight='balanced'` pour donner plus d'importance à la classe minoritaire.

In [None]:
# TODO: Entraîner le modèle avec pondération équilibrée
model_weighted = LogisticRegression(class_weight='balanced', random_state=42)
# Votre code ici


# TODO: Prédictions et évaluation
y_pred_weighted = # Votre code ici
accuracy_weighted = # Votre code ici

print(f"📈 Accuracy (avec pondération): {accuracy_weighted:.4f}")

# Matrice de confusion
cm_weighted = confusion_matrix(y_test_ex2, y_pred_weighted)

# Comparaison côte à côte
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

sns.heatmap(cm_unweighted, annot=True, fmt='d', cmap='Blues', ax=axes[0],
           xticklabels=['Classe 0', 'Classe 1'],
           yticklabels=['Classe 0', 'Classe 1'])
axes[0].set_title('Sans pondération')
axes[0].set_xlabel('Prédiction')
axes[0].set_ylabel('Vraie classe')

sns.heatmap(cm_weighted, annot=True, fmt='d', cmap='Greens', ax=axes[1],
           xticklabels=['Classe 0', 'Classe 1'],
           yticklabels=['Classe 0', 'Classe 1'])
axes[1].set_title('Avec pondération')
axes[1].set_xlabel('Prédiction')
axes[1].set_ylabel('Vraie classe')

plt.tight_layout()
plt.show()

print(f"\n📊 Comparaison:")
print(f"   Vrais positifs (classe 1):")
print(f"      Sans pondération: {cm_unweighted[1,1]}")
print(f"      Avec pondération: {cm_weighted[1,1]}")

### Question de réflexion 2

**Q1:** Quelle différence observez-vous dans les matrices de confusion ?

*Votre réponse:*

**Q2:** Dans quel contexte clinique ou de recherche serait-il crucial d'utiliser class_weight='balanced' ?

*Votre réponse:*

---

## Exercice 3 : Limites des modèles linéaires

### Contexte
Les modèles linéaires ont des limites importantes. Dans cet exercice, vous allez voir un cas où la classification linéaire échoue complètement.

In [None]:
# Créer des données en cercles (non linéairement séparables)
X_circles, y_circles = make_circles(n_samples=300, noise=0.1, factor=0.5, random_state=42)

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X_circles[y_circles==0, 0], X_circles[y_circles==0, 1],
           c='blue', label='Classe 0 (cercle extérieur)', alpha=0.6, edgecolors='k')
plt.scatter(X_circles[y_circles==1, 0], X_circles[y_circles==1, 1],
           c='red', label='Classe 1 (cercle intérieur)', alpha=0.6, edgecolors='k')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Dataset avec classes non linéairement séparables')
plt.legend()
plt.grid(True, alpha=0.3)
plt.axis('equal')
plt.show()

print("💡 Observation: Aucune ligne droite ne peut séparer ces deux classes!")

### Tâche 3.1 : Essayer la régression logistique standard

In [None]:
# Division des données
X_train_circles, X_test_circles, y_train_circles, y_test_circles = train_test_split(
    X_circles, y_circles, test_size=0.3, random_state=42
)

# TODO: Entraîner un modèle de régression logistique
model_circles = LogisticRegression(random_state=42)
# Votre code ici


# TODO: Évaluation
y_pred_circles = # Votre code ici
accuracy_circles = # Votre code ici

print(f"📈 Accuracy: {accuracy_circles:.4f}")
print(f"\n💡 Cette accuracy est proche de 50% (hasard) - le modèle linéaire échoue!")

# Visualiser la frontière de décision
def plot_decision_boundary_circles(model, X, y):
    h = 0.02
    x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
    y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    plt.figure(figsize=(10, 6))
    plt.contourf(xx, yy, Z, alpha=0.3, levels=1, colors=['blue', 'red'])
    plt.scatter(X[y==0, 0], X[y==0, 1], c='blue', label='Classe 0',
               alpha=0.7, edgecolors='k', s=50)
    plt.scatter(X[y==1, 0], X[y==1, 1], c='red', label='Classe 1',
               alpha=0.7, edgecolors='k', s=50)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title('Frontière de décision (régression logistique linéaire)')
    plt.legend()
    plt.axis('equal')
    plt.grid(True, alpha=0.3)
    plt.show()

plot_decision_boundary_circles(model_circles, X_circles, y_circles)

### Tâche 3.2 : Améliorer avec des features non-linéaires

Créez des features non-linéaires pour améliorer la classification.

In [None]:
# TODO: Créer des features polynomiales (essayez degré 2)
poly_circles = PolynomialFeatures(degree=2, include_bias=False)
X_circles_poly = # Votre code ici

print(f"Forme originale: {X_circles.shape}")
print(f"Forme avec features polynomiales: {X_circles_poly.shape}")

# Division
X_train_poly, X_test_poly, y_train_poly, y_test_poly = train_test_split(
    X_circles_poly, y_circles, test_size=0.3, random_state=42
)

# TODO: Entraîner le modèle sur les features polynomiales
model_circles_poly = LogisticRegression(random_state=42, max_iter=1000)
# Votre code ici


# TODO: Évaluation
y_pred_circles_poly = # Votre code ici
accuracy_circles_poly = # Votre code ici

print(f"\n📈 Performance:")
print(f"   Linéaire: {accuracy_circles:.4f}")
print(f"   Polynomial: {accuracy_circles_poly:.4f}")
print(f"\n✨ Amélioration: {(accuracy_circles_poly - accuracy_circles)*100:.2f}%")

### Question de réflexion 3

**Q1:** Pourquoi le modèle polynomial performe-t-il mieux ?

*Votre réponse:*

**Q2:** Quelles sont les alternatives aux features polynomiales pour gérer des données non linéairement séparables ?

*Votre réponse (indices: réseaux de neurones, SVM avec kernel, etc.):*

---

## Exercice 4 : Projet intégratif - Prédiction de performance cognitive

### Contexte
Vous avez des données simulées d'une étude en neurosciences où on mesure :
- Activité de plusieurs régions cérébrales (features)
- Score de performance à une tâche cognitive (cible)

**Votre mission :** Construire le meilleur modèle prédictif possible.

In [None]:
# Générer des données simulées
np.random.seed(123)

n_subjects = 150
n_regions = 8  # 8 régions cérébrales

# Activité cérébrale (features)
X_cog = np.random.randn(n_subjects, n_regions) * 10 + 50

# Score de performance (relation complexe)
# Certaines régions contribuent plus que d'autres
weights_true = np.array([2.0, 1.5, 0.5, -0.8, 1.0, 0.3, 1.8, -0.5])
y_cog = X_cog.dot(weights_true) + np.random.randn(n_subjects) * 15 + 200

# Normaliser le score entre 0 et 100
y_cog = (y_cog - y_cog.min()) / (y_cog.max() - y_cog.min()) * 100

print(f"📊 Dataset:")
print(f"   Nombre de sujets: {n_subjects}")
print(f"   Nombre de régions cérébrales: {n_regions}")
print(f"   Score moyen: {y_cog.mean():.2f}")
print(f"   Score std: {y_cog.std():.2f}")

### Tâche 4.1 : Exploration des données

In [None]:
# TODO: Créer des visualisations pour explorer les données
# 1. Distribution du score de performance
# 2. Corrélation entre chaque région et le score
# Votre code ici



### Tâche 4.2 : Standardisation des données

En pratique, il est souvent important de standardiser les features.

In [None]:
# TODO: Diviser les données en train/test
X_train_cog, X_test_cog, y_train_cog, y_test_cog = # Votre code ici

# TODO: Standardiser les features (moyenne=0, std=1)
scaler = StandardScaler()
X_train_cog_scaled = # Votre code ici
X_test_cog_scaled = # Votre code ici

print(f"📊 Standardisation:")
print(f"   Avant - moyenne: {X_train_cog.mean(axis=0)[:3]}...")
print(f"   Après - moyenne: {X_train_cog_scaled.mean(axis=0)[:3]}...")
print(f"   Après - std: {X_train_cog_scaled.std(axis=0)[:3]}...")

### Tâche 4.3 : Entraînement et évaluation

In [None]:
# TODO: Entraîner un modèle de régression linéaire
model_cog = # Votre code ici

# TODO: Prédictions et évaluation
y_train_pred_cog = # Votre code ici
y_test_pred_cog = # Votre code ici

# TODO: Calculer les métriques
train_r2_cog = # Votre code ici
test_r2_cog = # Votre code ici
train_rmse_cog = # Votre code ici  (RMSE = sqrt(MSE))
test_rmse_cog = # Votre code ici

print(f"📈 Performance:")
print(f"   Train - R²: {train_r2_cog:.4f}, RMSE: {train_rmse_cog:.2f}")
print(f"   Test  - R²: {test_r2_cog:.4f}, RMSE: {test_rmse_cog:.2f}")

### Tâche 4.4 : Visualisations et interprétation

In [None]:
# TODO: Créer les visualisations suivantes
# 1. Scatter plot: prédictions vs vraies valeurs
# 2. Résidus vs prédictions
# 3. Importance des régions cérébrales (poids du modèle)
# Votre code ici



### Question de réflexion 4

**Q1:** Quelles régions cérébrales sont les plus importantes pour prédire la performance ?

*Votre réponse:*

**Q2:** Le modèle est-il en surapprentissage (overfitting) ou sous-apprentissage (underfitting) ? Justifiez.

*Votre réponse:*

**Q3:** Comment pourriez-vous améliorer ce modèle ?

*Votre réponse:*

---

## Exercice Bonus : Implémentation complète from scratch

### Défi
Implémentez une classe complète de régression linéaire qui supporte :
1. Équations normales
2. Descente de gradient
3. Régularisation Ridge (L2)

```python
class AdvancedLinearRegression:
    def __init__(self, method='normal', alpha=0.01, lambda_reg=0.0, n_iterations=1000):
        """
        Parameters:
        -----------
        method : str, 'normal' ou 'gradient'
        alpha : float, learning rate pour gradient descent
        lambda_reg : float, coefficient de régularisation
        n_iterations : int, nombre d'itérations pour gradient descent
        """
        # Votre implémentation ici
        pass
    
    def fit(self, X, y):
        # Votre implémentation ici
        pass
    
    def predict(self, X):
        # Votre implémentation ici
        pass
```

In [None]:
# Votre implémentation complète ici
# ...


---

## Conclusion

Félicitations d'avoir complété ces exercices ! 🎉

### Ce que vous avez appris:

✅ Comment améliorer les modèles linéaires avec des features polynomiales

✅ Gérer les classes déséquilibrées avec la pondération

✅ Reconnaître les limites des modèles linéaires

✅ Standardiser les données pour de meilleures performances

✅ Construire un pipeline complet d'analyse de données

✅ Interpréter les résultats et identifier les features importantes

### Prochaines étapes:

- Explorez des datasets réels (UCI Machine Learning Repository, Kaggle)
- Apprenez les réseaux de neurones pour gérer des relations plus complexes
- Pratiquez avec vos propres données de recherche en psychologie/neurosciences

**Bon apprentissage ! 🚀**