# 4.3 Exercices Pratiques - R√©gression et Classification

## PSY3913/6913 - IA, Psychologie et Neuroscience Cognitive

Ce notebook contient des exercices progressifs pour mettre en pratique les concepts de r√©gression et classification lin√©aires.

**Instructions:**
- Lisez attentivement chaque exercice
- Compl√©tez le code dans les cellules pr√©vues
- Ex√©cutez et testez votre code
- R√©pondez aux questions de r√©flexion

## Setup

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.datasets import make_circles
import seaborn as sns

plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (10, 6)
np.random.seed(42)

---

## Exercice 1 : R√©gression avec features polynomiales

### Contexte
Dans cet exercice, vous allez d√©couvrir comment am√©liorer un mod√®le lin√©aire en ajoutant des features polynomiales pour capturer des relations non-lin√©aires.

### Donn√©es
Nous allons cr√©er des donn√©es suivant une relation **quadratique** : $y = 0.5x^2 + 2x + 1 + \text{bruit}$

In [None]:
# G√©n√©rer les donn√©es
np.random.seed(42)
X_ex1 = np.random.rand(100, 1) * 10 - 5  # Valeurs entre -5 et 5
y_ex1 = 0.5 * X_ex1**2 + 2 * X_ex1 + 1 + np.random.randn(100, 1) * 5

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X_ex1, y_ex1, alpha=0.6)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Donn√©es avec relation non-lin√©aire')
plt.grid(True, alpha=0.3)
plt.show()

print("üí° Observation: Les donn√©es suivent clairement une courbe, pas une ligne!")

### T√¢che 1.1 : Mod√®le lin√©aire simple

Commencez par entra√Æner un mod√®le de r√©gression lin√©aire simple sur ces donn√©es.

In [None]:
# TODO: Cr√©er et entra√Æner un mod√®le de r√©gression lin√©aire
model_linear = LinearRegression()
# Votre code ici


# TODO: Faire des pr√©dictions
y_pred_linear = # Votre code ici

# TODO: Calculer R¬≤ et MSE
r2_linear = # Votre code ici
mse_linear = # Votre code ici

print(f"üìà Performance du mod√®le lin√©aire:")
print(f"   R¬≤ = {r2_linear:.4f}")
print(f"   MSE = {mse_linear:.4f}")

# Visualisation
X_plot = np.linspace(-5, 5, 100).reshape(-1, 1)
y_plot_linear = model_linear.predict(X_plot)

plt.figure(figsize=(10, 6))
plt.scatter(X_ex1, y_ex1, alpha=0.6, label='Donn√©es')
plt.plot(X_plot, y_plot_linear, 'r-', linewidth=2, label='R√©gression lin√©aire')
plt.xlabel('x')
plt.ylabel('y')
plt.title('R√©gression lin√©aire sur donn√©es non-lin√©aires')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

### T√¢che 1.2 : Mod√®le avec features polynomiales

Maintenant, utilisez `PolynomialFeatures` pour cr√©er des features polynomiales de degr√© 2, puis entra√Ænez un nouveau mod√®le.

In [None]:
# TODO: Cr√©er des features polynomiales (degr√© 2)
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = # Votre code ici

print(f"Forme originale: {X_ex1.shape}")
print(f"Forme avec features polynomiales: {X_poly.shape}")
print(f"\nFeatures cr√©√©es: x, x¬≤")

# TODO: Entra√Æner le mod√®le sur les features polynomiales
model_poly = LinearRegression()
# Votre code ici


# TODO: Faire des pr√©dictions
y_pred_poly = # Votre code ici

# TODO: Calculer R¬≤ et MSE
r2_poly = # Votre code ici
mse_poly = # Votre code ici

print(f"\nüìà Performance du mod√®le polynomial:")
print(f"   R¬≤ = {r2_poly:.4f}")
print(f"   MSE = {mse_poly:.4f}")

# Visualisation
X_plot_poly = poly.transform(X_plot)
y_plot_poly = model_poly.predict(X_plot_poly)

plt.figure(figsize=(10, 6))
plt.scatter(X_ex1, y_ex1, alpha=0.6, label='Donn√©es')
plt.plot(X_plot, y_plot_linear, 'r-', linewidth=2, label='Lin√©aire', alpha=0.5)
plt.plot(X_plot, y_plot_poly, 'g-', linewidth=2, label='Polynomial (degr√© 2)')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Comparaison: Lin√©aire vs Polynomial')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"\nüìä Comparaison:")
print(f"   Am√©lioration du R¬≤: {r2_poly - r2_linear:.4f}")
print(f"   R√©duction du MSE: {mse_linear - mse_poly:.4f}")

### Question de r√©flexion 1

**Q1:** Pourquoi le mod√®le polynomial performe-t-il mieux ?

*Votre r√©ponse:*

**Q2:** Que se passerait-il si vous utilisiez un degr√© polynomial trop √©lev√© (par exemple, degr√© 10) ?

*Votre r√©ponse:*

---

## Exercice 2 : Classification avec donn√©es d√©s√©quilibr√©es

### Contexte
En neurosciences, il est fr√©quent d'avoir des classes d√©s√©quilibr√©es (par exemple, beaucoup plus d'essais dans une direction que dans une autre). Dans cet exercice, vous allez apprendre √† g√©rer ce probl√®me.

In [None]:
# Cr√©er des donn√©es d√©s√©quilibr√©es
np.random.seed(42)

# Classe 0: 80 √©chantillons
X_class0 = np.random.randn(80, 2) + np.array([-2, -2])
y_class0 = np.zeros(80)

# Classe 1: 20 √©chantillons (minoritaire)
X_class1 = np.random.randn(20, 2) + np.array([2, 2])
y_class1 = np.ones(20)

# Combiner
X_ex2 = np.vstack([X_class0, X_class1])
y_ex2 = np.hstack([y_class0, y_class1])

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X_ex2[y_ex2==0, 0], X_ex2[y_ex2==0, 1], 
           c='blue', label=f'Classe 0 (n={np.sum(y_ex2==0)})', alpha=0.6, edgecolors='k')
plt.scatter(X_ex2[y_ex2==1, 0], X_ex2[y_ex2==1, 1], 
           c='red', label=f'Classe 1 (n={np.sum(y_ex2==1)})', alpha=0.6, edgecolors='k')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Dataset avec classes d√©s√©quilibr√©es (80/20)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print(f"‚öñÔ∏è D√©s√©quilibre:")
print(f"   Classe 0: {np.sum(y_ex2==0)} √©chantillons ({np.sum(y_ex2==0)/len(y_ex2)*100:.1f}%)")
print(f"   Classe 1: {np.sum(y_ex2==1)} √©chantillons ({np.sum(y_ex2==1)/len(y_ex2)*100:.1f}%)")

### T√¢che 2.1 : Mod√®le sans pond√©ration

Entra√Ænez un mod√®le de r√©gression logistique standard.

In [None]:
# Division des donn√©es
X_train_ex2, X_test_ex2, y_train_ex2, y_test_ex2 = train_test_split(
    X_ex2, y_ex2, test_size=0.3, random_state=42, stratify=y_ex2
)

# TODO: Entra√Æner le mod√®le sans pond√©ration
model_unweighted = LogisticRegression(random_state=42)
# Votre code ici


# TODO: Pr√©dictions et √©valuation
y_pred_unweighted = # Votre code ici
accuracy_unweighted = # Votre code ici

print(f"üìà Accuracy (sans pond√©ration): {accuracy_unweighted:.4f}")

# Matrice de confusion
cm_unweighted = confusion_matrix(y_test_ex2, y_pred_unweighted)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_unweighted, annot=True, fmt='d', cmap='Blues',
           xticklabels=['Classe 0', 'Classe 1'],
           yticklabels=['Classe 0', 'Classe 1'])
plt.xlabel('Pr√©diction')
plt.ylabel('Vraie classe')
plt.title('Matrice de confusion (sans pond√©ration)')
plt.show()

print(f"\nüí° Question: Le mod√®le performe-t-il bien sur la classe minoritaire (classe 1)?")

### T√¢che 2.2 : Mod√®le avec pond√©ration

Utilisez `class_weight='balanced'` pour donner plus d'importance √† la classe minoritaire.

In [None]:
# TODO: Entra√Æner le mod√®le avec pond√©ration √©quilibr√©e
model_weighted = LogisticRegression(class_weight='balanced', random_state=42)
# Votre code ici


# TODO: Pr√©dictions et √©valuation
y_pred_weighted = # Votre code ici
accuracy_weighted = # Votre code ici

print(f"üìà Accuracy (avec pond√©ration): {accuracy_weighted:.4f}")

# Matrice de confusion
cm_weighted = confusion_matrix(y_test_ex2, y_pred_weighted)

# Comparaison c√¥te √† c√¥te
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

sns.heatmap(cm_unweighted, annot=True, fmt='d', cmap='Blues', ax=axes[0],
           xticklabels=['Classe 0', 'Classe 1'],
           yticklabels=['Classe 0', 'Classe 1'])
axes[0].set_title('Sans pond√©ration')
axes[0].set_xlabel('Pr√©diction')
axes[0].set_ylabel('Vraie classe')

sns.heatmap(cm_weighted, annot=True, fmt='d', cmap='Greens', ax=axes[1],
           xticklabels=['Classe 0', 'Classe 1'],
           yticklabels=['Classe 0', 'Classe 1'])
axes[1].set_title('Avec pond√©ration')
axes[1].set_xlabel('Pr√©diction')
axes[1].set_ylabel('Vraie classe')

plt.tight_layout()
plt.show()

print(f"\nüìä Comparaison:")
print(f"   Vrais positifs (classe 1):")
print(f"      Sans pond√©ration: {cm_unweighted[1,1]}")
print(f"      Avec pond√©ration: {cm_weighted[1,1]}")

### Question de r√©flexion 2

**Q1:** Quelle diff√©rence observez-vous dans les matrices de confusion ?

*Votre r√©ponse:*

**Q2:** Dans quel contexte clinique ou de recherche serait-il crucial d'utiliser class_weight='balanced' ?

*Votre r√©ponse:*

---

## Exercice 3 : Limites des mod√®les lin√©aires

### Contexte
Les mod√®les lin√©aires ont des limites importantes. Dans cet exercice, vous allez voir un cas o√π la classification lin√©aire √©choue compl√®tement.

In [None]:
# Cr√©er des donn√©es en cercles (non lin√©airement s√©parables)
X_circles, y_circles = make_circles(n_samples=300, noise=0.1, factor=0.5, random_state=42)

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X_circles[y_circles==0, 0], X_circles[y_circles==0, 1],
           c='blue', label='Classe 0 (cercle ext√©rieur)', alpha=0.6, edgecolors='k')
plt.scatter(X_circles[y_circles==1, 0], X_circles[y_circles==1, 1],
           c='red', label='Classe 1 (cercle int√©rieur)', alpha=0.6, edgecolors='k')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Dataset avec classes non lin√©airement s√©parables')
plt.legend()
plt.grid(True, alpha=0.3)
plt.axis('equal')
plt.show()

print("üí° Observation: Aucune ligne droite ne peut s√©parer ces deux classes!")

### T√¢che 3.1 : Essayer la r√©gression logistique standard

In [None]:
# Division des donn√©es
X_train_circles, X_test_circles, y_train_circles, y_test_circles = train_test_split(
    X_circles, y_circles, test_size=0.3, random_state=42
)

# TODO: Entra√Æner un mod√®le de r√©gression logistique
model_circles = LogisticRegression(random_state=42)
# Votre code ici


# TODO: √âvaluation
y_pred_circles = # Votre code ici
accuracy_circles = # Votre code ici

print(f"üìà Accuracy: {accuracy_circles:.4f}")
print(f"\nüí° Cette accuracy est proche de 50% (hasard) - le mod√®le lin√©aire √©choue!")

# Visualiser la fronti√®re de d√©cision
def plot_decision_boundary_circles(model, X, y):
    h = 0.02
    x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
    y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    plt.figure(figsize=(10, 6))
    plt.contourf(xx, yy, Z, alpha=0.3, levels=1, colors=['blue', 'red'])
    plt.scatter(X[y==0, 0], X[y==0, 1], c='blue', label='Classe 0',
               alpha=0.7, edgecolors='k', s=50)
    plt.scatter(X[y==1, 0], X[y==1, 1], c='red', label='Classe 1',
               alpha=0.7, edgecolors='k', s=50)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title('Fronti√®re de d√©cision (r√©gression logistique lin√©aire)')
    plt.legend()
    plt.axis('equal')
    plt.grid(True, alpha=0.3)
    plt.show()

plot_decision_boundary_circles(model_circles, X_circles, y_circles)

### T√¢che 3.2 : Am√©liorer avec des features non-lin√©aires

Cr√©ez des features non-lin√©aires pour am√©liorer la classification.

In [None]:
# TODO: Cr√©er des features polynomiales (essayez degr√© 2)
poly_circles = PolynomialFeatures(degree=2, include_bias=False)
X_circles_poly = # Votre code ici

print(f"Forme originale: {X_circles.shape}")
print(f"Forme avec features polynomiales: {X_circles_poly.shape}")

# Division
X_train_poly, X_test_poly, y_train_poly, y_test_poly = train_test_split(
    X_circles_poly, y_circles, test_size=0.3, random_state=42
)

# TODO: Entra√Æner le mod√®le sur les features polynomiales
model_circles_poly = LogisticRegression(random_state=42, max_iter=1000)
# Votre code ici


# TODO: √âvaluation
y_pred_circles_poly = # Votre code ici
accuracy_circles_poly = # Votre code ici

print(f"\nüìà Performance:")
print(f"   Lin√©aire: {accuracy_circles:.4f}")
print(f"   Polynomial: {accuracy_circles_poly:.4f}")
print(f"\n‚ú® Am√©lioration: {(accuracy_circles_poly - accuracy_circles)*100:.2f}%")

### Question de r√©flexion 3

**Q1:** Pourquoi le mod√®le polynomial performe-t-il mieux ?

*Votre r√©ponse:*

**Q2:** Quelles sont les alternatives aux features polynomiales pour g√©rer des donn√©es non lin√©airement s√©parables ?

*Votre r√©ponse (indices: r√©seaux de neurones, SVM avec kernel, etc.):*

---

## Exercice 4 : Projet int√©gratif - Pr√©diction de performance cognitive

### Contexte
Vous avez des donn√©es simul√©es d'une √©tude en neurosciences o√π on mesure :
- Activit√© de plusieurs r√©gions c√©r√©brales (features)
- Score de performance √† une t√¢che cognitive (cible)

**Votre mission :** Construire le meilleur mod√®le pr√©dictif possible.

In [None]:
# G√©n√©rer des donn√©es simul√©es
np.random.seed(123)

n_subjects = 150
n_regions = 8  # 8 r√©gions c√©r√©brales

# Activit√© c√©r√©brale (features)
X_cog = np.random.randn(n_subjects, n_regions) * 10 + 50

# Score de performance (relation complexe)
# Certaines r√©gions contribuent plus que d'autres
weights_true = np.array([2.0, 1.5, 0.5, -0.8, 1.0, 0.3, 1.8, -0.5])
y_cog = X_cog.dot(weights_true) + np.random.randn(n_subjects) * 15 + 200

# Normaliser le score entre 0 et 100
y_cog = (y_cog - y_cog.min()) / (y_cog.max() - y_cog.min()) * 100

print(f"üìä Dataset:")
print(f"   Nombre de sujets: {n_subjects}")
print(f"   Nombre de r√©gions c√©r√©brales: {n_regions}")
print(f"   Score moyen: {y_cog.mean():.2f}")
print(f"   Score std: {y_cog.std():.2f}")

### T√¢che 4.1 : Exploration des donn√©es

In [None]:
# TODO: Cr√©er des visualisations pour explorer les donn√©es
# 1. Distribution du score de performance
# 2. Corr√©lation entre chaque r√©gion et le score
# Votre code ici



### T√¢che 4.2 : Standardisation des donn√©es

En pratique, il est souvent important de standardiser les features.

In [None]:
# TODO: Diviser les donn√©es en train/test
X_train_cog, X_test_cog, y_train_cog, y_test_cog = # Votre code ici

# TODO: Standardiser les features (moyenne=0, std=1)
scaler = StandardScaler()
X_train_cog_scaled = # Votre code ici
X_test_cog_scaled = # Votre code ici

print(f"üìä Standardisation:")
print(f"   Avant - moyenne: {X_train_cog.mean(axis=0)[:3]}...")
print(f"   Apr√®s - moyenne: {X_train_cog_scaled.mean(axis=0)[:3]}...")
print(f"   Apr√®s - std: {X_train_cog_scaled.std(axis=0)[:3]}...")

### T√¢che 4.3 : Entra√Ænement et √©valuation

In [None]:
# TODO: Entra√Æner un mod√®le de r√©gression lin√©aire
model_cog = # Votre code ici

# TODO: Pr√©dictions et √©valuation
y_train_pred_cog = # Votre code ici
y_test_pred_cog = # Votre code ici

# TODO: Calculer les m√©triques
train_r2_cog = # Votre code ici
test_r2_cog = # Votre code ici
train_rmse_cog = # Votre code ici  (RMSE = sqrt(MSE))
test_rmse_cog = # Votre code ici

print(f"üìà Performance:")
print(f"   Train - R¬≤: {train_r2_cog:.4f}, RMSE: {train_rmse_cog:.2f}")
print(f"   Test  - R¬≤: {test_r2_cog:.4f}, RMSE: {test_rmse_cog:.2f}")

### T√¢che 4.4 : Visualisations et interpr√©tation

In [None]:
# TODO: Cr√©er les visualisations suivantes
# 1. Scatter plot: pr√©dictions vs vraies valeurs
# 2. R√©sidus vs pr√©dictions
# 3. Importance des r√©gions c√©r√©brales (poids du mod√®le)
# Votre code ici



### Question de r√©flexion 4

**Q1:** Quelles r√©gions c√©r√©brales sont les plus importantes pour pr√©dire la performance ?

*Votre r√©ponse:*

**Q2:** Le mod√®le est-il en surapprentissage (overfitting) ou sous-apprentissage (underfitting) ? Justifiez.

*Votre r√©ponse:*

**Q3:** Comment pourriez-vous am√©liorer ce mod√®le ?

*Votre r√©ponse:*

---

## Exercice Bonus : Impl√©mentation compl√®te from scratch

### D√©fi
Impl√©mentez une classe compl√®te de r√©gression lin√©aire qui supporte :
1. √âquations normales
2. Descente de gradient
3. R√©gularisation Ridge (L2)

```python
class AdvancedLinearRegression:
    def __init__(self, method='normal', alpha=0.01, lambda_reg=0.0, n_iterations=1000):
        """
        Parameters:
        -----------
        method : str, 'normal' ou 'gradient'
        alpha : float, learning rate pour gradient descent
        lambda_reg : float, coefficient de r√©gularisation
        n_iterations : int, nombre d'it√©rations pour gradient descent
        """
        # Votre impl√©mentation ici
        pass
    
    def fit(self, X, y):
        # Votre impl√©mentation ici
        pass
    
    def predict(self, X):
        # Votre impl√©mentation ici
        pass
```

In [None]:
# Votre impl√©mentation compl√®te ici
# ...


---

## Conclusion

F√©licitations d'avoir compl√©t√© ces exercices ! üéâ

### Ce que vous avez appris:

‚úÖ Comment am√©liorer les mod√®les lin√©aires avec des features polynomiales

‚úÖ G√©rer les classes d√©s√©quilibr√©es avec la pond√©ration

‚úÖ Reconna√Ætre les limites des mod√®les lin√©aires

‚úÖ Standardiser les donn√©es pour de meilleures performances

‚úÖ Construire un pipeline complet d'analyse de donn√©es

‚úÖ Interpr√©ter les r√©sultats et identifier les features importantes

### Prochaines √©tapes:

- Explorez des datasets r√©els (UCI Machine Learning Repository, Kaggle)
- Apprenez les r√©seaux de neurones pour g√©rer des relations plus complexes
- Pratiquez avec vos propres donn√©es de recherche en psychologie/neurosciences

**Bon apprentissage ! üöÄ**