# 4.1 R√©gression Lin√©aire en Pratique

## PSY3913/6913 - IA, Psychologie et Neuroscience Cognitive

Dans ce notebook, nous allons explorer la r√©gression lin√©aire de mani√®re pratique :
1. Cr√©er des donn√©es synth√©tiques
2. Impl√©menter la r√©gression lin√©aire from scratch
3. Visualiser les r√©sultats
4. Utiliser scikit-learn
5. Appliquer √† un exemple de neurosciences

## 1. Import des biblioth√®ques

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

# Pour des graphiques plus jolis
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (10, 6)

# Pour la reproductibilit√©
np.random.seed(42)

## 2. Cr√©ation de donn√©es synth√©tiques simples

Commen√ßons avec un exemple simple en 1D : pr√©dire y √† partir de x.

Nous allons g√©n√©rer des donn√©es suivant la relation : **y = 2x + 1 + bruit**

In [None]:
# G√©n√©rer des donn√©es synth√©tiques
n_samples = 100
X = np.random.rand(n_samples, 1) * 10  # Valeurs entre 0 et 10
y_true = 2 * X + 1  # Vraie relation lin√©aire
noise = np.random.randn(n_samples, 1) * 2  # Bruit gaussien
y = y_true + noise  # Donn√©es observ√©es

print(f"Forme de X: {X.shape}")
print(f"Forme de y: {y.shape}")
print(f"\nPremiers √©chantillons:")
print(f"X[:5] = {X[:5].flatten()}")
print(f"y[:5] = {y[:5].flatten()}")

### Visualisation des donn√©es

In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(X, y, alpha=0.6, label='Donn√©es observ√©es')
plt.plot(X, y_true, 'r-', linewidth=2, label='Vraie relation (sans bruit)')
plt.xlabel('x', fontsize=12)
plt.ylabel('y', fontsize=12)
plt.title('Donn√©es synth√©tiques pour la r√©gression lin√©aire', fontsize=14)
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("\nüí° Observation: Les points sont dispers√©s autour de la ligne rouge (vraie relation)")
print("   Le bruit rend les donn√©es plus r√©alistes.")

## 3. Impl√©mentation from scratch : Descente de gradient

Nous allons impl√©menter la r√©gression lin√©aire en utilisant la descente de gradient.

**Rappel :**
- Mod√®le : $\hat{y} = wx + b$
- Loss (MSE) : $L = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
- Gradients : 
  - $\frac{\partial L}{\partial w} = -\frac{2}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i) x_i$
  - $\frac{\partial L}{\partial b} = -\frac{2}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)$

In [None]:
class LinearRegressionGD:
    """
    R√©gression lin√©aire avec descente de gradient.
    """
    def __init__(self, learning_rate=0.01, n_iterations=1000):
        self.lr = learning_rate
        self.n_iterations = n_iterations
        self.w = None
        self.b = None
        self.loss_history = []
        
    def fit(self, X, y):
        """
        Entra√Æner le mod√®le.
        
        Parameters:
        -----------
        X : array-like, shape (n_samples, n_features)
        y : array-like, shape (n_samples, 1)
        """
        n_samples, n_features = X.shape
        
        # Initialisation al√©atoire des param√®tres
        self.w = np.random.randn(n_features, 1) * 0.01
        self.b = 0
        
        # Descente de gradient
        for i in range(self.n_iterations):
            # Pr√©diction
            y_pred = self.predict(X)
            
            # Calcul de la loss
            loss = np.mean((y - y_pred) ** 2)
            self.loss_history.append(loss)
            
            # Calcul des gradients
            dw = -(2 / n_samples) * X.T.dot(y - y_pred)
            db = -(2 / n_samples) * np.sum(y - y_pred)
            
            # Mise √† jour des param√®tres
            self.w -= self.lr * dw
            self.b -= self.lr * db
            
            # Affichage occasionnel
            if (i + 1) % 100 == 0:
                print(f"It√©ration {i+1}/{self.n_iterations}, Loss: {loss:.4f}")
    
    def predict(self, X):
        """
        Faire des pr√©dictions.
        """
        return X.dot(self.w) + self.b
    
    def get_params(self):
        """
        Retourner les param√®tres appris.
        """
        return {'w': self.w, 'b': self.b}

### Entra√Ænement du mod√®le

In [None]:
# Cr√©er et entra√Æner le mod√®le
model_scratch = LinearRegressionGD(learning_rate=0.01, n_iterations=1000)
print("Entra√Ænement du mod√®le...\n")
model_scratch.fit(X, y)

# R√©cup√©rer les param√®tres appris
params = model_scratch.get_params()
print(f"\nüìä Param√®tres appris:")
print(f"   w (poids) = {params['w'][0, 0]:.4f}")
print(f"   b (biais) = {params['b']:.4f}")
print(f"\nüéØ Param√®tres vrais:")
print(f"   w = 2.0000")
print(f"   b = 1.0000")

### Visualisation de la courbe d'apprentissage

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(model_scratch.loss_history, linewidth=2)
plt.xlabel('It√©ration', fontsize=12)
plt.ylabel('Loss (MSE)', fontsize=12)
plt.title('Courbe d\'apprentissage - √âvolution de la loss', fontsize=14)
plt.grid(True, alpha=0.3)
plt.show()

print("\nüí° Observation: La loss diminue progressivement et converge.")
print("   C'est un signe que l'apprentissage fonctionne bien!")

### Visualisation des pr√©dictions

In [None]:
# Pr√©dictions
y_pred_scratch = model_scratch.predict(X)

# Visualisation
plt.figure(figsize=(10, 6))
plt.scatter(X, y, alpha=0.6, label='Donn√©es observ√©es')
plt.plot(X, y_true, 'r-', linewidth=2, label='Vraie relation', alpha=0.5)
plt.plot(X, y_pred_scratch, 'g-', linewidth=2, label='Pr√©dictions (from scratch)')
plt.xlabel('x', fontsize=12)
plt.ylabel('y', fontsize=12)
plt.title('R√©gression lin√©aire - Comparaison', fontsize=14)
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

# Calcul des m√©triques
mse_scratch = np.mean((y - y_pred_scratch) ** 2)
r2_scratch = 1 - (np.sum((y - y_pred_scratch) ** 2) / np.sum((y - np.mean(y)) ** 2))

print(f"\nüìà Performance du mod√®le (from scratch):")
print(f"   MSE = {mse_scratch:.4f}")
print(f"   R¬≤ = {r2_scratch:.4f}")

## 4. Utilisation de scikit-learn

Maintenant, comparons avec l'impl√©mentation de scikit-learn qui utilise les √©quations normales (solution analytique).

In [None]:
# Cr√©er et entra√Æner le mod√®le sklearn
model_sklearn = LinearRegression()
model_sklearn.fit(X, y)

# R√©cup√©rer les param√®tres
w_sklearn = model_sklearn.coef_[0, 0]
b_sklearn = model_sklearn.intercept_[0]

print(f"üìä Param√®tres scikit-learn:")
print(f"   w (poids) = {w_sklearn:.4f}")
print(f"   b (biais) = {b_sklearn:.4f}")

# Pr√©dictions
y_pred_sklearn = model_sklearn.predict(X)

# M√©triques
mse_sklearn = mean_squared_error(y, y_pred_sklearn)
r2_sklearn = r2_score(y, y_pred_sklearn)

print(f"\nüìà Performance du mod√®le (scikit-learn):")
print(f"   MSE = {mse_sklearn:.4f}")
print(f"   R¬≤ = {r2_sklearn:.4f}")

### Comparaison des deux approches

In [None]:
plt.figure(figsize=(12, 6))
plt.scatter(X, y, alpha=0.5, label='Donn√©es observ√©es')
plt.plot(X, y_pred_scratch, 'g-', linewidth=2, label='From scratch (descente de gradient)', alpha=0.7)
plt.plot(X, y_pred_sklearn, 'b--', linewidth=2, label='Scikit-learn (√©quations normales)', alpha=0.7)
plt.xlabel('x', fontsize=12)
plt.ylabel('y', fontsize=12)
plt.title('Comparaison : From scratch vs Scikit-learn', fontsize=14)
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("\nüí° Observation: Les deux approches donnent des r√©sultats tr√®s similaires!")
print("   Les petites diff√©rences sont dues √† l'approximation de la descente de gradient.")

## 5. Exemple appliqu√© : Neurosciences

### Probl√®me : Pr√©dire la vitesse de mouvement √† partir de l'activit√© neuronale

Simulons des donn√©es r√©alistes o√π :
- **Entr√©es (X)** : Activit√© de 10 neurones (firing rates en Hz)
- **Sortie (y)** : Vitesse de mouvement (cm/s)

In [None]:
# Simuler des donn√©es de neurosciences
np.random.seed(123)

n_trials = 200  # Nombre d'essais
n_neurons = 10  # Nombre de neurones enregistr√©s

# G√©n√©rer l'activit√© neuronale (firing rates entre 0 et 50 Hz)
X_neuro = np.random.rand(n_trials, n_neurons) * 50

# Simuler la relation : certains neurones contribuent plus que d'autres
# Poids vrais : certains neurones sont plus informatifs
true_weights = np.array([0.5, 0.8, 0.2, 0.1, 0.6, 0.3, 0.7, 0.4, 0.1, 0.5])
true_bias = 10.0

# Calculer la vitesse avec du bruit
y_neuro_true = X_neuro.dot(true_weights.reshape(-1, 1)) + true_bias
noise_neuro = np.random.randn(n_trials, 1) * 5
y_neuro = y_neuro_true + noise_neuro

print(f"üìä Dataset de neurosciences:")
print(f"   Nombre d'essais: {n_trials}")
print(f"   Nombre de neurones: {n_neurons}")
print(f"   Forme de X: {X_neuro.shape}")
print(f"   Forme de y: {y_neuro.shape}")
print(f"\n   Vitesse moyenne: {y_neuro.mean():.2f} cm/s")
print(f"   Vitesse std: {y_neuro.std():.2f} cm/s")

### Division en ensembles d'entra√Ænement et de test

In [None]:
# Diviser les donn√©es : 80% entra√Ænement, 20% test
X_train, X_test, y_train, y_test = train_test_split(
    X_neuro, y_neuro, test_size=0.2, random_state=42
)

print(f"üìä Division des donn√©es:")
print(f"   Entra√Ænement: {X_train.shape[0]} √©chantillons")
print(f"   Test: {X_test.shape[0]} √©chantillons")

### Entra√Ænement du mod√®le

In [None]:
# Entra√Æner le mod√®le
model_neuro = LinearRegression()
model_neuro.fit(X_train, y_train)

# Pr√©dictions
y_train_pred = model_neuro.predict(X_train)
y_test_pred = model_neuro.predict(X_test)

# M√©triques
train_mse = mean_squared_error(y_train, y_train_pred)
test_mse = mean_squared_error(y_test, y_test_pred)
train_r2 = r2_score(y_train, y_train_pred)
test_r2 = r2_score(y_test, y_test_pred)

print(f"üìà Performance sur l'ensemble d'entra√Ænement:")
print(f"   MSE = {train_mse:.4f}")
print(f"   R¬≤ = {train_r2:.4f}")
print(f"\nüìà Performance sur l'ensemble de test:")
print(f"   MSE = {test_mse:.4f}")
print(f"   R¬≤ = {test_r2:.4f}")

### Visualisation : Pr√©dictions vs Vraies valeurs

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Ensemble d'entra√Ænement
axes[0].scatter(y_train, y_train_pred, alpha=0.6)
axes[0].plot([y_train.min(), y_train.max()], [y_train.min(), y_train.max()], 
             'r--', linewidth=2, label='Ligne parfaite (y=≈∑)')
axes[0].set_xlabel('Vitesse r√©elle (cm/s)', fontsize=12)
axes[0].set_ylabel('Vitesse pr√©dite (cm/s)', fontsize=12)
axes[0].set_title(f'Ensemble d\'entra√Ænement\nR¬≤ = {train_r2:.3f}', fontsize=13)
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Ensemble de test
axes[1].scatter(y_test, y_test_pred, alpha=0.6, color='green')
axes[1].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 
             'r--', linewidth=2, label='Ligne parfaite (y=≈∑)')
axes[1].set_xlabel('Vitesse r√©elle (cm/s)', fontsize=12)
axes[1].set_ylabel('Vitesse pr√©dite (cm/s)', fontsize=12)
axes[1].set_title(f'Ensemble de test\nR¬≤ = {test_r2:.3f}', fontsize=13)
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüí° Observation: Les points sont bien align√©s sur la ligne y=≈∑,")
print("   ce qui indique que le mod√®le fait de bonnes pr√©dictions!")

### Analyse des poids : Quels neurones sont importants ?

In [None]:
# R√©cup√©rer les poids appris
learned_weights = model_neuro.coef_[0]

# Visualisation
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Comparaison poids vrais vs appris
x_pos = np.arange(n_neurons)
width = 0.35

axes[0].bar(x_pos - width/2, true_weights, width, label='Poids vrais', alpha=0.8)
axes[0].bar(x_pos + width/2, learned_weights, width, label='Poids appris', alpha=0.8)
axes[0].set_xlabel('Neurone', fontsize=12)
axes[0].set_ylabel('Poids', fontsize=12)
axes[0].set_title('Comparaison des poids', fontsize=13)
axes[0].set_xticks(x_pos)
axes[0].set_xticklabels([f'N{i+1}' for i in range(n_neurons)])
axes[0].legend()
axes[0].grid(True, alpha=0.3, axis='y')

# Importance relative (valeur absolue)
importance = np.abs(learned_weights)
sorted_idx = np.argsort(importance)[::-1]

axes[1].barh(range(n_neurons), importance[sorted_idx], alpha=0.8)
axes[1].set_yticks(range(n_neurons))
axes[1].set_yticklabels([f'Neurone {i+1}' for i in sorted_idx])
axes[1].set_xlabel('Importance (|poids|)', fontsize=12)
axes[1].set_title('Importance relative des neurones', fontsize=13)
axes[1].grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

print(f"\nüß† Analyse des neurones:")
print(f"\n   Top 3 neurones les plus informatifs:")
for i, idx in enumerate(sorted_idx[:3]):
    print(f"   {i+1}. Neurone {idx+1}: poids = {learned_weights[idx]:.3f}")

### Analyse des r√©sidus (erreurs)

In [None]:
# Calculer les r√©sidus
residuals_train = y_train - y_train_pred
residuals_test = y_test - y_test_pred

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# R√©sidus vs Pr√©dictions (entra√Ænement)
axes[0, 0].scatter(y_train_pred, residuals_train, alpha=0.6)
axes[0, 0].axhline(y=0, color='r', linestyle='--', linewidth=2)
axes[0, 0].set_xlabel('Pr√©dictions', fontsize=11)
axes[0, 0].set_ylabel('R√©sidus', fontsize=11)
axes[0, 0].set_title('R√©sidus vs Pr√©dictions (entra√Ænement)', fontsize=12)
axes[0, 0].grid(True, alpha=0.3)

# R√©sidus vs Pr√©dictions (test)
axes[0, 1].scatter(y_test_pred, residuals_test, alpha=0.6, color='green')
axes[0, 1].axhline(y=0, color='r', linestyle='--', linewidth=2)
axes[0, 1].set_xlabel('Pr√©dictions', fontsize=11)
axes[0, 1].set_ylabel('R√©sidus', fontsize=11)
axes[0, 1].set_title('R√©sidus vs Pr√©dictions (test)', fontsize=12)
axes[0, 1].grid(True, alpha=0.3)

# Distribution des r√©sidus (entra√Ænement)
axes[1, 0].hist(residuals_train, bins=20, alpha=0.7, edgecolor='black')
axes[1, 0].axvline(x=0, color='r', linestyle='--', linewidth=2)
axes[1, 0].set_xlabel('R√©sidus', fontsize=11)
axes[1, 0].set_ylabel('Fr√©quence', fontsize=11)
axes[1, 0].set_title('Distribution des r√©sidus (entra√Ænement)', fontsize=12)
axes[1, 0].grid(True, alpha=0.3, axis='y')

# Distribution des r√©sidus (test)
axes[1, 1].hist(residuals_test, bins=15, alpha=0.7, color='green', edgecolor='black')
axes[1, 1].axvline(x=0, color='r', linestyle='--', linewidth=2)
axes[1, 1].set_xlabel('R√©sidus', fontsize=11)
axes[1, 1].set_ylabel('Fr√©quence', fontsize=11)
axes[1, 1].set_title('Distribution des r√©sidus (test)', fontsize=12)
axes[1, 1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

print("\nüí° Observations:")
print("   1. Les r√©sidus sont distribu√©s de mani√®re al√©atoire autour de 0")
print("   2. Pas de pattern visible ‚Üí le mod√®le lin√©aire est appropri√©")
print("   3. Distribution approximativement gaussienne ‚Üí hypoth√®ses respect√©es")

## 6. Exercice pratique

### √Ä vous de jouer ! 

**Exercice :** Modifiez le code ci-dessus pour :
1. Changer le nombre de neurones (essayez avec 5 ou 20 neurones)
2. Augmenter le bruit dans les donn√©es
3. Observer comment la performance (R¬≤) change

**Questions de r√©flexion :**
- Que se passe-t-il si vous avez tr√®s peu de donn√©es d'entra√Ænement ?
- Comment la performance change-t-elle avec plus de neurones ?
- Que se passe-t-il si certains neurones ne sont pas informatifs (poids = 0) ?

In [None]:
# Votre code ici
# ...


## 7. Conclusion

Dans ce notebook, nous avons :

‚úÖ Impl√©ment√© la r√©gression lin√©aire from scratch avec la descente de gradient

‚úÖ Utilis√© scikit-learn pour une impl√©mentation robuste

‚úÖ Appliqu√© la r√©gression √† un probl√®me de neurosciences

‚úÖ Appris √† √©valuer et visualiser les performances

‚úÖ Interpr√©t√© les poids pour comprendre l'importance des features

### Points cl√©s √† retenir:

1. **La r√©gression lin√©aire** est un mod√®le simple mais puissant pour pr√©dire des valeurs continues
2. **L'√©valuation** doit se faire sur un ensemble de test s√©par√©
3. **R¬≤** mesure la proportion de variance expliqu√©e (0 √† 1, plus c'est √©lev√©, mieux c'est)
4. **Les r√©sidus** doivent √™tre distribu√©s al√©atoirement autour de 0
5. **Les poids** indiquent l'importance relative des features

### Prochaine √©tape:
Passez au notebook **4.2_classification_lineaire.ipynb** pour explorer la classification lin√©aire!