# LABo 6 

## Exercise 1: Simple Linear Regression

### Step 1: Train a Linear Regression Model

* Load the Alzheimer dataset using `AlzheimerDataset`.
* Extract the target variable (`ADL`) and the predictor variables (`MMSE` and `FunctionalAssessment`).
* Train a `LinearRegression` model on the training data.

### Step 2: Cross-validation and Model Comparison

* Perform cross-validation on both `LinearRegression` and `Ridge` models.
* Evaluate the performance of each model using appropriate metrics (e.g., R-squared, Mean Squared Error).
* Compare the cross-validation scores of the two models.

### Step 3: Analyze Coefficients

* Examine the coefficients of the trained `LinearRegression` model.
* Determine the influence of each predictor variable (`MMSE` and `FunctionalAssessment`) on the target variable (`ADL`).

### Step 4: Test Set Evaluation and Comparison

* Evaluate the performance of both `LinearRegression` and `Ridge` models on the held-out test set using the Root Mean Squared Error (RMSE) metric.
* Conduct a statistical test (e.g., paired t-test) to compare the RMSE values of the two models and determine if the difference is statistically significant.

**Note:**

* This exercise focuses on building and evaluating simple linear regression models.
* Pay close attention to data preprocessing and feature scaling when working with regression models.
* Remember to avoid excessive reliance on generative AI tools to enhance your learning experience.

In [4]:
import pathlib
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
from alzheimer import AlzheimerDataset

import os
import pathlib

# Définir _CWD comme le répertoire de travail actuel
_CWD = pathlib.Path(os.getcwd())

# Helper function to prepare data
def get_selected_vars(data, X_vars, Y_var):
    X = data.numericals[X_vars].to_numpy()
    Y = data.numericals[Y_var].to_numpy()
    return X, Y

# Main function for Exercise 1.1
def main():
    # Load the Alzheimer dataset
    dataset = AlzheimerDataset("C:\\Users\\andre\\Data-20241216\\alzheimers_disease_data.csv")

    train_data, test_data = dataset.random_split(test_ratio=0.2, random_state=0)

    # Define input (X) and target (Y) variables
    X_vars = ['MMSE', 'FunctionalAssessment']
    Y_var = 'ADL'
    
    # Get training and testing data
    X_train, Y_train = get_selected_vars(train_data, X_vars, Y_var)
    X_test, Y_test = get_selected_vars(test_data, X_vars, Y_var)

    # Initialize and train the LinearRegression model
    model = LinearRegression()
    model.fit(X_train, Y_train)

    # Predict on the test set
    Y_pred = model.predict(X_test)

    # Evaluate the model
    mse = mean_squared_error(Y_test, Y_pred)
    r2 = r2_score(Y_test, Y_pred)

    # Print results
    print("Linear Regression Results:")
    print(f"Coefficients: {model.coef_}")
    print(f"Intercept: {model.intercept_}")
    print(f"Mean Squared Error: {mse:.4f}")
    print(f"R2 Score: {r2:.4f}")

if __name__ == "__main__":
    main()


Linear Regression Results:
Coefficients: [0.07668555 0.14679183]
Intercept: 2.3707350510966405
Mean Squared Error: 8.8464
R2 Score: 0.0237


In [6]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
from alzheimer import AlzheimerDataset
import pathlib
import os

# Define working directory
_CWD = pathlib.Path(os.getcwd())

def get_selected_vars(data, X_vars, Y_var):
    """Extract selected variables."""
    X = data.numericals[X_vars].to_numpy()
    Y = data.numericals[Y_var].to_numpy()
    return X, Y

def main():
    # Load the dataset
    dataset = AlzheimerDataset("C:\\Users\\andre\\Data-20241216\\alzheimers_disease_data.csv")

    
    # Split into training and test sets
    train_data, test_data = dataset.random_split(test_ratio=0.2, random_state=0)
    
    # Select variables
    X_vars = ['MMSE', 'FunctionalAssessment']
    Y_var = 'ADL'
    X_train, Y_train = get_selected_vars(train_data, X_vars, Y_var)
    X_test, Y_test = get_selected_vars(test_data, X_vars, Y_var)
    
    # Train Linear Regression model
    model = LinearRegression()
    model.fit(X_train, Y_train)
    
    # Print coefficients and intercept
    print("Linear Regression Results:")
    print(f"Coefficients: {model.coef_}")
    print(f"Intercept: {model.intercept_}")
    
    # Evaluate on the test set
    Y_pred = model.predict(X_test)
    mse = mean_squared_error(Y_test, Y_pred)
    r2 = r2_score(Y_test, Y_pred)
    
    print(f"Mean Squared Error: {mse:.4f}")
    print(f"R2 Score: {r2:.4f}")

if __name__ == "__main__":
    main()


Linear Regression Results:
Coefficients: [0.07668555 0.14679183]
Intercept: 2.3707350510966405
Mean Squared Error: 8.8464
R2 Score: 0.0237


In [10]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import make_scorer, mean_squared_error
import numpy as np
from alzheimer import AlzheimerDataset

# Load the dataset
file_path = r"C:\Users\andre\Downloads\Data-20241216\alzheimers_disease_data.csv"
dataset = AlzheimerDataset(file_path)

train_data, test_data = dataset.random_split(test_ratio=0.2, random_state=0)

# Define input variables (X) and target variable (Y)
X = train_data.numericals[['MMSE', 'FunctionalAssessment']].to_numpy()
Y = train_data.numericals['ADL'].to_numpy()

# Define the models
linear_model = LinearRegression()
ridge_model = Ridge(alpha=1000)  # Use alpha=1.0 as a starting point for Ridge

# Define RMSE as the scoring metric
rmse_scorer = make_scorer(mean_squared_error, squared=False)

# Perform 5-fold cross-validation for Linear Regression
linear_rmse_scores = cross_val_score(linear_model, X, Y, cv=5, scoring=rmse_scorer)
linear_avg_rmse = np.mean(linear_rmse_scores)
print(f"Linear Regression - Average RMSE: {linear_avg_rmse:.4f}")

# Perform 5-fold cross-validation for Ridge Regression
ridge_rmse_scores = cross_val_score(ridge_model, X, Y, cv=5, scoring=rmse_scorer)
ridge_avg_rmse = np.mean(ridge_rmse_scores)
print(f"Ridge Regression - Average RMSE: {ridge_avg_rmse:.4f}")

# Compare the results
if linear_avg_rmse < ridge_avg_rmse:
    print("Linear Regression performs better on average.")
elif ridge_avg_rmse < linear_avg_rmse:
    print("Ridge Regression performs better on average.")
else:
    print("Both models perform equally well.")





Linear Regression - Average RMSE: 2.8288
Ridge Regression - Average RMSE: 2.8285
Ridge Regression performs better on average.




In [9]:
from sklearn.linear_model import LinearRegression
from alzheimer import AlzheimerDataset
import pathlib

import os
import pathlib

# Définir _CWD comme le répertoire de travail actuel
_CWD = pathlib.Path(os.getcwd())

# Load and preprocess the data
file_path = r"C:\Users\andre\Downloads\Data-20241216\alzheimers_disease_data.csv"
dataset = AlzheimerDataset(file_path)

train_data, _ = dataset.random_split(test_ratio=0.2, random_state=0)

X = train_data.numericals[['MMSE', 'FunctionalAssessment']].to_numpy()
Y = train_data.numericals['ADL'].to_numpy()

# Train the Linear Regression model
linear_reg = LinearRegression()
linear_reg.fit(X, Y)

# Extract coefficients and intercept
coefficients = linear_reg.coef_
intercept = linear_reg.intercept_

print("Linear Regression Coefficients:", coefficients)
print("Intercept:", intercept)


Linear Regression Coefficients: [0.07668555 0.14679183]
Intercept: 2.3707350510966405


In [11]:
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import mean_squared_error
from scipy.stats import wilcoxon
import numpy as np

# Step 1: Prepare the data (Assuming train_data and test_data are already defined)
X_train, Y_train = get_selected_vars(train_data, X_vars=['MMSE', 'FunctionalAssessment'], Y_var='ADL')
X_test, Y_test = get_selected_vars(test_data, X_vars=['MMSE', 'FunctionalAssessment'], Y_var='ADL')

# Step 2: Train the models
linear_model = LinearRegression()
ridge_model = Ridge(alpha=1.0)

linear_model.fit(X_train, Y_train)
ridge_model.fit(X_train, Y_train)

# Step 3: Predict on the test set
linear_preds = linear_model.predict(X_test)
ridge_preds = ridge_model.predict(X_test)

# Step 4: Compute RMSE for both models
linear_rmse = np.sqrt(mean_squared_error(Y_test, linear_preds))
ridge_rmse = np.sqrt(mean_squared_error(Y_test, ridge_preds))

print(f"Linear Regression RMSE: {linear_rmse}")
print(f"Ridge Regression RMSE: {ridge_rmse}")

# Step 5: Perform the Wilcoxon signed-rank test
# Compare RMSE on each test sample (squared errors)
linear_errors = (Y_test - linear_preds) ** 2
ridge_errors = (Y_test - ridge_preds) ** 2

stat, p_value = wilcoxon(linear_errors, ridge_errors)
print(f"Wilcoxon signed-rank test statistic: {stat}")
print(f"p-value: {p_value}")

# Step 6: Interpretation
if p_value < 0.05:
    print("There is a significant difference between Linear Regression and Ridge Regression results.")
else:
    print("There is no significant difference between Linear Regression and Ridge Regression results.")


Linear Regression RMSE: 2.9742876159594687
Ridge Regression RMSE: 2.9742855433479294
Wilcoxon signed-rank test statistic: 44501.0
p-value: 0.5292815148639671
There is no significant difference between Linear Regression and Ridge Regression results.


### Analyse statistique du code Python

Ce code met en œuvre plusieurs techniques de régression (Régression Linéaire et Régression Ridge) pour modéliser une relation entre des variables prédictives (`MMSE` et `FunctionalAssessment`) et une variable cible (`ADL`) à partir d’un jeu de données sur la maladie d'Alzheimer. Voici une analyse approfondie :

---

#### **1. Objectifs principaux**
Le code vise à :
1. **Modéliser la relation entre les variables prédictives et la variable cible** à l’aide de modèles de régression linéaire.
2. **Évaluer les performances des modèles** en utilisant des métriques telles que l'erreur quadratique moyenne (RMSE) et le coefficient de détermination (\(R^2\)).
3. **Comparer la Régression Linéaire et la Régression Ridge** en termes de performance moyenne via la validation croisée.
4. **Tester la significativité des différences de performance** entre ces modèles à l’aide du test de Wilcoxon.

---

#### **2. Méthodes statistiques**

##### **Régression Linéaire**
- La Régression Linéaire estime une relation linéaire entre les variables prédictives (\(X\)) et la variable cible (\(Y\)).
- Les coefficients (\(\beta\)) et l'intercept (\(\beta_0\)) indiquent l'ampleur et la direction de l'effet de chaque variable prédictive sur la variable cible.

##### **Régression Ridge**
- Cette variante pénalise la taille des coefficients via une régularisation L2 (\(\alpha ||\beta||^2\)), ce qui réduit le risque de surapprentissage, surtout en présence de multicolinéarité ou de nombreuses variables prédictives.

##### **Validation croisée**
- La validation croisée à 5 plis partitionne les données pour évaluer la performance moyenne du modèle tout en minimisant les biais dus à une seule division des données.

##### **Métriques d'évaluation**
- **RMSE (Root Mean Squared Error)** : Mesure la moyenne des écarts quadratiques entre les valeurs observées et prédites.
  \[
  RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2}
  \]
  Un RMSE plus faible indique une meilleure performance.
  
- **\(R^2\) (Coefficient de détermination)** : Évalue la proportion de variance expliquée par le modèle.
  \[
  R^2 = 1 - \frac{\text{SS}_{\text{residual}}}{\text{SS}_{\text{total}}}
  \]
  Une valeur proche de 1 indique une forte capacité explicative.

##### **Test de Wilcoxon**
- Le test de Wilcoxon est utilisé pour comparer les erreurs quadratiques des deux modèles sur chaque échantillon de test.
- Hypothèses :
  - \(H_0\) : Les erreurs des deux modèles suivent une distribution identique.
  - \(H_1\) : Il existe une différence significative dans les erreurs entre les deux modèles.
- Une \(p\)-value inférieure à 0.05 indique une différence significative.

---

#### **3. Résultats attendus**
1. **Régression Linéaire**
   - Coefficients interprétables montrant comment les prédicteurs affectent directement `ADL`.
   - Performances évaluées par RMSE et \(R^2\). Si le \(R^2\) est faible, cela peut indiquer que le modèle ne capture pas bien les relations.

2. **Régression Ridge**
   - Réduction du surajustement grâce à la pénalisation L2.
   - Performance légèrement meilleure ou comparable à celle de la Régression Linéaire si les données ne sont pas bruitées.

3. **Validation croisée**
   - RMSE moyen des deux modèles pour évaluer la robustesse des résultats.
   - Une réduction du RMSE dans Ridge indique que la régularisation aide à éviter le surajustement.

4. **Test de Wilcoxon**
   - Si \(p < 0.05\), Ridge est statistiquement supérieur à la Régression Linéaire.
   - Sinon, les deux modèles sont considérés comme équivalents en termes de performance.

---

#### **4. Points forts et limites**

##### **Points forts**
- **Sélection de variables pertinentes** : Seules deux variables (`MMSE` et `FunctionalAssessment`) sont utilisées, ce qui réduit le risque d’inclure du bruit inutile.
- **Comparaison robuste** : Validation croisée et test statistique garantissent une évaluation fiable des modèles.
- **Interprétabilité** : Les coefficients de la Régression Linéaire permettent de comprendre directement l'effet des prédicteurs.

##### **Limites**
- **Données possiblement bruitées** : La simple Régression Linéaire peut être affectée par des relations non linéaires ou des données bruitées.
- **Hypothèses linéaires** : Les relations entre les variables ne sont pas vérifiées, ce qui peut limiter la pertinence des modèles.
- **Taille des données** : Si le jeu de données est petit, la validation croisée peut produire des estimations moins fiables.

---

#### **5. Conclusion statistique**
- La Régression Ridge est attendue pour offrir une meilleure robustesse, surtout si les prédicteurs sont corrélés ou si le nombre d'échantillons est limité.
- La comparaison via validation croisée et test de Wilcoxon garantit une évaluation objective des modèles.
- Une exploration supplémentaire, comme l'examen de la distribution des résidus ou des relations non linéaires, pourrait affiner davantage les conclusions.