# TP3 ‚Äì R√©gression Lin√©aire Multivariable sur donn√©es biologiques
# Objectif du TP

"""
L'objectif de ce TP est de r√©aliser un projet complet de r√©gression lin√©aire multivariable
pour pr√©dire des valeurs continues √† partir de donn√©es d'expression g√©nique.

Dans ce TP, nous allons :
- Utiliser la r√©gression lin√©aire pour pr√©dire une variable continue
- Impl√©menter manuellement l'algorithme sans utiliser de biblioth√®ques ML
- Calculer les coefficients par la m√©thode des moindres carr√©s
- √âvaluer les performances avec R¬≤, MSE, RMSE, MAE
"""

# ==============================================================================
# PARTIE 1 : PR√âTRAITEMENT DES DONN√âES
# ==============================================================================

In [1]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import seaborn as sns

# Cr√©ation du r√©pertoire de travail
BASE_DIR = "/home/youcef/bioinfo/fd"
os.makedirs(BASE_DIR, exist_ok=True)

# Chargement du dataset
file_path = "/home/youcef/bioinfo/fd/AirQualityUCI.csv"

if not os.path.exists(file_path):
    print(f"Le fichier n'existe pas : {file_path}")
    print("Veuillez v√©rifier le chemin d'acc√®s.")
else:
    df = pd.read_csv(file_path)
    
    print("\nAper√ßu du jeu de donn√©es original :")
    print(df.head())
    print(f"\nDimensions : {df.shape[0]} lignes √ó {df.shape[1]} colonnes")
    
    # V√©rification des valeurs manquantes
    missing_counts = df.isnull().sum()
    total_missing = missing_counts.sum()
    
    if total_missing > 0:
        print(f"\nValeurs manquantes d√©tect√©es : {total_missing}")
        # Remplacement par la moyenne
        for col in df.select_dtypes(include=[np.number]).columns:
            if df[col].isnull().sum() > 0:
                df[col].fillna(df[col].mean(), inplace=True)
        print("Valeurs manquantes remplac√©es par la moyenne")
    else:
        print("\nAucune valeur manquante d√©tect√©e")
    
    # Suppression des doublons
    nb_doublons = df.duplicated().sum()
    if nb_doublons > 0:
        print(f"\n‚ö†Ô∏è {nb_doublons} doublon(s) d√©tect√©(s)")
        df.drop_duplicates(inplace=True)
        print("Doublons supprim√©s")
    else:
        print("Aucun doublon d√©tect√©")
    
    # Pour la r√©gression, nous allons cr√©er une variable cible continue
    # Nous allons utiliser la moyenne d'expression des premiers g√®nes comme variable √† pr√©dire
    print("\nüéØ Cr√©ation de la variable cible pour la r√©gression...")
    
    # S√©lection des 10 premiers g√®nes pour cr√©er notre variable cible
    target_genes = df.columns[0:10].tolist()
    df['target_expression'] = df[target_genes].mean(axis=1)
    
    print(f"Variable cible cr√©√©e : 'target_expression'")
    print(f"Statistiques de la variable cible :")
    print(df['target_expression'].describe())
    
    # Normalisation (standardisation Z-score pour la r√©gression)
    df_norm = df.copy()
    
    # On exclut la variable cible et sample_type_id de la normalisation des features
    features_to_normalize = [col for col in df.columns 
                            if col not in ['target_expression', 'sample_type_id'] + target_genes]
    
    for col in features_to_normalize:
        mean_val = df[col].mean()
        std_val = df[col].std()
        if std_val != 0:
            df_norm[col] = (df[col] - mean_val) / std_val
        else:
            df_norm[col] = 0.0
    
    print("\n‚úÖ Standardisation Z-score effectu√©e sur les features")
    print("\nüìä Aper√ßu des donn√©es normalis√©es :")
    print(df_norm.head())
    
    # Sauvegarde
    output_preprocessed = f"{BASE_DIR}/Liver_RNA_preprocessed_LR.csv"
    df_norm.to_csv(output_preprocessed, index=False)
    print(f"\nüíæ Donn√©es pr√©trait√©es sauvegard√©es : {output_preprocessed}")


Aper√ßu du jeu de donn√©es original :
                                                                                                            Date;Time;CO(GT);PT08.S1(CO);NMHC(GT);C6H6(GT);PT08.S2(NMHC);NOx(GT);PT08.S3(NOx);NO2(GT);PT08.S4(NO2);PT08.S5(O3);T;RH;AH;;
10/03/2004;18.00.00;2            6;1360;150;11                 9;1046;166;1056;113;1692;1268;13 6;48 9;0                                                7578;;                                                                          
10/03/2004;19.00.00;2;1292;112;9 4;955;103;1174;92;1559;972;13 3;47                             7;0  7255;;                                                NaN                                                                          
10/03/2004;20.00.00;2            2;1402;88;9                   0;939;131;1140;114;1555;1074;11  9;54 0;0                                                7502;;                                                                          
10/03/2004;21.00.00;2        

TypeError: Could not convert ['7578;;' 0 '7502;;' ... '7531;;' '7119;;' '5028;;'] to numeric

# ==============================================================================
# PARTIE 2 : DIVISION DU JEU DE DONN√âES (80% TRAIN / 20% TEST)
# ==============================================================================

In [None]:
from sklearn.model_selection import train_test_split

# Pr√©paration des donn√©es : on exclut les g√®nes utilis√©s pour cr√©er la cible
features_columns = [
    col
    for col in df_norm.columns
    if col not in ["target_expression", "sample_type_id"] + target_genes
]

X = df_norm[features_columns]
y = df_norm["target_expression"]

# S√©paration train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, shuffle=True
)

print(f"\n‚úÖ Taille du train set : X={X_train.shape}, y={y_train.shape}")
print(f"‚úÖ Taille du test set : X={X_test.shape}, y={y_test.shape}")

# Sauvegarde des fichiers
train_df = X_train.copy()
train_df["target_expression"] = y_train

test_df = X_test.copy()
test_df["target_expression"] = y_test

train_path = f"{BASE_DIR}/Liver_RNA_train_LR.csv"
test_path = f"{BASE_DIR}/Liver_RNA_test_LR.csv"

train_df.to_csv(train_path, index=False)
test_df.to_csv(test_path, index=False)

print(f"\nüíæ Fichier d'entra√Ænement : {train_path}")
print(f"üíæ Fichier de test : {test_path}")

# ==============================================================================
# PARTIE 3 : IMPL√âMENTATION MANUELLE DE LA R√âGRESSION LIN√âAIRE MULTIVARIABLE
# ==============================================================================

In [None]:
class MultipleLinearRegression:
    """
    Impl√©mentation manuelle de la r√©gression lin√©aire multivariable.

    Mod√®le : y = Œ≤‚ÇÄ + Œ≤‚ÇÅx‚ÇÅ + Œ≤‚ÇÇx‚ÇÇ + ... + Œ≤‚Çôx‚Çô

    M√©thode des moindres carr√©s :
    Œ≤ = (X^T X)^(-1) X^T y

    o√π X est la matrice des features avec une colonne de 1 pour l'intercept
    """

    def __init__(self):
        self.coefficients = None
        self.intercept = None
        self.n_features = None

    def fit(self, X, y):
        """
        Entra√Ænement du mod√®le par la m√©thode des moindres carr√©s.

        Args:
            X : matrice des features (n_samples, n_features)
            y : vecteur cible (n_samples,)
        """
        # Conversion en arrays numpy
        X = np.array(X)
        y = np.array(y)

        self.n_features = X.shape[1]

        # Ajout d'une colonne de 1 pour l'intercept
        X_with_intercept = np.column_stack([np.ones(len(X)), X])

        # Calcul des coefficients : Œ≤ = (X^T X)^(-1) X^T y
        # M√©thode 1 : Inversion de matrice (peut √™tre instable)
        # XtX = X_with_intercept.T @ X_with_intercept
        # Xty = X_with_intercept.T @ y
        # beta = np.linalg.inv(XtX) @ Xty

        # M√©thode 2 : R√©solution directe du syst√®me (plus stable)
        XtX = X_with_intercept.T @ X_with_intercept
        Xty = X_with_intercept.T @ y

        # Ajout d'un terme de r√©gularisation pour stabilit√© num√©rique
        ridge_penalty = 1e-6
        XtX_reg = XtX + ridge_penalty * np.eye(XtX.shape[0])

        beta = np.linalg.solve(XtX_reg, Xty)

        # S√©paration intercept et coefficients
        self.intercept = beta[0]
        self.coefficients = beta[1:]

        print(f"\n‚úÖ Mod√®le entra√Æn√© avec succ√®s !")
        print(f"   Intercept (Œ≤‚ÇÄ) : {self.intercept:.6f}")
        print(f"   Nombre de coefficients : {len(self.coefficients)}")
        print(f"   Exemple de coefficients : {self.coefficients[:5]}")

    def predict(self, X):
        """
        Pr√©diction des valeurs cibles.

        Args:
            X : matrice des features

        Returns:
            Pr√©dictions (array)
        """
        X = np.array(X)
        return self.intercept + X @ self.coefficients

    def get_coefficients(self):
        """Retourne les coefficients du mod√®le"""
        return {"intercept": self.intercept, "coefficients": self.coefficients}


# Entra√Ænement du mod√®le
print("\nüîß Entra√Ænement du mod√®le de r√©gression lin√©aire multivariable...")
lr_model = MultipleLinearRegression()
lr_model.fit(X_train.values, y_train.values)

# ==============================================================================
# PARTIE 4 : √âVALUATION SUR LE JEU D'ENTRA√éNEMENT
# ==============================================================================

In [None]:
def calculate_regression_metrics(y_true, y_pred):
    """
    Calcul manuel des m√©triques de r√©gression.

    M√©triques calcul√©es :
    - MSE (Mean Squared Error) : moyenne des erreurs au carr√©
    - RMSE (Root Mean Squared Error) : racine du MSE
    - MAE (Mean Absolute Error) : moyenne des erreurs absolues
    - R¬≤ (Coefficient de d√©termination) : proportion de variance expliqu√©e
    """
    n = len(y_true)

    # Erreurs
    errors = y_true - y_pred
    squared_errors = errors**2
    absolute_errors = np.abs(errors)

    # MSE
    mse = np.mean(squared_errors)

    # RMSE
    rmse = np.sqrt(mse)

    # MAE
    mae = np.mean(absolute_errors)

    # R¬≤ = 1 - (SS_res / SS_tot)
    ss_res = np.sum(squared_errors)  # Somme des carr√©s r√©siduels
    ss_tot = np.sum((y_true - np.mean(y_true)) ** 2)  # Somme totale des carr√©s
    r2 = 1 - (ss_res / ss_tot) if ss_tot != 0 else 0

    # R¬≤ ajust√© (prend en compte le nombre de features)
    # Pas calcul√© ici car n√©cessite le nombre de features

    return {"MSE": mse, "RMSE": rmse, "MAE": mae, "R2": r2, "n_samples": n}


# Pr√©dictions sur le train set
y_train_pred = lr_model.predict(X_train.values)

# Calcul des m√©triques
metrics_train = calculate_regression_metrics(y_train.values, y_train_pred)

print("\nüìä R√âSULTATS SUR LE TRAIN SET :")
print(f"  Nombre d'√©chantillons : {metrics_train['n_samples']}")
print(f"\n  üìà M√©triques de performance :")
print(f"  MSE (Mean Squared Error)      : {metrics_train['MSE']:.6f}")
print(f"  RMSE (Root Mean Squared Error): {metrics_train['RMSE']:.6f}")
print(f"  MAE (Mean Absolute Error)     : {metrics_train['MAE']:.6f}")
print(f"  R¬≤ (Coefficient de d√©terminat): {metrics_train['R2']:.6f}")

# Interpr√©tation du R¬≤
if metrics_train["R2"] >= 0.9:
    interpretation = "Excellent (>90% de variance expliqu√©e)"
elif metrics_train["R2"] >= 0.7:
    interpretation = "Bon (70-90% de variance expliqu√©e)"
elif metrics_train["R2"] >= 0.5:
    interpretation = "Mod√©r√© (50-70% de variance expliqu√©e)"
else:
    interpretation = "Faible (<50% de variance expliqu√©e)"

print(f"\n  üìù Interpr√©tation du R¬≤ : {interpretation}")

# Visualisation : Valeurs r√©elles vs pr√©dites
plt.figure(figsize=(10, 6))
plt.scatter(y_train.values, y_train_pred, alpha=0.5, s=30)
plt.plot(
    [y_train.min(), y_train.max()],
    [y_train.min(), y_train.max()],
    "r--",
    lw=2,
    label="Pr√©diction parfaite",
)
plt.xlabel("Valeurs R√©elles")
plt.ylabel("Valeurs Pr√©dites")
plt.title(f"R√©gression Lin√©aire - Train Set (R¬≤ = {metrics_train['R2']:.4f})")
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig(f"{BASE_DIR}/predictions_train_LR.png", dpi=300)
print("\nüíæ Graphique pr√©dictions/r√©alit√© sauvegard√© (train)")

# Distribution des r√©sidus
residuals_train = y_train.values - y_train_pred

fig, axes = plt.subplots(1, 2, figsize=(14, 5))
