## üß† Mod√©lisation

Dans cette section, nous allons entamer la phase de mod√©lisation, qui consiste √† :

- Choisir un ou plusieurs mod√®les adapt√©s au type de probl√®me (classification ou r√©gression),
- Entra√Æner ces mod√®les sur l‚Äôensemble d‚Äôapprentissage,
- Optimiser leurs performances √† l‚Äôaide de la validation crois√©e et de la recherche d‚Äôhyperparam√®tres (GridSearchCV, RandomizedSearchCV).


In [None]:
import pandas as pd
Path_Data='../Data/Processed/'
X_train = pd.read_csv(Path_Data+'X_train.csv')
X_val = pd.read_csv(Path_Data+'X_val.csv')
X_test = pd.read_csv(Path_Data+'X_test.csv')

y_train = pd.read_csv(Path_Data+'y_train.csv')
y_val = pd.read_csv(Path_Data+'y_val.csv')
y_test = pd.read_csv(Path_Data+'y_test.csv')


### Initialisation des Mod√®les 

Nous allons utiliser les mod√®les suivants pour nos t√¢ches de classification et r√©gression :

- **CatBoost**
- **LightGBM (LGBM)**
- **XGBoost**
- **For√™t Al√©atoire (Random Forest)**
- **KNN (K-Nearest Neighbors)**
- Et d'autres mod√®les selon les besoins.


In [None]:
from xgboost import XGBClassifier
from catboost import CatBoostClassifier
from sklearn.ensemble import RandomForestClassifier
from lightgbm import LGBMClassifier
from sklearn.neighbors import KNeighborsClassifier
from LogisticRegression import LogisticRegression



models = {
    "Logistic Regression": LogisticRegression(),
    "XGBoost": XGBClassifier(),
    "CatBoost": CatBoostClassifier(verbose=0),
    "Random Forest": RandomForestClassifier(),
    "LightGBM": LGBMClassifier(),
    "KNN": KNeighborsClassifier()
}

##### On definie les Grids de Parametres Pour chaque model


In [None]:
param_grids = {
    "Logistic Regression": {
        'alpha': [0.001, 0.01, 0.1],  
        'iterations': [500, 1000, 2000],  
        'use_l2': [True, False],  
        'lambda_': [0.01, 0.1, 1.0],  # L2 regularization strength
        'use_decay': [True, False],
        'decay': [0.001, 0.01, 0.1],
        'early_stopping': [True, False],
        'tol': [1e-4, 1e-5] 
    },
    "XGBoost": {
        'max_depth': [3, 5, 7],
        'learning_rate': [0.01, 0.1, 0.2],
        'n_estimators': [50, 100, 200]
    },
    "CatBoost": {
        'iterations': [500, 1000],
        'depth': [3, 5, 7],
        'learning_rate': [0.01, 0.1, 0.2]
    },
    "Random Forest": {
        'n_estimators': [100, 200, 300],
        'max_depth': [10, 20, 30, None],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    },
    "LightGBM": {
        'num_leaves': [31, 50, 100],
        'learning_rate': [0.01, 0.1, 0.2],
        'n_estimators': [50, 100, 200]
    },
    "KNN": {
        'n_neighbors': [3, 5, 7, 10],
        'weights': ['uniform', 'distance'],
        'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute']
    }
}

##  D√©tection de l‚Äôenvironnement d'ex√©cution (CPU, GPU NVIDIA, ou puce Apple M1/M2..)

Ce script Python permet de **d√©tecter automatiquement** l'environnement mat√©riel sur lequel votre code est ex√©cut√©, afin d‚Äôadapter l'entra√Ænement des mod√®les (par exemple : activer l‚Äôutilisation du GPU quand c‚Äôest possible).
Dans Notre Cas on a deux Puissante Machine l'une avec M1 Pro  et l'autre avec une Carte Graphique RTX 4070  

In [None]:
import platform
import subprocess

def detect_environment():
    system = platform.system().lower()
    machine = platform.machine().lower()

    # Apple Silicons (M1/M2)
    if system == 'darwin' and 'arm' in machine:
        return "M1"

    # CUDA-compatible NVIDIA GPU
    try:
        result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
        if result.returncode == 0:
            return "CUDA"
    except FileNotFoundError:
        pass

    return "CPU"

env = detect_environment()
print(f" Environnement d√©tect√© : {env}")


### üîç Optimisation des hyperparam√®tres avec GridSearchCV et acc√©l√©ration GPU

Pour garantir les meilleures performances de chaque mod√®le de classification, nous utilisons **GridSearchCV** pour effectuer un r√©glage fin des hyperparam√®tres. Voici les √©tapes :

1. **Exclusion des mod√®les personnalis√©s** :
   - Le mod√®le de r√©gression logistique impl√©ment√© manuellement est exclu car il ne prend pas en charge `GridSearchCV` directement.

2. **Utilisation compl√®te du CPU et du GPU** :
   - `n_jobs = -1` permet d‚Äôutiliser tous les c≈ìurs du processeur pour les calculs parall√®les.
   - Pour les mod√®les compatibles avec le GPU, nous activons explicitement l'acc√©l√©ration :
     - **XGBoost** : `tree_method='gpu_hist'`
     - **LightGBM** : `device='gpu'`
     - **CatBoost** : `task_type='GPU'`, `devices='0'`

3. **Affichage d√©taill√© de l'entra√Ænement** :
   - `verbose=2` affiche les √©tapes d√©taill√©es de l'entra√Ænement, ce qui permet de suivre la progression en temps r√©el.

4. **Validation crois√©e** :
   - Une validation crois√©e √† 3 plis (`cv=3`) est utilis√©e pour √©viter le surapprentissage et am√©liorer la robustesse de la s√©lection des mod√®les.

5. **√âvaluation** :
   - Apr√®s l'entra√Ænement, nous extrayons les meilleurs hyperparam√®tres et √©valuons le mod√®le sur l'ensemble de validation √† l‚Äôaide de la pr√©cision (`accuracy`).




In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

for model_name, model in models.items():
    print(f"\n D√©marrage de la GridSearch pour : {model_name}")

    if model_name == "Logistic Regression":
        print("  GridSearch ignor√©e pour la r√©gression logistique personnalis√©e.")
        continue

    # Appliquer les bons param√®tres selon l‚Äôenvironnement
    if env == "CUDA":
        if model_name == "XGBoost":
            model.set_params(tree_method='gpu_hist', predictor='gpu_predictor')
        elif model_name == "LightGBM":
            model.set_params(device='gpu')
        elif model_name == "CatBoost":
            model.set_params(task_type='GPU', devices='0', verbose=0)

    elif env == "M1":
        if model_name == "LightGBM":
            model.set_params(device_type='gpu')  # Metal backend
        elif model_name == "CatBoost":
            model.set_params(task_type='CPU', verbose=0)

    else:  # CPU fallback
        if model_name == "XGBoost":
            model.set_params(tree_method='hist', predictor='cpu_predictor')
        elif model_name == "LightGBM":
            model.set_params(device_type='cpu')
        elif model_name == "CatBoost":
            model.set_params(task_type='CPU', verbose=0)

    # Lancer GridSearchCV
    grid_search = GridSearchCV(
        estimator=model,
        param_grid=param_grids[model_name],
        cv=3,
        n_jobs=-1,
        verbose=2
    )
    
    grid_search.fit(X_train, y_train)

    print(f" Meilleurs hyperparam√®tres pour {model_name} : {grid_search.best_params_}")
    
    best_model = grid_search.best_estimator_
    y_pred_val = best_model.predict(X_val)
    val_acc = accuracy_score(y_val, y_pred_val)
    print(f" {model_name} - Accuracy Validation : {val_acc:.4f}")
