# Projet de Machine Learning  UMONS 2024-2025
# Thème : Prédiction du score de Macron aux 2nd Tour des éléctions 2022

# Configuration et Installation des Dépendances

## a. Les Bibliothèques/dépendances nécessaires

In [None]:
# manipulation des vecteurs
import pandas as pd
import numpy as np
# création des graphiques
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.ticker as mtick
# prétraitement des données en masse
from sklearn.preprocessing import StandardScaler, OneHotEncoder, RobustScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
# selection du modèle
import optuna
from sklearn.model_selection import train_test_split, GridSearchCV, KFold, cross_val_score , RepeatedKFold
# fonction de score et evaluation
from scipy import stats
from sklearn.metrics import mean_squared_error, r2_score , root_mean_squared_error
from sklearn.linear_model import ElasticNet, LassoCV, Ridge
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
import xgboost as XGBRegressor
import joblib
import warnings
import os
import glob
import re




# 1. EXPLORATION DES DONNEES (EDA)

## 1.1 Préanalyse

### chargement des données

### result_train

### age-insee-2020

### communes-france

### MDB-INSEE-V2

## 1.2 Analyse rigoureuse et Selection des Features (colonnes)

## 1.3 Fusion des sources fournies et nettoyage

# 2. MODELISATION

## 2.1 Péprocessing

même processeur utilisée pour tout les modèles

In [None]:
# Séparation des variables numériques et catégorielles
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

## Notes
Dans la suite , pour l'optimisation des paramètres de nos modèles , on utilise le bibliothèque 

## 2.2 Modèle imposé : Lasso



Ici pour des raison d'efficacité on utilise ``LassoCV`` au lieu d'un simple ``Lasso``

### initialisation du modèle

In [None]:
lasso_model =

### définition des hyperparmètres à optimiser

### Recherche des meilleurs hyperparamètres

In [None]:
import optuna
from sklearn.linear_model import LassoCV
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

# Charger les données
data = load_boston()
X, y = data.data, data.target

# Définir l'objectif de l'optimisation
def objective(trial):
    eps = trial.suggest_float('eps', 1e-5, 1e-1, log=True)
    n_alphas = trial.suggest_int('n_alphas', 50, 200)
    max_iter = trial.suggest_int('max_iter', 1000, 10000)

    model = Pipeline([
        ('scaler', StandardScaler()),
        ('lasso_cv', LassoCV(eps=eps, n_alphas=n_alphas, max_iter=max_iter, cv=5))
    ])

    score = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')
    return score.mean()

# Créer une étude et optimiser
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

# Afficher les meilleurs paramètres
print("Meilleurs paramètres : ", study.best_params)


## 2.2 ElasticNet ( modèl choisit 1 )

### initialisation du modèle

### définition des hyperparmètres à optimiser

### Recherche des meilleurs hyperparamètres

## 2.3 XGboosting ( modèl choisit 2 )

### initialisation du modèle

### définition des hyperparmètres à optimiser

### Recherche des meilleurs hyperparamètres

## 2.4 Comparaison des des modèles