# 1. Initializations

## 1.1 General imports

In [None]:
### Data management
import pandas as pd
import numpy as np
import random

### Machine Learning

# transformation
from sklearn.preprocessing import MinMaxScaler, RobustScaler, StandardScaler, OneHotEncoder

# models
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split,  TimeSeriesSplit
from sklearn.model_selection import KFold
from xgboost import XGBClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

# resampling
from imblearn.over_sampling import SMOTE

# metrics and evaluation
from sklearn.metrics import f1_score, confusion_matrix
from sklearn.metrics import accuracy_score
from scipy.stats import chi2_contingency, probplot
from xgboost import plot_importance

### Data Viz

# graphical basics
import matplotlib.pyplot as plt
%matplotlib inline

# graphical seaborn
import seaborn as sns

# # graphical plotly
# import plotly.graph_objects as go
# import plotly.express as px
# # for jupyter notebook display management
# import plotly.io as pio
# pio.renderers.default = "notebook"


## 1.2 General dataframe functions

In [None]:
import smartcheck.dataframe_common as dfc

## 1.3 General Classification functions

In [None]:
import smartcheck.classification_common as cls

## 1.4 General Meta Search functions

In [None]:
import smartcheck.meta_search_common as msc

# 2. Loading and Data Quality

## 2.1 Loading of data sets and general exploration

### 2.1.1 VELO COMPTAGE (Main Data Set)

### VELIB DISPO (Optional Dataset)

#### Loading and column management (columns names normalization)

In [None]:
df_disp_velib_raw = dfc.load_dataset_from_config('velib_dispo_data', sep=';')

if df_disp_velib_raw is not None and isinstance(df_disp_velib_raw, pd.DataFrame):
    display(df_disp_velib_raw.head())
    dfc.log_general_info(df_disp_velib_raw)
    nb_first, nb_total = dfc.detect_and_log_duplicates_and_missing(df_disp_velib_raw)
    if nb_first != nb_total:
        print(dfc.duplicates_index_map(df_disp_velib_raw))
    df_disp_velib = dfc.normalize_column_names(df_disp_velib_raw)

#### Global description and correlation

In [None]:
df_disp_velib.info()
display(df_disp_velib.head())
df_cpt_velo_desc = df_disp_velib.select_dtypes(include=np.number).describe()
display(df_cpt_velo_desc)
df_cpt_velo_desc = df_disp_velib.select_dtypes(include='object').describe()
display(df_cpt_velo_desc)
df_cpt_velo_cr = df_disp_velib.select_dtypes(include=np.number).corr()
display(df_cpt_velo_cr)
dfc.display_variable_info(df_disp_velib, 5)

#### Cross Distribution inspection

In [None]:
# Analyse de la distribution d'une variable spécique en relation avec les autres de son dataframe
ref_col = 'station_en_fonctionnement' # ici notre variable cible
dfc.analyze_by_reference_variable(df_disp_velib, ref_col)

In [None]:
# Analyse croisée de la distribution d'une variable spécifique en fonction d'autres variables (quantitatives ou qualitatives) du dataframe
ref_col = 'station_en_fonctionnement' # ici notre variable cible
cross_columns = [ref_col] + ['borne_de_paiement_disponible', 'retour_velib_possible']
dfc.log_cross_distributions(
    df_disp_velib[cross_columns], 
    ref_col
)

In [None]:
# Analyse croisée d'une variable en fonction d'une autre
ref_col = 'borne_de_paiement_disponible'
target_col = 'station_en_fonctionnement'
display(pd.crosstab(df_disp_velib[ref_col], df_disp_velib[target_col]))

In [None]:
# Analyse croisée des d'une variable en fonction d'une autre (en conservant les NaN)
ref_col = 'station_opening_hours'
target_col = 'station_en_fonctionnement'
ref_cross_tab = pd.crosstab(df_disp_velib[ref_col], df_disp_velib[target_col], dropna=False, normalize=True)
display(ref_cross_tab)

# Catégorisation et normalisation
ref_col_val_norm = np.where(
    df_disp_velib[ref_col].isin(ref_cross_tab[ref_cross_tab['OUI'] >= 0.8].index.tolist()), 
    1, 
    0
)
df_disp_velib[ref_col] = ref_col_val_norm
ref_cross_tab_norm = pd.crosstab(df_disp_velib[ref_col], df_disp_velib[target_col], dropna=False, normalize=True)
display(ref_cross_tab_norm)

#### Signifiance against target evaluation

In [None]:
# Verification de la signifiance des variables explicatives par rapport à une variable cible
ref_col = 'retour_velib_possible'
target_col = 'station_en_fonctionnement'
# Génération des colonnes dummies pour ref_col
ref_col_dummies = pd.get_dummies(df_disp_velib[ref_col], prefix=ref_col)
print("Colonnes dummies générées :", list(ref_col_dummies.columns))
# Pour chaque modalité de cette variable (dummy 0/1), tester sa signifiance avec la variable cible
for col in ref_col_dummies:
    # Test du Chi-Deux
    cross_tab = pd.crosstab(df_disp_velib[target_col], ref_col_dummies[col])
    if cross_tab.shape[1] != 2:
        print(f"⚠️ Modalité [{col}] ignorée (1 seule valeur présente)")
        continue
    stat, p, _, _ = chi2_contingency(cross_tab)
    # V de Cramer
    V_Cramer = np.sqrt(
        stat/cross_tab.values.sum())
    # On affiche uniquement les variables significatives et dont le V de Cramer est supérieur à 0.1
    # Faible : Valeur autour de 0.1 ;
    # Moyenne : Valeur autour de 0.3 ;
    # Elevée : Valeur autour et supérieure à 0.5.
    # Lorsque la valeur du V de Cramer est très élevée (aux alentours de 0.8 et plus), on soupçonne généralement de la multicolinéarité.
    result = 'significative' if (p < 0.05) and (V_Cramer > 0.1) else 'NON signficative'  # type: ignore
    print(f"Variable [{col}] {result} Vs [{target_col}]: p-value[{p:.5f}], V_Cramer[{V_Cramer:.5f}]")

## 2.2 Data quality refinement

### 2.2.1 VELO COMPTAGE (Main Dataset)

### VELIB DISPO (Optional Dataset)

#### Backup before modifications

In [None]:
# Original backup before dupplicate management
df_disp_velib_orig = df_disp_velib.copy()

In [None]:
# Restore (if needed to recover)
df_disp_velib = df_disp_velib_orig.copy()

#### Management of duplicates

In [None]:
df_disp_velib = df_disp_velib.drop_duplicates()

In [None]:
# transformation manuelle de la variable cible 
# /!\ attention /!\ les transformation d'encodage meme les plus simples ne sont pas sans fuite de données car elles changent la structure
# exemple : un get_dummies qui va créer une colonne sur une valeur rare influence par les colonnes additionnelles (creation de sub features)
df_disp_velib.station_en_fonctionnement = df_disp_velib.station_en_fonctionnement.apply(lambda x: 1 if x=='OUI' else 0).astype(int)

# 3. Data Viz' and Analysis

## 3.1 General Data Viz'

In [None]:
# Vérificationn graphique de la répartition en loi normale de chaque données numérique
for col in df_disp_velib.select_dtypes(include='number').columns:
    probplot(df_disp_velib[col], dist="norm", plot=plt)
    plt.suptitle(f"Column {col}")
    plt.show()

## 3.2 Quantitative mono variable distribution

## 3.3 Qualitative mono variable distribution

## 3.4 Qualitative multi variable distribution

## 3.5 Quantitative multi variable correlation

# 4. Division in Train/Test
Lorsqu'il s'agit de données ***chronologiques*** où la tâche consiste à faire des prévisions, les ensembles d'**entraînement**, de **validation** et de **test** doivent être sélectionnés en séparant les données le long de l'axe temporel. C'est-à-dire que les données les plus anciennes sont utilisées pour l'entraînement, les plus récentes pour la validation et les dernières chronologiquement pour les tests.

In [None]:
# df_disp_velib = df_disp_velib_orig.copy()

In [None]:
# (temporaire) Ajustement : enlever les variables non retravaillées pour le moment
df_disp_velib = df_disp_velib.drop(columns=['identifiant_station',
                                            'nom_station', 
                                            'actualisation_de_la_donnee', 
                                            'coordonnees_geographiques', 
                                            'nom_communes_equipees',
                                            'code_insee_communes_equipees',
                                            'station_opening_hours'])

#### Division aléatoire simple

In [None]:
# Separation features (X) et target (y) pour train et test simple
target_col = 'station_en_fonctionnement'
features = df_disp_velib.drop(target_col, axis=1)
target = df_disp_velib[target_col]
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=66)
print("Train Set (X/y):", X_train.shape, y_train.shape)
print("Test Set (X/y):", X_test.shape, y_test.shape)

#### Division temporelle (respect de l'ordre)

In [None]:
# target_col = 'station_en_fonctionnement'
# df_disp_velib = df_disp_velib.sort_values(by'actualisation_de_la_donnee')
# features = df_disp_velib.drop(target_col, axis=1)
# target = df_disp_velib[target_col]
# X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, shuffle=False)
# print("Train Set (X/y):", X_train.shape, y_train.shape)
# print("Test Set (X/y):", X_test.shape, y_test.shape)


# 5. Feature engineering
Règle d'or : Toute opération qui "***apprend***" des données (i.e. utilise l’ensemble des valeurs pour calculer quelque chose) doit être faite après le split train/test — c’est-à-dire uniquement sur le train.

| Type de transformation                                                                                    | À faire avant le split ?                    | Détails                                                            |
| --------------------------------------------------------------------------------------------------------- | ------------------------------------------- | ------------------------------------------------------------------ |
| ✅ Création de features basées sur les colonnes existantes (ex: `BMI = weight / height²`)                  | **Avant**                                   | Pas de risque de fuite car c’est purement déterministe.            |
| ⚠️ Calculs dépendant de la distribution (moyennes, encodage fréquentiel, imputation par la médiane, etc.) | **Après** (sur le train uniquement)         | Risque de fuite de données si appliqué sur l’ensemble avant split. |
| ✅ Ajout de features exogènes fixes (données météo, géographiques, calendaires, etc.)                      | **Avant**                                   | Pas de dépendance au `target` ni à la répartition train/test.      |
| ⚠️ Encoding (`LabelEncoder`, `OneHot`, `TargetEncoding`, etc.)                                            | **Fit sur train, transform sur train/test** | Toujours fitter uniquement sur le `train`.                         |
| ⚠️ Standardisation / normalisation (Scaler)                                                               | **Fit sur train, transform sur train/test** | Pareil : `.fit()` sur train, `.transform()` sur test.              |


## 5.1 Modification localisées sur les variables d'entrainement

In [None]:
# Exemple (fictif) de modification localisée des données de test en fonction de la proximité à la médiane d'autre variables
# mask = (
#     (X_train['Gender'].isna()) &
#     (abs(X_train['Age'] - 30) > abs(X_train['Age'] - 41)) & # L’âge est plus proche de 41 que de 30
#     (X_train['Previously_Insured'] == 0) & # La personne n’était pas assurée auparavant
#     (X_train['Vehicle_Damage'] == 1) # Elle a subi un dommage sur son véhicule
# )
# X_train.loc[mask, 'Gender'] = 0

In [None]:
# Exemple (fictif) de modification des données de test par répartition spécifique entre deux valeurs 0 et 1 sur 100 (dans une liste)
# proportion_tab = [0] * 55 + [1] * 45
# mask = (
#     (X_train['Gender'].isna())
# )
# X_train.loc[mask, 'Gender'] = X_train.loc[mask, 'Gender'].apply(lambda x: random.choice(proportion))

## 5.2 Preprocessing
 Attention, si le prétraitement des données dépend des étiquettes (supervisé), il doit être fait **séparément pour chaque pli** pour une validation croisée . Sinon, des informations des données de test peuvent influencer l’entraînement, ce qui fausse les résultats en les rendant trop optimistes.

### 5.2.1 Scaling (données quantitatives)

In [None]:
# - ni outlier ni distribution loi normale : min/max
# - sans outlier mais distribution loi normale : standard
# - avec outlier : Robust 
mm_scal = MinMaxScaler()
r_scal = RobustScaler()
s_scal = StandardScaler()

r_scal_col = ['velos_mecaniques_disponibles', 'nombre_total_velos_disponibles']
X_train[r_scal_col] = s_scal.fit_transform(X_train[r_scal_col])
X_test[r_scal_col] = s_scal.transform(X_test[r_scal_col])

### 5.2.1 Encoding (données qualitatives)

In [None]:
# Technique                 Type                Colonnes créées     Principe
# get_dummies()	            Nominale	        N (ou N–1)	        Binaire par modalité
# OneHotEncoder	            Nominale, Cyclique	N	                Colonne 0/1 par modalité
# Sum Encoding	            Nominale	        N–1	                Différence avec moyenne globale
# Helmert Encoding	        Nominale	        N–1	                Contraste avec moyenne des modalités précédentes
# Backward Difference	    Ordinale	        N–1	                Contraste avec moyenne des modalités suivantes
# Binary Encoding	        Nominale	        log₂(N)	            Encodage binaire de l’index
# Hashing Encoding	        Nominale	        n_components	    Hash des modalités sur colonnes fixes
# Label Encoding	        Ordinale	        1	                Entier arbitraire
# Ordinal Encoding	        Ordinale	        1	                Rang croissant des modalités
# Target Encoding	        Nominale/Ordinale	1	                Moyenne de la cible par modalité
# Mean Encoding	            Nominale/Ordinale	1	                Idem Target Encoding
# Frequency Encoding	    Nominale/Ordinale	1	                Fréquence d'apparition
# Leave-One-Out	            Nominale/Ordinale	1	                Moyenne de la cible, sauf ligne courante
# James-Stein Encoding	    Nominale/Ordinale	1	                Moyenne pondérée par variance intercatégorie
# M-Estimate Encoding	    Nominale/Ordinale	1	                Moyenne cible lissée vers moyenne globale
# Probability Ratio	        Ordinale, binaire	1	                Log du ratio de probas classe 1 / classe 0
# WOE Encoding	            Ordinale, binaire	1	                Log( %positif / %négatif )
# Thermometer Encoding	    Ordinale	        N	                1 si la modalité est ≤ à une valeur
# Trigonométrique (sin/cos)	Cyclique	        2	                Encode la cyclicité
# Fourier / Radial	        Cyclique	        Variable	        Approximation périodique (base)
ohe_enc_col = ['borne_de_paiement_disponible', 'retour_velib_possible']
ohe_enc = OneHotEncoder(handle_unknown='ignore', sparse_output = False)
# Appliquer OneHotEncoder
X_train_enc_cat = ohe_enc.fit_transform(X_train[ohe_enc_col])
X_test_enc_cat = ohe_enc.transform(X_test[ohe_enc_col])
# Ajout des colonnes encodées à un DataFrame car le resultat de enc.fit/transform est un ndarray sans index/colonnes
X_train_cat_df = pd.DataFrame(X_train_enc_cat, columns=ohe_enc.get_feature_names_out(ohe_enc_col), index=X_train.index)
X_test_cat_df = pd.DataFrame(X_test_enc_cat, columns=ohe_enc.get_feature_names_out(ohe_enc_col), index=X_test.index)  # type: ignore
# Suppression des colonnes catégoriques originales et ajout des colonnes encodées
X_train = pd.concat([X_train.drop(columns=ohe_enc_col), X_train_cat_df], axis=1)
X_test = pd.concat([X_test.drop(columns=ohe_enc_col), X_test_cat_df], axis=1)

# 6. Selection and Model Training

## 6.0 Standard Canvas

✅ Résumé des meilleurs préfixes
| **Rôle**                            | **Préfixe recommandé** | **Exemples**                                 |
| ----------------------------------- | ---------------------- | -------------------------------------------- |
| **Classifier**                      | `clf_`                 | `clf_rf`, `clf_svc`, `clf_logreg`, `clf_mlp` |
| **Regressor**                       | `reg_`                 | `reg_ridge`, `reg_lgbm`                      |
| **Estimator (générique)**           | `est_`                 | `est_model`, `est_transformer`               |
| **Meta-estimator / Search**         | `search_`, `meta_`     | `search_gs`, `meta_cv_model`                 |
| **Cross-val splitter**              | `cv_`                  | `cv_kfold`, `cv_stratified`                  |
| **Feature extractor**               | `fe_`                  | `fe_rbm`, `fe_pca`, `fe_autoencoder`         |
| **Pipeline complet (modèle final)** | `pipe_`, `mdl_`        | `pipe_rbm_logreg`, `mdl_cnn_softmax`         |
| **Réseau de neurones**              | `nn_`                  | `nn_mnist`, `nn_cnn`, `nn_transformer`       |
| **Prétraitement / transformateur**  | `pre_`, `tr_`          | `pre_scaler`, `pre_bin_127`, `tr_encoder`    |

In [None]:
# Définir les modèles
models = {
    'LogisticRegression': LogisticRegression(),
    'RandomForestClassifier': RandomForestClassifier(),
    'SVC': SVC()
}
# Hyperparamètres à tester pour chaque modèle
param_grids = {
    'LogisticRegression': {'C': [0.01, 0.1, 1, 10], 'solver': ['liblinear', 'lbfgs']},
    'RandomForestClassifier': {'n_estimators': [50, 100, 200], 'max_depth': [10, 20, 30]},
    'SVC': {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}
}
# Dictionnaire pour stocker les résultats de meta recherche des hyperparamètres
results_ms = {}
# Exécuter la comparaison pour chaque modèle
for model_name, model in models.items():
    msc.compare_search_methods(model_name, model, param_grids[model_name], 
                               X_train, X_test, y_train, y_test, results_ms)


In [None]:
# Afficher les résultats de meta recherche des hyperparamètres
for model_name, model_results in results_ms.items():
    print(f"Model: {model_name}")
    for search_name, search_results in model_results.items():
        print(f"=> {search_name}:")
        print(f"\tBest Params: {search_results['best_params']}")
        print(f"\tBest CV Score: {search_results['best_cv_score']:2f}")
        print(f"\tBest F1 score: {search_results['test_f1_score']:.2f}")

#### NB : la validation croisée peut être assistée avec la fonction cross_val_score (et cross_val_predict également)

In [None]:
# Définir les modèles optimisés à tester
models_cv = {
    'clf_lr' : LogisticRegression(random_state=22, solver='lbfgs'),
    'clf_rf' : RandomForestClassifier(random_state=22, n_estimators=200, max_depth=20),
    'clf_svc' : SVC(random_state=22, C=1, kernel='rbf')
}
# Définir le nombre de sous-ensemble et le cross validateur (KFold ici)
cv_kf = KFold(n_splits=5, shuffle=True, random_state=42)
# Stocker les résultats de cross validation pour chaque modèle
results_cv = {}
# Boucle sur chaque modèle
for model_name, model in models_cv.items():
    fold_accuracies = []  # Stocke les résultats de précision pour chaque pli (fold)
    
    # Effectuer la validation croisée sur l'ensemble des données train et test (validation faible) ou juste test (validation forte)
    X = pd.concat([X_train, X_test])
    y = pd.concat([y_train, y_test])
    for train_index, test_index in cv_kf.split(X):
        X_train_cv, X_test_cv = X.iloc[train_index], X.iloc[test_index]
        y_train_cv, y_test_cv = y.iloc[train_index], y.iloc[test_index]
        # display(X_train_cv.head(), X_test_cv.head(), y_train_cv[:5], y_test_cv[:5])
        # Entraîner le modèle
        model.fit(X_train_cv, y_train_cv)
        
        # Prédire sur l'ensemble de test
        y_test_pred_cv = model.predict(X_test_cv)
        
        # Calculer la précision
        accuracy = accuracy_score(y_test_cv, y_test_pred_cv)
        fold_accuracies.append(accuracy)

    # Moyenne des résultats de précision pour tous les plis
    avg_accuracy = np.mean(fold_accuracies)
    var_accuracy = np.var(fold_accuracies, ddof=1)  # ddof=1 pour l'estimation non biaisée (échantillon)

    results_cv[model_name] = {
        "mean_accuracy": avg_accuracy,
        "variance_accuracy": var_accuracy
    }

In [None]:
# Afficher les résultats
for model_name, metrics in results_cv.items():
    print(f"Modèle : {model_name}")
    print(f"  - Average Accuracy : {metrics['mean_accuracy']:.2f}")
    print(f"  - Accuracy variance : {metrics['variance_accuracy']:.2f}")

## 6.1 Quick Logistic Regression

In [None]:
# Logistic Regression configuration
logit_config = {
    "target": "station_en_fonctionnement",
    "features": ['nombre_bornettes_libres', 'nombre_total_velos_disponibles']
}

# Coefficient adjustment configuration
adjustment_config = {
    "nombre_bornettes_libres": {
        "type": "normalize",
        "range": (0, 68)
    },
    "nombre_total_velos_disponibles": {
        "type": "normalize",
        "range": (0, 65)
    },
    # "nombre_total_velos_disponibles": {
    #     "type": "inverse"
    # },
}
df_train = pd.concat([X_train, y_train], axis=1)
subset = logit_config["features"]+[logit_config["target"]]
cls.logit_analysis(df_train[subset], logit_config, adjustment_config)

## 6.2 SMOTE/Under/Over Sampling (if necessary)

In [None]:
cls.cross_validation_with_resampling(X_train, y_train, LogisticRegression())

In [None]:
cls.cross_validation_with_resampling(X_train, y_train, XGBClassifier(eval_metric="error"))

## 6.3 Adding threashold (if necessary)

In [None]:
cls.cross_validation_with_resampling_and_threshold(X_train, y_train, LogisticRegression())

## 6.4 Switching to other models (if necessary)

In [None]:
cls.cross_validation_with_resampling_and_threshold(X_train, y_train, XGBClassifier(eval_metric="error"))

# 7. Best model application and evaluation/visualizing of results

Rappel pour la classification:
 - Une **précision** et un **rappel élevé** : La classe a été bien gérée par le modèle.
 - Une **précision élevée** et un **rappel bas** : La classe n'est pas bien détectée mais lorsqu'elle l'est, le modèle est très fiable.
 - Une **précision basse** et un **rappel élevé** : La classe est bien détectée, mais inclus également des observations d'autres classes.
 - Une **précision** et un **rappel bas** : la classe n'a pas du tout été bien gérée.

In [None]:
# Resampling sur la base d'entraînement
smote = SMOTE()
X_train_b_smote, y_train_b_smote = smote.fit_resample(X_train, y_train)  # type: ignore

# Définition et entraînement du modèle
clf_XGB_opti = XGBClassifier(eval_metric="error")
clf_XGB_opti.fit(X_train_b_smote, y_train_b_smote)

# Prédiction du modèle (Seuil précédemment établi)
preds = np.where(clf_XGB_opti.predict_proba(X_test)[:, 1] > 0.026, 1, 0)

# Evaluation
print("Modèle avec rééchantillonnage et optimisation du seuil")
print("F1-Score : ", f1_score(preds, y_test))
print(confusion_matrix(preds, y_test))

# Modèle de base
print("Modèle de base")
clf_XGB_base = XGBClassifier(eval_metric="error")
clf_XGB_base.fit(X_train, y_train)
print("F1-Score : ", f1_score(clf_XGB_base.predict(X_test), y_test))
print(confusion_matrix(clf_XGB_base.predict(X_test), y_test))
plot_importance(clf_XGB_base) 
plt.show()