# Description des variables :

 **Pregancies** : Nombre de grossesses passées par la patiente.

 **Glucose** : Taux de glucose dans le sang (mg/dL)

 **BloodPressure** : Tension artérielle diastolique (mm Hg)

 **SkinThickness** : Épaisseur du pli cutané (mm)

 **Insulin** : Niveau d'insuline sérique (mu U/mL)

 **BMI**: Indice de masse corporelle  (poids (kg))(taille (m)^2)

 **DiabetesPedigreeFunction** : Fonction de pedigree du diabète (facteur génétique)

 **Age** : Âge de la patiente (années)


 **Outcome** : Résultat du test de dépistage du diabète (1 = diabétique, 0 = non diabétique)

# Catégorisation des variables :

 *Variables démographique et familiale* : age, pregnancies 

 *Variables biologiques* : glucose, bloodpressure, insulin -> indicateurs médicaux directs 

 *Variables antropométriques* : bmi, skinthickness -> indicateurs liés au poids et à la composition corporelle

 *Variable génétique* : diabetespedigreefunction -> facteur de risque héréditaire

In [None]:
#######################################################
# Manipulation des données :
#######################################################

import pandas as pd
import numpy as np
from datetime import datetime
import os
import json
from pathlib import Path
from IPython.display import display # pour afficher les dataframes dans les notebooks

#######################################################
# Visualisation des données :
#######################################################

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.io as pio

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pio.templates.default = "plotly_white"


#######################################################
# Analyse statistique 
#######################################################

from scipy import stats # tests d'hypothèses, corrélation, distributions de proba
from scipy.stats import normaltest, shapiro, anderson # tests de normalité d'une distribution
from scipy.stats import pearsonr, spearmanr, kendalltau # tests de corrélation (pearson -> correlation linéaire - données quantitatives continues, normale
# spearman  -> corrélation de rangs - données non-normales ou ordinales ; kendalltau -> corrélation de rangs - petits enchantillons
import statsmodels.api as sm # modélisation statistique (régression, ANOVA, tests, séries temporelles
# -> Sert à aller plus loin que scikit-learn en analyse statistique)
from statsmodels.stats.outliers_influence import variance_inflation_factor # pour détecter la multicolinéarité entre variables explicatives
# VIF Variance Inflation Factor ~= 1 -> pas de corrélation ; 1-5 modérée acceptable ; >10 forte corrélation


#######################################################
# Machine Learning 
#######################################################

## Pre-processing 


from sklearn.model_selection import (train_test_split, GridSearchCV, RandomizedSearchCV, cross_val_score, KFold, StratifiedKFold, cross_validate )
# train_test_split : diviser les données en ensembles d'entraînement et de test
# Kfol : validation croisée simple
# stratifiedKFold : validation croisée en conservant la proportion des classes
# cross_val_score : évaluer un modèle avec validation croisée
# cross_validate : évaluer plusieurs métriques avec validation croisée 
# gridSearchCV : recherche exhaustive d'hyperparamètres -> teste toutes les combinaisons possibles
# randomizedSearchCV : recherche aléatoire d'hyperparamètres -> teste un nombre fixe

from sklearn.preprocessing import (StandardScaler, MinMaxScaler, RobustScaler, QuantileTransformer, LabelEncoder, OneHotEncoder)
# StandardScaler : centrage-réduction (moyenne=0, écart-type=1) -> Reg linéaire, SVM, KNN, PCA
# MinMaxScaler : mise à l'échelle entre 0 et 1 -> réseaux de neurones
# RobustScaler : mise à l'échelle robuste aux outliers -> données avec outliers
# QuantileTransformer : transformation non-linéaire pour rendre les données plus normales ou uniforme -> modèles linéaires
# LabelEncoder : encoder les labels catégoriels en entiers -> variables cibles
# OneHotEncoder : encoder les variables catégorielles en variables binaires -> variables explicatives
from sklearn.impute import SimpleImputer, KNNImputer
# SimpleImputer : imputation des valeurs manquantes avec moyenne, médiane, mode ou constante
# KNNImputer : imputation des valeurs manquantes avec les k plus proches voisins
from sklearn.feature_selection import (SelectKBest, f_regression, mutual_info_regression, RFE, RFECV, SelectFromModel)
# SelectKBest : sélection des k meilleures caractéristiques selon un test statistique, score
# f_regression : test F pour la régression linéaire - score pour selectKBest
# mutual_info_regression : information mutuelle pour la régression - score pour selectKBest
# RFE : élimination récursive des caractéristiques - sélection des caractéristiques en fonction de l'importance
# RFECV : RFE avec validation croisée - sélection des caractéristiques en fonction de l'importance avec validation croisée
# SelectFromModel : sélection des caractéristiques en fonction de l'importance d'un modèle (utiliser coef_ ou feature_importances_)


## Models :

from sklearn.linear_model import (LinearRegression, Ridge, Lasso, ElasticNet, LogisticRegression, HuberRegressor, RANSACRegressor, TheilSenRegressor)

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import (RandomForestRegressor, GradientBoostingRegressor, VotingRegressor, StackingRegressor,
                              AdaBoostRegressor,  BaggingRegressor)
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor


## Metrics

from sklearn.metrics import (
    mean_squared_error, mean_absolute_error, r2_score,
    mean_absolute_percentage_error, explained_variance_score,
    max_error, median_absolute_error
)


## Advanced ML Libraries 

import xgboost as xgb
import lightgbm as lgb
from catboost import CatBoostRegressor, Pool


## Utility Functions 
import time # time() pour mesurer le temps d'exécution, sleep(s) pour pauses de s sec, perf_counter() pour chronométrage haute précision
import gc #libération automatique de la mémoire non utilisée par Python -> libérer de la ram
from tqdm import tqdm # barre de progression pour les boucles
tqdm.pandas()


## Set Random Seeds for Reproducibility 
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)