
1. D√©finir le probl√®me
 

2. R√©cup√©rer les donn√©es
 

3. **Analyser et nettoyer les donn√©es**
  

4. Pr√©parer les donn√©es
  

5. Evaluer plusieurs mod√®les
  

6. R√©glage fin des mod√®les
 

7. Surveiller son mod√®le

# üìå 3. Analyse et Nettoyage des Donn√©es  

## üöÄ Objectif
Dans cette section, nous allons **analyser et nettoyer** nos donn√©es pour nous assurer qu'elles sont exploitables avant de les utiliser dans un mod√®le de **Machine Learning**.  

## üîç √âtapes du processus
1. **Importer les biblioth√®ques n√©cessaires**  
2. **Charger les donn√©es**  
3. **Supprimer les variables non contributives**  
   - Variables constantes  
   - Variables fortement corr√©l√©es  
4. **G√©rer les valeurs aberrantes (outliers)**  
5. **Visualiser les donn√©es**  
6. **Cat√©goriser les r√©sultats gamma (classification)**  
7. **Sauvegarder les bases de donn√©es nettoy√©es**  


## üîπ 3.1. Importation des biblioth√®ques n√©cessaires

In [None]:
# Gestion des avertissements
import warnings  # Ignore certains avertissements inutiles lors de l'ex√©cution du code


import pandas as pd  # Gestion des DataFrames
import numpy as np  # Calculs num√©riques
import math  # Fonctions math√©matiques
import seaborn as sns  # Graphiques avanc√©s, sert essentiellement √† am√©liorer l'esth√©tique des graphiques
import matplotlib.pyplot as plt  # Affichage de graphiques
from pandas.plotting import scatter_matrix  # Matrices de nuages de points
from sklearn.feature_selection import VarianceThreshold  # Suppression de variables constantes
from scipy import stats  # Tests statistiques
from numpy import percentile  # Calcul des percentiles

warnings.filterwarnings("ignore")  # D√©sactiver les warnings pour ne pas surcharger l'affichage

## üîπ 3.2. Chargement des donn√©es

Nous utilisons le fichier **`DataSet_RegionPelvienne.csv`** g√©n√©r√© pr√©c√©demment.  
Nous supprimons la colonne `Unnamed: 0` qui correspond aux anciens index inutiles.


In [None]:
# Chargement du fichier CSV
df = pd.read_csv("/content/DataSet_RegionPelvienne.csv", sep = ",", header=0)

df = df.drop(columns = ["Unnamed: 0"]) #Colonne cr√©√©e avec les anciens index. On n'en a pas besoin donc on la supprime directement ici.

df.head()

## üîπ 3.3. Suppression des donn√©es non contributives  

Certaines variables **n'apportent pas d'information utile** et peuvent √™tre supprim√©es :
1. **Variables constantes** : colonnes avec une variance de 0  
2. **Variables fortement corr√©l√©es** : colonnes avec informations redondantes



### ‚úÇÔ∏è Suppression des variables constantes  



Nous utilisons la m√©thode **`VarianceThreshold()`** pour identifier et supprimer les variables constantes.  
Par d√©faut, le seuil est fix√© √† 0 => la m√©thode supprime les colonnes dont la variance est √† 0 => les colonnes de donn√©es constantes. N√©anmoins, on pourrait aussi souhaiter supprimer les colonnes dont les donn√©es varient tr√®s peu donc avec un seuil non nul. 


In [None]:
# Initialisation du filtre de variance
vt = VarianceThreshold() #seuillage par d√©faut, pas de modification des param√®tres. 

# On applique le seuillage d√©fini dans vt √† notre dataframe df avec la m√©thode .fit. 
_ = vt.fit(df)  # a noter : le _ permet d'acc√©der √† la vol√©e √† la valeur du r√©sultats pr√©c√©dent. Equivalent ici √† vt = vt.fit(df).

# Obtention des colonnes non contributives
mask = vt.get_support() #m√©thode .get_support() de la classe VarianceThreshold pour obtenir un masque bool√©en des variables s√©lectionn√©es (True si conserv√©es)

# Affichage des colonnes supprim√©es
print("Variables constantes supprim√©es :", list(df.loc[:, ~mask].columns)) # On affiche les noms des colonnes de donn√©es qui sont constantes (dans une liste pour faciliter l'affichage)
print("Total :", len(mask[mask == False])) # On compte le nombre de variables constantes

# Suppression des variables constantes
df = df.loc[:, mask] #On ne garde que les variables avec une variance diff√©rente de 0

# V√©rification du DataFrame apr√®s suppression
df.head()


### ‚úÇÔ∏è Suppression des variables fortement corr√©l√©es  

Les variables **tr√®s corr√©l√©es** apportent la m√™me information et peuvent perturber l'apprentissage du mod√®le (plus il y a de variables plus l'entrainement sera long et le mod√®le risque d'apprendre plus difficilement). Elles peuvent √©galement nuire √† l'interpr√©tation du mod√®le (les variables corr√©l√©es seront utilis√©es al√©atoirement de mani√®re √©quivalente par le mod√®le, ce qui peut diminuer l'importance de chacune d'elle et au final on peut mal interpr√©ter l'importance de ce que d√©crivent ces variables pour le mod√®le quand on cherchera √† comprendre comment il fonctionne).    
Nous utilisons le **test de normalit√© de Shapiro-Wilk** pour d√©terminer le test de corr√©lation adapt√© :


In [None]:
# Suppression de la colonne cible pour l'analyse des corr√©lations entre variables
variables = df.drop(columns=['Gamma22loc10'])

# Test de Shapiro-Wilk
for cm in variables.columns: #cm pour "complexity metric"
    shapiro_test = stats.shapiro(variables[cm])
    p = shapiro_test.pvalue

    if p_value > 0.05:
        print(cm + " suit une distribution NORMALE (ne rejette pas H0).")
    else:
        print(cm + " non normale (rejette H0).")


Le test de Shapiro a tendance √™tre plus adapt√© pour les taille d'√©chantillons moyenne (environ 50-1000 exemples). Ici √† plus de 1300 √©chantillons, le test d'**Agostino-Pearson** aurait aussi pu √™tre adapt√© : 

In [None]:
# Test de D'Agostino-Pearson
for cm in variables.columns:
    dagostino_test = normaltest(variables[cm])
    p = dagostino_test[1]

    if p > 0.05:
        print(cm + " suit une distribution NORMALE (ne rejette pas H0).")
    else:
        print(cm + " non normale (rejette H0).")


Et celui de **Anderson-Darling** particuli√®rement adapt√© pour les grands √©chantillons (>1000 exemples) : 

In [None]:
# Test d'Anderson-Darling
for cm in variables.columns:
    anderson_test = anderson(variables[cm])
    p = 0  # Initialisation de la p-valeur

    # D√©terminer la p-valeur en fonction des niveaux de signification
    for i in range(len(anderson_test.significance_level)):
        if anderson_test.statistic < anderson_test.critical_values[i]:
            p = anderson_test.significance_level[i]
            break

    if p > 0.05:
        print(cm + " suit une distribution NORMALE (ne rejette pas H0).")
    else:
        print(cm + " non normale (rejette H0).")


<font size = 4> üî• **Matrice de corr√©lation** </font>    

Diff√©rents tests de corr√©lation peuvent √™tre utilis√©s : 
- **Pearson** : variables continues et normalement distribu√©es
- **Spearman** et **Kendall** : variables continues ou ordinales, non n√©cessairement normalement distribu√©es.
- **ANOVA** et **Kruskal-Wallis** : variables mixtes, continues (normales pour ANOVA et non normales pour Kruskal Wallis) et cat√©gorielles. 


Nous utilisons la **corr√©lation de Kendall** pour identifier les variables fortement corr√©l√©es.  
Les valeurs > **0.8** indiquent une redondance forte entre deux variables.


<div class="alert alert-block alert-danger">
<b>Attention:</b> La cellule ci-dessous ne peut √™tre ex√©cut√©e qu'une seule fois. La 2nde fois, elle affichera une erreur car les colonnes demand√©es ont d√©j√† √©t√© supprim√©es.
</div>

In [None]:
# Calcul de la matrice de corr√©lation
corr_df = variables.corr(method='kendall').abs()

# Cr√©ation d'une matrice triangulaire sup√©rieure
upper = corr_df.where(np.triu(np.ones(corr_df.shape), k=1).astype(bool))

# Index des colonnes avec un indice de corr√©lation >0.8
# Possibilit√© de modifier cette valeur pour tester
to_drop = [column for column in upper.columns if any(upper[column] > 0.8)]

print("Variables corr√©l√©es supprim√©es :", to_drop)
print("Total :", len(to_drop))

#Pour chaque duo de variables corr√©l√©es, on supprime al√©atoirement l'une des deux variables concern√©es. 
df = df.drop(columns=to_drop)


In [None]:
#Affichage d'un extrait de la matrice de corr√©lation
#On stocke dans la variable temp quelques unes de nos variables pour l'exemple d'affichage
temp = pd.DataFrame(variables, columns =['MUperGy',
 'AAV',
 'LSV',
 'MCS',
 'AFW',
 'ALT',
 'CAS',])
corr_temp = temp.corr(method='kendall') #calcul de la matrice de corr√©lation : correlation entre chaque duo de variable dans le dataframe temp
plt.figure(figsize=(8, 8)) # on cr√©e une figure
# on cr√©e un masque pour ne garder que la moiti√© de la matrice (les r√©sultats apparaissent en double sinon, par exemple AAV vs MCS et MCS vs AAV)
# np.triu = triangle sup√©rieur d'un tableau, toutes les donn√©es sous la diagonale du tableau sont pass√©es √† 0
# np.ones_like = retourne une matrice de 1 des m√™mes dimensions que la matrice donn√©e en param√®tres. Le dtype force le type des variables de sorties du tableau.
mask = np.triu(np.ones_like(corr_temp, dtype=bool)) # tableau de 0 (False) sous la diagonale et de 1 (True) au dessus

# Heatmap : carte des valeurs de corr√©lation. Les valeurs ne sont pas affich√©es quand le masque est "True". 
# Les autres param√®tres permettent de r√©gler l'affichage. 
heatmap = sns.heatmap(corr_temp, mask=mask, vmin=-1, vmax=1, annot=True,annot_kws={"size":10}, cmap='BrBG' , linewidth=1, linecolor='w')
heatmap.set_title('Matrice de corr√©lation triangulaire', fontdict={'fontsize':18}, pad=16);

>‚ö†Ô∏è **Le coefficient de corr√©lation ne mesure que les corr√©lations lin√©aires (Spearman, Pearson) ou monotones (Kendall) entre les variables.**


## üîπ 3.4 Gestion des Outliers (valeurs aberrantes des cibles)

<font size = 3> üîç **D√©tection** </font>


   - **Ecart interquartile** (IQR - Interquartile Range) : on consid√®re qu'une valeur est un outlier si elle est en dehors de l'intervalle `[Q1 - 1.5*IQR, Q3 + 1.5*IQR]` o√π Q1 est le 1er quartile, Q3 le 3√®me quartile et IQR = Q3 - Q1.
   - **Z-score** : on consid√®re qu'une valeur est un outlier si sa distance en nombre d'√©cart-types par rapport √† la moyenne est sup√©rieure √† 3.   
      $ z = \frac{x - \mu}{\sigma} $ o√π $x$ est la valeur de la donn√©e, $\mu$ la moyenne de l'ensemble de donn√©es et $\sigma$ l'√©cart-type de l'ensemble de donn√©e. Si $|z|$>3 alors on consid√®re que la valeur est un outlier. 
    

Les **valeurs aberrantes**  des r√©sultats gamma qui peuvent biaiser l'estimation de la limite de tol√©rance et √©galement l'apprentissage du mod√®le.  Ces valeurs aberrantes peuvent s'expliquer par des probl√®mes au moment de la mesure (panne, d√©rive du d√©tecteur, mauvaise position programm√©e, etc)    
Nous utilisons la m√©thode **IQR (Interquartile Range)** pour d√©tecter et supprimer les valeurs extr√™mes. Cependant, comme les valeurs gamma hors tol√©rance sont rares et que ce sont elles que l'on veut sp√©cifiquement d√©tecter, il faut faire attention √† ne pas supprimer les valeurs avec un seuil trop bas. Nous avons donc choisi d'utiliser la m√©thode IQR mais avec un seuil √† `6*IQR`. 


<div class="alert alert-block alert-danger">
<b>Attention:</b> La cellule ci-dessous ne peut √™tre ex√©cut√©e qu'une seule fois. La 2nde fois, elle n'affichera pas d'erreur mais elle va multiplier les indices gamma une seconde fois par 100 et d√©finir un nouveau seuil de coupure. 
</div>

In [None]:
# Conversion des indices gamma en pourcentage
df.Gamma22loc10 = df.Gamma22loc10*100

# Calcul du 1er et 3√®me quartile
q25, q75 = percentile(df.Gamma22loc10, 25), percentile(df.Gamma22loc10, 75)

# Calcul de l'√©cart interquartile (IQR)
iqr = q75 - q25

#On affiche les r√©sultats
print('Percentiles: 25th=%.3f, 75th=%.3f, IQR=%.3f' % (q25, q75, iqr))

# D√©finition d'un seuil de coupure pour d√©tecter les outliers : on a choisi ici 6*iqr
cut_off = iqr * 6
lower, upper = q25 - cut_off, q75 + cut_off
print("cut off = ", cut_off)

#On d√©finit les cutoff sup et inf
lower, upper = q25 - cut_off, q75 + cut_off

print("lower cut off = ", lower)

# Identification des outliers
outliers = [x for x in df.Gamma22loc10 if x < lower or x > upper]

print('outliers identifi√©s : %d' % len(outliers))

# suppression des outliers
outliers_removed = [x for x in df.Gamma22loc10 if x >= lower and x <= upper]

print('Observations non outliers: %d' % len(outliers_removed))

df = df[df.Gamma22loc10>= lower]

## üîπ 3.5 Visualisation des Donn√©es  

### üî¶ Corr√©lation des variables avec les cibles  

Nous affichons les variables **les plus corr√©l√©es** avec `Gamma22loc10`.


In [None]:
# Calcul de la matrice de corr√©lation
matrice_corr = df.corr(method='kendall').abs()

# Affichage des 20 variables les plus corr√©l√©es avec Gamma22loc10
matrice_corr["Gamma22loc10"].sort_values(ascending=False).head(21)


>‚ö†Ô∏è **Le coefficient de corr√©lation ne mesure que les corr√©lations lin√©aires (Spearman, Pearson) ou monotones (Kendall) entre les variables.**





### üìä Distribution des variables  
Nous tra√ßons les **distributions des variables les plus importantes**.

In [None]:
# S√©lection des variables pour la visualisation
attributs = ["Gamma22loc10", "EM", "BI", "EMmin", "BIiqr", "BImax", "BIstd"]

# Matrice de nuages de points
scatter_matrix(df[attributs], figsize=(15, 8), diagonal='kde')

# Ajustement des axes
for i in range(1, 7):
    plt.gca().set_ylim(95, 100)
    plt.gca().set_xlim(95, 100)

plt.show()

## üîπ 3.6 Cat√©gorisation des r√©sultats PSQA  

Nous devons transformer `Gamma22loc10` en **classe binaire** pass/fail pour la classification.


### üîß Binarisation

<span style="color:#2980b9"> **1. On d√©finit un seuil pour la binarisation** </span>

In [None]:
# On d√©finit un seuil, par exemple le 10√®me percentile de la distribution de gamma
seuil = np.percentile(df.Gamma22loc10, 10)

#Affichage de la distribution
gamma = df.Gamma22loc10
plt.figure(figsize=(12,6))
g = sns.displot(gamma)
plt.xlabel("GPR", size=14)
plt.ylabel("Nombre d'exemples", size=14)
plt.axvline(x=seuil,color='red',linestyle='dashed',linewidth=1, label='Percentile')
plt.legend(bbox_to_anchor=(1.05, 1.0), loc='upper left', prop={'size': 12})
plt.show()

<span style="color:#2980b9"> **2. On attribue 1 aux observations sous le seuil (celles que l'on veut pr√©dire) et 0 √† celles au-dessus** </span>

<div class="alert alert-block alert-danger">
<b>Attention:</b> La cellule ci-dessous ne peut √™tre ex√©cut√©e qu'une seule fois. La 2nde fois, elle √©crasera l'enregistrement de df avant binarisation et renverra une erreur car la colonne Gamma22loc10 a √©t√© supprim√©e
</div>

In [None]:
# Binarisation
# Ajout d'une colonne nomm√©e Echec dans laquelle les indices gamma <=seuil sont pass√©s √† 1 (classe positive, 'fail'), et ceux >LCLx √† 0 (classe n√©gative, 'pass')
df = df.assign(Echec=pd.cut(df.Gamma22loc10,
                               bins=[0, seuil, 100],
                               labels=[1, 0]))

# Suppression de la colonne des indices gamma
df = df.drop(columns=["Gamma22loc10"])

# Attribution du type "int" √† la colonne Echec qui contient des 0 et des 1. 
df['Echec'] = df.Echec.astype('int64')


In [None]:
#Visualisation des donn√©es
fig = df.hist(xlabelsize=5, ylabelsize=5,figsize=(13,17) )
[x.title.set_size(10) for x in fig.ravel()]
plt.show()

<font size = 4>üìä Informations que l'on peut extraire de ces histogrammes :</font>


* **Diff√©rences d'echelles** entre les variables
* **Forme des distributions** : plusieurs distributions sont fortement dissym√©triques.

Ces deux param√®tres peuvent nuire aux performances des mod√®les.


## üíæ 3.6 Sauvegarde des donn√©es 

In [None]:
# Sauvegarde du fichier CSV apr√®s binarisation
df.to_csv('DataSet_RegionPelvienne_Class.csv')

üìå **Un fichier CSV a √©t√© cr√©√© et est pr√™t pour les prochaines √©tapes du projet** üöÄ

<font size = 6>‚ö†Ô∏è</font> 

**T√©l√©charger le fichier**