<a href="https://colab.research.google.com/github/pejmanrasti/EPU_ML_Angers_2025/blob/main/Jour_3/TD_ML_2_RecupererDonnees.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. D√©finir le probl√®me


2. **R√©cup√©rer les donn√©es**


3. Analyser et nettoyer les donn√©es
  

4. Pr√©parer les donn√©es
  

5. Evaluer plusieurs mod√®les
  

6. R√©glage fin des mod√®les


7. Surveiller son mod√®le
  


---



---



# üìå 2. R√©cup√©ration des donn√©es  

## üöÄ Objectif
Dans cette section, nous allons **r√©cup√©rer les donn√©es brutes et faire un premier tri** des donn√©es pour ne garder que les donn√©es qui nous int√©resse.  

## üîç √âtapes du processus
1. **Importer les biblioth√®ques n√©cessaires**  
2. **Charger les donn√©es**  
3. **V√©rifier que les donn√©es sont correctement lues**    
4. **Identifier les types de donn√©es pr√©sents**  
5. **Supprimer les colonnes qui ne nous int√©ressent pas**   
6. **S√©lectionner les lignes** en fonction d'un crit√®re, par exemple la localisation tumorale.
7. **Supprimer les doublons et g√©rer les valeurs manquantes**  
8. **Sauvegarder les bases de donn√©es nettoy√©es**  


## üìö Donn√©es disponibles  
Les donn√©es extraites de la **base de donn√©es patient** comprennent :  
‚úîÔ∏è ID patients (anonymis√©s)    
‚úîÔ∏è Prescriptions m√©dicales (dose totale, dose/fr, nombre de fr)    
‚úîÔ∏è Codes CIM (classification internationale des maladies)   
‚úîÔ∏è Noms du course, du plan et des arcs   
‚úîÔ∏è Date de derni√®re modification  
‚úîÔ∏è Nom du PTV   
‚úîÔ∏è Algorithme, grille de calcul, technique utilis√©e (3D, IMRT ou VMAT)  
‚úîÔ∏è Machine et √©nergie utilis√©e  
‚úîÔ∏è M√©triques de complexit√© calcul√©es pour chaque arc de traitement des plans VMAT  
‚úîÔ∏è Nombre d'UM pour chaque arc  
‚úîÔ∏è R√©sultats du CQ pr√©-traitement  

---

## üîπ 2.1 Import des donn√©es en Python  

üì• **Les donn√©es ont √©t√© collect√©es automatiquement depuis Aria via un ex√©cutable C# et stock√©es dans un fichier CSV.**  
Nous allons les **importer** et les stocker dans un `DataFrame` avec **Pandas**.




En **Python**, plusieurs structures permettent de stocker et manipuler des donn√©es sous forme de tableaux, vecteurs ou matrices. Voici un aper√ßu des principales biblioth√®ques utilis√©es :

- **Listes Python (`list`)** : Structures de base pour stocker une s√©quence d‚Äô√©l√©ments (h√©t√©rog√®nes).
- **Numpy (`numpy.array`)** : Permet de travailler efficacement avec des tableaux multidimensionnels homog√®nes.
- **Pandas (`pandas.DataFrame`)** : Id√©al pour manipuler des donn√©es tabulaires avec des colonnes de types diff√©rents.

<img src="https://balachandark.com/wp-content/uploads/2022/08/dataStructuresNew.png" alt="drawing" width="500"/>




En **Machine Learning et Data Science**, les donn√©es brutes sont g√©n√©ralement stock√©es sous forme de **fichiers CSV** ou d‚Äôautres formats tabulaires. Pour exploiter ces donn√©es efficacement, on utilise la biblioth√®que **Pandas**, qui permet de stocker les donn√©es dans un **DataFrame**.

üîó [Documentation Pandas - Introduction](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)  

**üîπ Qu'est-ce qu'un `DataFrame` ?**    
Un **`DataFrame`** est une structure de donn√©es tabulaire compos√©e de **lignes** et de **colonnes**, similaire √† une feuille Excel ou une base de donn√©es SQL. Contrairement aux **tableaux NumPy**, un `DataFrame` peut contenir diff√©rents types de donn√©es :
- **Texte** (cha√Ænes de caract√®res)
- **Valeurs num√©riques** (entiers, flottants)
- **Bool√©ens** (`True` / `False`)
- **Dates, objets cat√©goriels, etc.**

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" alt="drawing" width="400"/>


> ‚ö† **En ML, la convention veut que 1 ligne = 1 observation et 1 colonne = 1 variable. La base de donn√©es a autant de lignes que d'observations et autant de colonnes que de variables pour chaque observation.**


Dans notre exemple : les lignes seront chaque faisceau mesur√© et les colonnes la description du faisceau (nom du faisceau, nom du plan associ√©, code CIM de la localisation trait√©e, ID du patient, nombre d'UM, etc etc) et les m√©triques de complexit√© calcul√©es pour chacun de ces faisceaux. A cela s'ajoute une colonne qui repr√©sente nos cibles : le taux de pass gamma pour chaque CQ.  



### üì• Importation des biblioth√®ques n√©cessaires

In [None]:
# On charge les biblioth√®ques n√©cessaires
# C'est plus simple de charger d'un coup en d√©but de notebook toutes les biblioth√®ques qui seront n√©cessaires pour compiler toutes les cellules du notebook.

# Gestion des avertissements
import warnings  # Ignore certains avertissements inutiles lors de l'ex√©cution du code

import pandas as pd  # Gestion des DataFrames
import numpy as np   # Calculs num√©riques
import re            # Recherche et manipulation de cha√Ænes de caract√®res

warnings.filterwarnings("ignore")  # D√©sactiver les warnings pour ne pas surcharger l'affichage

### üñ®Ô∏è Chargement des donn√©es

In [None]:
# Chargement des donn√©es dans un DataFrame Pandas
df = pd.read_csv("/content/RAWDATABASE.csv",
              sep = ";", # le csv a √©t√© g√©n√©r√© avec une virgule comme s√©parateur
              header=0   # on indique que le nom des colonnes est sur la 1√®re ligne du csv.
              )
# Affichage des premi√®res lignes pour v√©rifier l'importation
df.head()

### üìä V√©rification des donn√©es  
Nous utilisons `info()` et `describe()` pour explorer les donn√©es import√©es :
- **`info()`** : Affiche le nombre de lignes, de colonnes et les types de donn√©es.
- **`describe()`** : Donne un r√©sum√© statistique des colonnes num√©riques.


In [None]:
# Informations g√©n√©rales sur la base de donn√©es
df.info()

üìå **Observations :**  
- **2417 lignes** et **288 colonnes**  
- Types de variables :  
  - **`float64`** (valeurs num√©riques r√©elles)  
  - **`int64`** (entiers)  
  - **`object`** (cha√Ænes de caract√®res)  

In [None]:
# Affichage des statistiques descriptives
df.describe()

### üìã Identification des types de donn√©es par colonne
Nous allons maintenant identifier les colonnes en fonction de leur type.

In [None]:
# liste des noms des colonnes de df : df.columns
# Contenu d'une colonne intitul√©e par exemple "AAV" : df["AAV"]
# Type de variable dans la colonne d'un dataframe : df["AAV"].dtype

# Colonnes contenant des valeurs num√©riques flottantes
float_cols = [c for c in df.columns if df[c].dtype == "float64"] # ["c" pour chaque "c" parmis les noms de colonnes de df dont les donn√©es sont des floats]

# Colonnes contenant des valeurs enti√®res
int_cols = [c for c in df.columns if df[c].dtype == "int64"]

# Colonnes contenant du texte ou des objets non d√©finis
object_cols = [c for c in df.columns if df[c].dtype == "object"]

print(f"Colonnes float :" , float_cols)
print(f"Colonnes int :" , int_cols)
print(f"Colonnes object : ", object_cols)
# En g√©n√©ral les donn√©es qui comportent du texte sont import√©es comme des objets. Si on veut les utiliser, il faut dire √† pandas que ce sont des string par exemple
# Il est important de savoir comment les donn√©es ont √©t√© collect√©es pour anticiper des probl√®mes

üìå Ici avoir un oeil d'"expert" sur les donn√©es s'av√®re utile : c'est normal que le Patient_ID soit consid√©r√© comme un int mais les colonnes de valeurs min qui sont sorties sont sans doute toutes √† z√©ro. On pourra donc les supprimer de la base.

## üîπ 2.2 Suppression des donn√©es inutiles

Toutes les donn√©es ne sont pas pertinentes pour l‚Äôanalyse.  
Nous appliquons plusieurs filtres pour **nettoyer la base** :

### üîç Suppression des lignes inutiles
‚úîÔ∏è **Suppression des donn√©es non issues de plans VMAT**  
‚úîÔ∏è **Filtrage par machine et algorithme de calcul**  
‚úîÔ∏è **Exclusion des valeurs non renseign√©es (not√©es `NR` dans la base au moment de la collecte)**  


On garde les donn√©es Novalis, en VMAT, l'algo AAA avec grille de calcul 0.25  
Dans cet exemple, on supprime √©galement les lignes o√π le code CIM est absent car par la suite on va filtrer les donn√©es pour ne garder que les localisations pelviennes.

In [None]:
# Suppression des techniques non pertinentes
df = df[df.Technique != 'DoseDynamic']  # On ne garde que les faisceaux VMAT

# Filtrage sur la machine utilis√©e
df = df[df.Machine == 'NOVALIS']

# Exclusion des faisceaux sans r√©sultats de CQ
df = df[df.Gamma22loc10 != 'NR']

# S√©lection des plans avec une grille de calcul sp√©cifique
df = df[df.Plan_CalcGrid == 0.25]

# Conservation uniquement des plans AAA (exclusion des plans Acuros)
df = df[df.Plan_ModeleCalc != 'Acuros_1610']

# Suppression des lignes sans code CIM
df = df[df.CIM != 'NR']


üìå **V√©rification apr√®s filtrage :**
Nous rev√©rifions les donn√©es apr√®s suppression des √©l√©ments non pertinents.


In [None]:
df.info()

### üîç Suppression des colonnes inutiles

Certaines colonnes ne sont plus n√©cessaires, nous allons donc les supprimer.

<div class="alert alert-block alert-danger">
<b>Attention:</b> La cellule ci-dessous ne peut √™tre ex√©cut√©e qu'une seule fois. La 2nde fois, elle affichera une erreur car les colonnes demand√©es ont d√©j√† √©t√© supprim√©es.
</div>

In [None]:
# Suppression des colonnes qui sont des objets ind√©finis √† part celle du code CIM
for c in df.columns:
    if c !='CIM' :
        if df[c].dtype == 'object':
            df = df.drop(columns=[c])

# Suppression des colonnes non pertinentes
df = df.drop(columns=['Patient_ID', 'Unnamed: 0', 'Plan_DoseParFraction', 'Plan_CalcGrid'])

# R√©initialisation de l'index du DataFrame apr√®s suppression de lignes
df = df.reset_index(drop=True) #l'option drop=True permet de supprimer la colonne qui est cr√©√©e par d√©faut sinon et qui comporte les anciens index

# Affichage des premi√®res lignes apr√®s nettoyage
df.head()

## üîπ 2.3 S√©lection des donn√©es pour une r√©gion sp√©cifique : Pelvis

Nous choisissons de ne conserver que les faisceaux dont les plans sont d√©di√©s aux **localisations pelviennes**.


In [None]:
# Liste des codes CIM correspondant aux localisations pelviennes
code_pelv = [
    'C18.7', 'C19', 'C20', 'C21.0', 'C21.1', 'C51.8', 'C51.9', 'C52', 'C53.0', 'C53.1',
    'C53.8', 'C53.9', 'C54.1', 'C54.8', 'C54.9', 'C56', 'C61', 'C62.9', 'C66', 'C67.8',
    'C67.9', 'C77.4', 'C77.5', 'C79.1', 'C79.3', 'C79.5', 'C82.9', 'D26.1'
]

# Conversion de la colonne CIM (object) en type string
df["CIM"] = df["CIM"].astype(str)

# Suppression des espaces parasites dans les codes CIM
df["CIM"] = df["CIM"].str.strip()

# Filtrage du DataFrame pour ne garder que les localisations pelviennes
df = df[df["CIM"].isin(code_pelv)]


<div class="alert alert-block alert-danger">
<b>Attention:</b> La cellule ci-dessous ne peut √™tre ex√©cut√©e qu'une seule fois. La 2nde fois, elle affichera une erreur car les colonnes demand√©es ont d√©j√† √©t√© supprim√©es.
</div>

In [None]:
# Une fois que le filtrage en fonction des codes CIM a √©t√© fait, on n'a plus besoin de cette colonne donc on la supprime
df = df.drop(columns = ["CIM"])

## üîπ 2.4 Suppression des doublons et des valeurs manquantes

Nous allons maintenant :   
‚úîÔ∏è Supprimer les **lignes dupliqu√©es**  
‚úîÔ∏è Supprimer les **lignes avec des valeurs manquantes**

>Dans notre exemple, la m√©thode la plus robuste pour g√©rer les valeurs manquantes est de supprimer les lignes concern√©es. Il faut cependant prendre garde que les lignes qui ont des valeurs manquantes n'ont pas une particularit√© commune qui pourrait biaiser la base de donn√©es finale si on les efface. Par exemple si il y a eu un bug de calcul d'une m√©trique pour tous les faisceaux avec une position de MLC particuli√®re. Si on les supprime simplement, on va supprimer de la base des donn√©es importantes. Il vaut donc mieux aller regarder de plus pr√®s les lignes o√π il y a des donn√©es manquantes ("not a number").   

>Selon les cas, il est √©galement possible de combler les √©ventuelles valeurs manquantes en leur attribuant une valeur (z√©ro, moyenne, m√©diane), des fonctions scikit-learn le font automatiquement.


In [None]:
# Suppression des lignes dupliqu√©es
df = df.drop_duplicates()

# Suppression des lignes contenant des valeurs manquantes
df = df.dropna()

# V√©rification de la taille finale du DataFrame
df.info()

## üíæ **Sauvegarde de la base pr√©-nettoy√©e en CSV**

Une fois les donn√©es filtr√©es, nous les enregistrons pour une utilisation future.

In [None]:
#La m√©thode "to_csv" appliqu√©e √† l'objet DataFrame df permet de sauver directement le dataframe en csv.
#Par d√©faut le s√©parateur est une virgule
df.to_csv('DataSet_RegionPelvienne.csv')

üìå **Un fichier CSV a √©t√© cr√©√© et est pr√™t pour les prochaines √©tapes du projet** üöÄ

<font size = 6>‚ö†Ô∏è</font>

**T√©l√©charger le fichier**