# Script de conversion des données au format SEBIA

Dans ce script, nous allons récupérer trois fichiers :

1. Un fichier `lemans_if_matUNNORMED.csv` qui contient les données X des courbes, *non normalisées*.
2. Un fichier `if_simple_y.csv` qui contient les annotations y textuelles
3. Un fichier `if_v1_y.npy` qui contient les annotations y étendues (segmentation)

*Il est à noter que ces trois fichiers contiennent le même nombre d'échantillons (1803) non identifiés mais listés dans le même ordre.*

Et on va convertir tout cela pour obtenir pour chaque échantillon du jeu de données :

1. Un fichier `.csv` contenant les données X et l'annotation textuelle
2. Un fichier `.csv` contenant les données Y et l'annotation textuelle

On va placer tous ces fichiers dans un même répertoire.

## 1. Chargement des données brutes

In [2]:
import os
import numpy as np
import pandas as pd
import re
from tqdm import tqdm

raw_data_path = r"C:\Users\admin\Documents\Capillarys\data\2021\ifs"

In [3]:
raw_data_X = pd.read_csv(os.path.join(raw_data_path, "lemans_if_matUNNORMED.csv"))

In [4]:
raw_data_X

Unnamed: 0,AID,iggk,iggl,igak,igal,igmk,igml,ELPx1,ELPx2,ELPx3,...,Lx291,Lx292,Lx293,Lx294,Lx295,Lx296,Lx297,Lx298,Lx299,Lx300
0,AAIDpO3qwDKX,0,0,0,0,1,0,0,4,4,...,90,91,92,93,94,96,98,101,103,0
1,AAIDUgPCI7Ge,1,0,0,0,0,0,0,0,0,...,142,142,142,142,143,144,146,148,150,0
2,AAIDcPcSDO5T,1,0,0,0,0,0,0,9,9,...,74,64,58,53,50,47,47,48,49,0
3,AAIDj0l8Lt4v,1,0,0,0,0,0,0,2,2,...,99,100,103,106,108,112,114,116,118,0
4,AAIDFbpCFUoq,1,0,0,0,0,0,0,1,1,...,61,61,61,61,61,61,62,62,63,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1798,AAIDSdma11d9,1,0,0,0,0,0,0,0,0,...,46,46,47,47,46,45,45,44,44,0
1799,AAIDH7CDm0d2,1,0,0,0,0,0,0,0,0,...,225,195,171,151,134,120,105,92,81,0
1800,AAIDv00UsP83,0,0,0,0,1,0,0,0,0,...,120,108,98,90,82,76,76,76,76,0
1801,AAID1fafk3bx,1,0,0,0,0,0,0,0,0,...,72,70,70,69,69,69,69,69,69,0


In [5]:
raw_data_Y_text = pd.read_csv(os.path.join(raw_data_path, "if_simple_y.csv"))

In [6]:
raw_data_Y_text

Unnamed: 0,Abnormality
0,Ig Mk
1,Ig Gk
2,Ig Gk
3,Ig Gk
4,Ig Gk
...,...
1798,Ig Gk
1799,Ig Gk
1800,Ig Mk
1801,Ig Gk


In [7]:
raw_data_Y_ext = np.load(os.path.join(raw_data_path, "if_v1_y.npy"))

In [8]:
raw_data_Y_ext.shape

(1803, 304, 5)

On va alors pouvoir compiler chaque échantillon dans deux fichiers `.csv`.

## 2. Conversion des données

On choisit en premier l'endroit où l'on va sauvegarder toutes les données :

In [9]:
clean_data_path = r"C:\Users\admin\Documents\Capillarys\data\2021\ifs\formatted_data"

Puis on va réaliser la conversion :

In [10]:
output_data = {}
output_data[" "]=["Labels"]
output_data[" "].extend([j for j in range(300)])
output_data_ext = {}
for i in tqdm(range(len(raw_data_X))):
    sample_data = raw_data_X.iloc[i,:]
    sample_id = sample_data[0]
    raw_label = raw_data_Y_text.iloc[i][0]
    if re.match("^Ig ([GAM])([kl])", raw_label) is not None:
        post_label = re.sub("^Ig ([GAM])([kl])$", "Ig\\1_\\2", raw_label)
        post_label = post_label[:-1]+post_label[-1].upper()
    else:
        post_label = raw_label
    for t,tracks in enumerate(zip(("ELPx","IgGx","IgAx","IgMx","Kx","Lx"),("-ELP","-G","-A","-M","-K","-L"))):
        list_of_cols = ["{}{}".format(tracks[0],j) for j in range(1,301)]
        track_name = "{}{}".format(sample_id,tracks[1])
        if t==0:
            output_data[track_name] = [post_label]
        else:
            output_data[track_name] = [""]
        output_data[track_name].extend(sample_data.loc[list_of_cols].tolist())
        if t>0: # extended annots
            ext_track_name = "{}{}-y".format(sample_id,tracks[1])
            output_data_ext[ext_track_name] = [""]
            ext_values = raw_data_Y_ext[i,...,t-1].astype(int)[::-1] # le [::-1] sert à inverser les annotations!
            output_data_ext[ext_track_name].extend(ext_values[2:-2])

100%|██████████| 1803/1803 [00:09<00:00, 198.18it/s]


In [10]:
# convert to dataframe           
tmp_df = pd.DataFrame(output_data)
tmp_df_ext = pd.DataFrame({**output_data, **output_data_ext})

# export
tmp_df.to_csv(os.path.join(clean_data_path, "angers_dataset_v1.csv"), index=False)
tmp_df_ext.to_csv(os.path.join(clean_data_path, "angers_dataset_extended_v1.csv"), index=False)