In [9]:
import pandas as pd
import matplotlib.pyplot as plt
import os

In [10]:
csv = pd.read_csv("ADNIMERGE_29Nov2024.csv")

csv.columns

  csv = pd.read_csv("ADNIMERGE_29Nov2024.csv")


Index(['RID', 'COLPROT', 'ORIGPROT', 'PTID', 'SITE', 'VISCODE', 'EXAMDATE',
       'DX_bl', 'AGE', 'PTGENDER',
       ...
       'PTAU_bl', 'FDG_bl', 'PIB_bl', 'AV45_bl', 'FBB_bl', 'Years_bl',
       'Month_bl', 'Month', 'M', 'update_stamp'],
      dtype='object', length=116)

<b>ANALISI DELLE FEATURES</b>

<b>APOE4</b>: il gene <i>APOE</i> è fattore di rischio per l'Alzheimer, presente nel cromosoma 19. La Variante 4 è associata, nello specifico, a un rischio più alto di sviluppare la malattia. <br>
La combinazione dei <u>3 biomarkers</u> aumenta l'accuratezza diagnostica:<br>
<b>ABETA</b>: biomarcatore di neuroimaging x diagnosi dell'alzheimer. Indica la presenza di beta-amiloide nel cervello (un accumulo di cui è caratteristica l'Alzheimer). L'accumulo avviene nella corteccia, nel bulbo olfattivo e nell'ippocampo. <br>
<b>TAU</b>: proteina (prodotta naturalmente dall'organismo che contribuisce al funzionamento dei neuroni), per monitorare il decorso della malattia<br>
<b>PTAU</b>: forma fosforilata (anomala) della proteina TAU. Può monitorare la transizione tra il decadimento cognitivo lieve (MCI) e la demenza. La PTAU è considerata la più utile per la ricerca e l'uso clinico. Quindi è la più studiata per la diagnosi precoce di Alzheimer. La misura di tale proteina si misura col <i>CSF</i> (un test immunologico). Identifica i pazienti con rischio di progressione verso l'Alzheimer. <br>
Tali marcatori proteici possono essere utilizzati per supportare la diagnosi differenziale delle demenze in uno stadio precoce. <br> 
<b>TRABSCORE</b>: un esame del sangue per la misurazione della quantità di anticorpi relativi alla tiroide<br>
<b>FDG</b>: la sostanza radioattiva (radiofarmaco da somministrare per via endovenosa) più comunemente usata x la <i>PET</i> (uno zucchero semplice come il glucosio), il <u>fluorodesossiglucosio</u>. Viene iniettato nel flusso sanguigno e si accumula nel corpo dove emette energia. Questa energia viene rilevata dallo scanner PET che crea immagini che mostrano il funzionamento dei tessuti e degli organi. Un test di imaging di medicina nucleare in cui una sostanza leggermente radioattiva viene iniettata nel corpo e viene utilizzata per diagnosticare una varietà di malattie. Questo esame di medicina nucleare permette di valutare il metabolismo di un organo/tessuto. Però oltre a valutare il comportmaneto metabolico di un tumore, per esempio, serve per valutare malattie neurodegenerative (Alzheimer o Demenza). <br>
<b>PIB</b>: è un altro tracciante usato x la PET (Pittsburgh compound B). <br>
<b>AV45</b> e <b>FBB</b><br>
<b>CDRSB</b>: Clinical Dementia Rating Scale <br>
<b>ADAS11, ADAS13, ADASQ4</b>: Alzheimer's Disease Assessment Scale <br>
<b>MMSE</b>: Mini-Mental State Examination <br>
<b>RAVLT_imm, RAVLT_learn, RAVLT_forg, RAVLT_perc-forg</b>: Rey's Auditory Verbal Learning Test <br>
<b>MOCA</b>: Montreal Cognitive Assessment <br>
<b>ECog</b>: The Measurement of Everyday Cognition <br>
<b>mPACCdigit</b>: the Predictional/Preclinical Alzheimer Cognitive Composite con Digit Symbol Test <br>
<b>mPACCtrailsB</b>: con trail test B neuropsicologico sulla capacità di seguire numeri e lettere<br>
<b>DIGITSCORE</b>: test neuropsicologico che misura la memoria di lavoro a breve termine. Vengono presentati dei numeri in sequenza, il soggetto deve ripetere i numeri nello stesso ordine: se riesce, un altro numero viene aggiunto alla sequenza; se sbaglia, perde una possibilità. <br>
<b>TRABSCORE</b>: Trail Making Test, parte B.<br>
<b>LDELTOTAL</b>: Logical Memory<br>
<b>FLDSTRENG</b>: MRI Field Strength -> the field strength of an MRI scanner is measured in teslas (T) and refers to the strength of the magnet inside the scanner. <br>
<b>FSVERSION</b>: software di imaging cerebrale --> una serie di programmi x analizzare le scansioni di risonanze magnetiche.<br>
<b>IMAGEUID</b>: è una tecnica di generazione di immagini usata prevalentemente a scopi diagnostici in campo medico.

<b>CATEGORIE</b><br>
<i>SOCIO-AMBIENTALI</i>: AGE, PTGENDER, PTEDUCAT, PTETHCAT, PTRACCAT, PTMARRY <br>
<i>PSICOLOGICHE</i>: CDRSB, ADAS11, ADAS13, ADASQ4, MMSE, RAVLT_imm, RAVLT_forg, RAVLT_perc_forg, LDELTOTAL, DIGITSCOR, TRABSCOR, FAQ, MOCA, ECOGPTMEM, ECOGPTLANG, ECOGPTPLAN, ECOGPTORGAN, ECOGSPTTOTAL, ECOGPTVISSPAT, ECOGSPMEM, ECOGSPLANG, ECOGSPVISSAT, ECOGSPPLAN, ECOGSPORGAN, ECOGSPDIVATT, ECOGSPTOTAL, mPACCdigit, mPACCtrailsB <br>
<i>GENETICHE/BIOMARCATORI</i>: APOE4; <u>biomarkers non strettamente genetici</u>: ABETA, TAU, PTAU <br>
<i>PET (TAC)</i>: FDG, PIB, AV45, FBB <br>
<i>MRI</i>: FLDSTRENG, FSVERSION, IMAGEUID, Ventricles, Hippocampus, WholeBrain, Entorhinal, Fusiform, MidTemp, ICV <br>
<i>6^ CATEGORIA</i>: PTID, VISCODE, DX

Considerazioni finali: FLDSTRENG, FSVERSION e IMAGEU vanno droppate dalla categoria MRI.

In [11]:
csv["PIB"].isnull().sum()

np.int64(16198)

<b>N.B.</b><br> 
PIB 99% MISSING VALUES, <br>
AV45 81% M.V., <br>
FBB 97% M.V., <br>
ABETA 86% M.V., <br>
TAU 86% M.V., <br>
PTAU 86% M.V <br>
Probabilmente, queste colonne verranno droppate perchè superano la soglia dell'80% di missing values.

In [12]:
#un dizionario di tutte le sotto-categorie
categories = {
    "socio_ambientali": [
        'PTID', 'VISCODE' 'AGE', 'PTGENDER', 'PTEDUCAT', 
        'PTETHCAT', 'PTRACCAT', 'PTMARRY'
    ],
    "psicologiche": [
        'PTID', 'VISCODE', 'CDRSB', 'ADAS11', 'ADAS13', 'ADASQ4', 'MMSE', 'RAVLT_immediate', 
        'RAVLT_learning', 'RAVLT_forgetting', 'RAVLT_perc_forgetting', 'LDELTOTAL', 
        'DIGITSCOR', 'TRABSCOR', 'FAQ', 'MOCA', 'EcogPtMem', 'EcogPtLang', 
        'EcogPtVisspat', 'EcogPtPlan', 'EcogPtOrgan', 'EcogPtDivatt', 'EcogPtTotal', 
        'EcogSPMem', 'EcogSPLang', 'EcogSPVisspat', 'EcogSPPlan', 'EcogSPOrgan', 
        'EcogSPDivatt', 'EcogSPTotal', 'mPACCdigit', 'mPACCtrailsB', 
        'CDRSB_bl', 'ADAS11_bl', 'ADAS13_bl', 'ADASQ4_bl', 'MMSE_bl', 'RAVLT_immediate_bl', 'RAVLT_learning_bl', 
        'RAVLT_forgetting_bl', 'RAVLT_perc_forgetting_bl', 'LDELTOTAL_BL', 
        'DIGITSCOR_bl', 'TRABSCOR_bl', 'FAQ_bl', 'MOCA_bl', 'EcogPtMem_bl', 
        'EcogPtLang_bl', 'EcogPtVisspat_bl', 'EcogPtPlan_bl', 'EcogPtOrgan_bl', 
        'EcogPtDivatt_bl', 'EcogPtTotal_bl', 'EcogSPMem_bl', 'EcogSPLang_bl', 
        'EcogSPVisspat_bl', 'EcogSPPlan_bl', 'EcogSPOrgan_bl', 'EcogSPDivatt_bl', 
        'EcogSPTotal_bl'
    ],
    "genetiche": [
        'PTID', 'VISCODE', 'APOE4', 'ABETA', 'TAU', 'PTAU',
        'ABETA_bl', 'TAU_bl', 'PTAU_bl',
    ],
    "PET": [
        'PTID', 'VISCODE', 'FDG', 'PIB', 'AV45', 'FBB', 'FDG_bl', 'PIB_bl', 'AV45_bl', 'FBB_bl'
    ],
    "MRI": [
        'PTID', 'VISCODE', 'Ventricles', 'Hippocampus', 'WholeBrain', 'Entorhinal', 'Fusiform', 
        'MidTemp', 'ICV', 'Ventricles_bl', 'Hippocampus_bl', 'WholeBrain_bl', 
        'Entorhinal_bl', 'Fusiform_bl', 'MidTemp_bl', 'ICV_bl'
        #'IMAGEUID', 'IMAGEUID_bl', 'FLDSTRENG', 'FSVERSION', 'FLDSTRENG_bl', 'FSVERSION_bl'
    ],
    "6^CATEGORIA": [
        'PTID', 'VISCODE', 'DX'
    ]
}

#def split_and_save(csv, categories, output_dir="output"):
    # Crea la directory di output se non esiste
#    os.makedirs(output_dir, exist_ok=True)  
    
#    for category_name, columns in categories.items():
        # Filtra le colonne 
#        valid_columns = [col for col in columns if col in csv.columns]
#        if valid_columns:
#            # Crea il sotto-dataset
#            subset = csv[valid_columns]
#            # Salva il sotto-dataset in un file CSV (che contiene solo le colonne pertinenti)
#            output_path = os.path.join(output_dir, f"{category_name}.csv")
#            subset.to_csv(output_path, index=False)
#            print(f"Salvato: {output_path}")
#        else:
            # se nel dataset non ci sono le colonne pertinenti
#            print(f"Nessuna colonna pertinente trovata per la rispettiva  categoria: {category_name}")

# Esegui lo splitting e salva i file
#split_and_save(csv, categories)

def split(csv, categories):
    output = {}
    for category_name, columns in categories.items():
        # Filtro le colonne che esistono nel dataset
        valid_columns = [col for col in columns if col in csv.columns]
        if valid_columns:
            output[category_name] = csv[valid_columns]
        else:
            print(f"Nessuna colonna pertinente trovata per la categoria: {category_name}")
    return output

def save(subsets, output_dir="output2"):
    # Crea la directory di output se non esiste
    os.makedirs(output_dir, exist_ok=True)  
    
    for category_name, subset in subsets.items():
        # Salva il sotto-dataset in un file CSV nella directory
        output_path = os.path.join(output_dir, f"{category_name}.csv")
        subset.to_csv(output_path, index=False)
        print(f"Salvato: {output_path}")

output = split(csv, categories)

save(output, output_dir="output2")

Salvato: output2\socio_ambientali.csv
Salvato: output2\psicologiche.csv
Salvato: output2\genetiche.csv
Salvato: output2\PET.csv
Salvato: output2\MRI.csv
Salvato: output2\6^CATEGORIA.csv
