<a href="https://colab.research.google.com/github/mdelleani/neuro-next-bootcamp/blob/main/notebooks/01_Introduction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🐍 Introduzione a Python per la Ricerca in IA e Neurologia 🧠

**Sessione Interattiva | Parte I: Concetti Base di Python e Fondamenti di IA**

* **Tutor:** S. D'Amico
* **Docente:** Mattia Delleani
* **Orario:** 16:45 - 18:00

---

Benvenuti a questa sessione interattiva! L'obiettivo è fornire una base solida di programmazione Python e introdurre i concetti chiave dell'Intelligenza Artificiale e del Machine Learning, con un focus sulle loro applicazioni nella ricerca e pratica neurologica.

---

## 1. Perché Python per la ricerca medica e l'IA?

Python è diventato il linguaggio di riferimento per la scienza dei dati, il Machine Learning e l'Intelligenza Artificiale, e per ottime ragioni:

* **Sintassi Semplice e Leggibile:** Facile da imparare, anche per chi non ha esperienza di programmazione.
* **Ampia Libreria di Ecosistema:** Migliaia di librerie e framework pronti all'uso per analisi dati, visualizzazione, Machine Learning e Deep Learning.
* **Versatilità:** Usato in un'ampia gamma di settori, dalla neurologia all'economia, dalla web development alla robotica.
* **Comunità Vasta:** Molto supporto online, tutorial e risorse.
* **Compatibilità con la Ricerca Medica:** Strumenti specifici per l'elaborazione di immagini mediche (es. `nibabel`), analisi di segnali (es. `mne`), e modellazione statistica.


### Applicazioni in Neurologia:

* **Analisi di Dati EEG/MEG:** Elaborazione e interpretazione di segnali cerebrali.
* **Imaging Cerebrale:** Segmentazione, analisi e classificazione di immagini RM, TC, PET.
* **Diagnosi e Prognosi:** Sviluppo di modelli predittivi per malattie neurodegenerative (Alzheimer, Parkinson), ictus, epilessia.
* **Scoperta di Biomarcatori:** Analisi di dati genomici e proteomici.
* **Sviluppo di Farmaci:** Simulazioni e analisi di risposte ai trattamenti.


---
## 2. Fondamentali di Python

Iniziamo con gli "elementi costitutivi" del linguaggio.

### 2.1. Variabili e Tipi di Dati

Una variabile è un contenitore per memorizzare dati. In Python non è necessario dichiarare il tipo di dato, viene inferito automaticamente.



In [1]:
# Variabili numeriche
eta_paziente = 65
peso_kg = 72.5
temperatura_c = 37.0

# Variabili di testo (stringhe)
nome_paziente = "Mario Rossi"
diagnosi = "Sclerosi Multipla"

# Variabili booleane (Vero/Falso)
ha_precedenti_familiari = True
risposta_terapia = False

# Stampa i tipi di dati
print(f"Tipo di eta_paziente: {type(eta_paziente)}")
print(f"Tipo di peso_kg: {type(peso_kg)}")
print(f"Tipo di diagnosi: {type(diagnosi)}")
print(f"Tipo di ha_precedenti_familiari: {type(ha_precedenti_familiari)}")

# Esempio di stampa delle variabili
print(f"\nIl paziente {nome_paziente} ha {eta_paziente} anni.")
print(f"La sua diagnosi è: {diagnosi}.")

Tipo di eta_paziente: <class 'int'>
Tipo di peso_kg: <class 'float'>
Tipo di diagnosi: <class 'str'>
Tipo di ha_precedenti_familiari: <class 'bool'>

Il paziente Mario Rossi ha 65 anni.
La sua diagnosi è: Sclerosi Multipla.


### 2.2 Strutture di Controllo: Condizioni (if/elif/else) e Cicli (for/while)

Queste strutture permettono al nostro codice di prendere decisioni e ripetere operazioni.

**Condizioni** (if/elif/else)

In [2]:
punteggio_mmse = 24 # Mini Mental State Examination

if punteggio_mmse < 20:
    print("Sospetto deficit cognitivo severo.")
elif punteggio_mmse >= 20 and punteggio_mmse < 25:
    print("Sospetto deficit cognitivo lieve-moderato.")
else:
    print("Funzioni cognitive nella norma per l'età.")

# Esempio con un'altra variabile
livello_proteina = 0.8 # in ng/mL
soglia_allarme = 1.0

if livello_proteina > soglia_allarme:
    print("Livello proteina superiore alla soglia di allarme. Richiede attenzione.")
else:
    print("Livello proteina nella norma.")

Sospetto deficit cognitivo lieve-moderato.
Livello proteina nella norma.


**Cicli** (for)

Utili per iterare su sequenze di elementi.

In [3]:
farmaci_prescritti = ["Levodopa", "Carbidopa", "Entacapone"]

print("Farmaci prescritti al paziente:")
for farmaco in farmaci_prescritti:
    print(f"- {farmaco}")

# Iterare sui numeri (es. giorni di osservazione)
print("\nRegistrazioni giornaliere:")
for giorno in range(1, 6): # da 1 a 5
    print(f"Giorno {giorno}: Dati registrati.")

Farmaci prescritti al paziente:
- Levodopa
- Carbidopa
- Entacapone

Registrazioni giornaliere:
Giorno 1: Dati registrati.
Giorno 2: Dati registrati.
Giorno 3: Dati registrati.
Giorno 4: Dati registrati.
Giorno 5: Dati registrati.


**Cicli** (while)

Utili quando non si sa a priori quante volte si deve ripetere un'operazione.

In [4]:
# Simulazione di un campionamento dati fino a che non si raggiunge un numero sufficiente
dati_raccolti = 0
dati_necessari = 5

print("\nInizio raccolta dati:")
while dati_raccolti < dati_necessari:
    dati_raccolti += 1 # Incrementa di 1
    print(f"Dati raccolti: {dati_raccolti}")
print("Raccolta dati completata.")


Inizio raccolta dati:
Dati raccolti: 1
Dati raccolti: 2
Dati raccolti: 3
Dati raccolti: 4
Dati raccolti: 5
Raccolta dati completata.


### 2.3. Funzioni: Definire e Utilizzare

Le funzioni sono blocchi di codice riutilizzabili che eseguono un compito specifico. Aiutano a organizzare il codice e renderlo più leggibile

In [6]:
# Funzione per calcolare l'indice di massa corporea (BMI)
def calcola_bmi(peso_kg, altezza_cm):
    """
    Calcola l'Indice di Massa Corporea (BMI).
    peso_kg: peso in chilogrammi
    altezza_cm: altezza in centimetri
    """
    altezza_metri = altezza_cm / 100
    bmi = peso_kg / (altezza_metri ** 2)
    return bmi

# Funzione per classificare il BMI
def classifica_bmi(bmi_valore):
    if bmi_valore < 18.5:
        return "Sottopeso"
    elif 18.5 <= bmi_valore < 25:
        return "Normopeso"
    elif 25 <= bmi_valore < 30:
        return "Sovrappeso"
    else:
        return "Obeso"

In [7]:
# Utilizzo delle funzioni
paziente_peso = 70
paziente_altezza = 175

bmi_paziente = calcola_bmi(paziente_peso, paziente_altezza)
classificazione = classifica_bmi(bmi_paziente)

print(f"\nIl paziente con peso {paziente_peso} kg e altezza {paziente_altezza} cm ha un BMI di: {bmi_paziente:.2f}")
print(f"Classificazione BMI: {classificazione}")


Il paziente con peso 70 kg e altezza 175 cm ha un BMI di: 22.86
Classificazione BMI: Normopeso


### 2.4. Strutture Dati (Liste, Tuple, Dizionari, Set)

Queste strutture ci permettono di organizzare collezioni di dati.

**Liste** (mutabili, ordinate, permettono duplicati)

In [8]:
# Lista di sintomi
sintomi_paziente = ["cefalea", "vertigini", "nausea", "cefalea"]
print(f"\nLista sintomi: {sintomi_paziente}")

# Aggiungere un elemento
sintomi_paziente.append("affaticamento")
print(f"Lista sintomi aggiornata: {sintomi_paziente}")

# Accedere a un elemento
print(f"Primo sintomo: {sintomi_paziente[0]}") # Indice 0
print(f"Ultimo sintomo: {sintomi_paziente[-1]}") # Indice -1


Lista sintomi: ['cefalea', 'vertigini', 'nausea', 'cefalea']
Lista sintomi aggiornata: ['cefalea', 'vertigini', 'nausea', 'cefalea', 'affaticamento']
Primo sintomo: cefalea
Ultimo sintomo: affaticamento


**Tuple** (immutabili, ordinate, permettono duplicati)

Utili per dati che non devono essere modificati dopo la creazione.

In [9]:
# Tupla di coordinate di un punto cerebrale (x, y, z)
coordinate_lesione = (45, 23, 10)
print(f"\nCoordinate lesione: {coordinate_lesione}")

# Non è possibile modificare una tupla: coordinate_lesione[0] = 50 darà errore!


Coordinate lesione: (45, 23, 10)


**Dizionari** (mutabili, non ordinati prima di Python 3.7, chiave-valore)

Ideali per rappresentare dati strutturati, come record di pazienti.

In [10]:
# Dati di un paziente in un dizionario
dati_paziente_dict = {
    "ID": "PZ001",
    "Nome": "Anna",
    "Cognome": "Verdi",
    "Età": 58,
    "Diagnosi": "Morbo di Alzheimer",
    "Farmaci": ["Donepezil", "Memantina"]
}
print(f"\nDati paziente (Dizionario): {dati_paziente_dict}")

# Accedere a un valore tramite chiave
print(f"Diagnosi del paziente: {dati_paziente_dict['Diagnosi']}")

# Aggiungere una nuova chiave-valore
dati_paziente_dict["Data_diagnosi"] = "2023-01-15"
print(f"Dati paziente aggiornati: {dati_paziente_dict}")


Dati paziente (Dizionario): {'ID': 'PZ001', 'Nome': 'Anna', 'Cognome': 'Verdi', 'Età': 58, 'Diagnosi': 'Morbo di Alzheimer', 'Farmaci': ['Donepezil', 'Memantina']}
Diagnosi del paziente: Morbo di Alzheimer
Dati paziente aggiornati: {'ID': 'PZ001', 'Nome': 'Anna', 'Cognome': 'Verdi', 'Età': 58, 'Diagnosi': 'Morbo di Alzheimer', 'Farmaci': ['Donepezil', 'Memantina'], 'Data_diagnosi': '2023-01-15'}


**Set** (mutabili, non ordinati, non permettono duplicati)

Utili per collezioni uniche di elementi.

In [11]:
# Sintomi unici (rimuove i duplicati)
sintomi_unici = set(sintomi_paziente)
print(f"\nSet di sintomi unici: {sintomi_unici}")

# Aggiungere un elemento
sintomi_unici.add("febbre")
print(f"Set di sintomi dopo aggiunta: {sintomi_unici}")


Set di sintomi unici: {'nausea', 'vertigini', 'affaticamento', 'cefalea'}
Set di sintomi dopo aggiunta: {'cefalea', 'affaticamento', 'vertigini', 'febbre', 'nausea'}


## 3. Introduzione all'Analisi Dati con Python
Per l'analisi dei dati in Python, ci affidiamo a potenti librerie.



### 3.1. Panoramica sulle Librerie Chiave: NumPy e Pandas

- **NumPy** (Numerical Python): La base per il calcolo numerico in Python. Offre strutture dati efficienti (array multi-dimensionali) e funzioni per operazioni matematiche su di essi. Essenziale per l'algebra lineare, trasformate, ecc. \

- **Pandas** (Panel Data): Costruita su NumPy, fornisce strutture dati flessibili e potenti per lavorare con dati tabellari (simili a fogli di calcolo o tabelle di database). I suoi oggetti principali sono Series (colonne) e DataFrame (tabelle).

In [12]:
import numpy as np # Convenzione per importare NumPy
import pandas as pd # Convenzione per importare Pandas

# Esempio NumPy: Creare un array di misurazioni
pressione_sistolica = np.array([120, 125, 118, 130, 122])
print(f"\nArray NumPy pressione sistolica: {pressione_sistolica}")
print(f"Media pressione: {np.mean(pressione_sistolica):.2f}")
print(f"Deviazione standard pressione: {np.std(pressione_sistolica):.2f}")








Array NumPy pressione sistolica: [120 125 118 130 122]
Media pressione: 123.00
Deviazione standard pressione: 4.20

DataFrame dei dati clinici:
  ID_Paziente  Età Sesso Diagnosi  MMSE
0        P001   60     M       AD    22
1        P002   75     F       PD    25
2        P003   68     M       AD    18
3        P004   55     F       HD    28

Prime 2 righe del DataFrame:
  ID_Paziente  Età Sesso Diagnosi  MMSE
0        P001   60     M       AD    22
1        P002   75     F       PD    25

Informazioni sul DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ID_Paziente  4 non-null      object
 1   Età          4 non-null      int64 
 2   Sesso        4 non-null      object
 3   Diagnosi     4 non-null      object
 4   MMSE         4 non-null      int64 
dtypes: int64(2), object(3)
memory usage: 292.0+ bytes

Statistiche descrittive della col

In [13]:
# Esempio Pandas: Creare un DataFrame da un dizionario
dati_clinici = {
    'ID_Paziente': ['P001', 'P002', 'P003', 'P004'],
    'Età': [60, 75, 68, 55],
    'Sesso': ['M', 'F', 'M', 'F'],
    'Diagnosi': ['AD', 'PD', 'AD', 'HD'],
    'MMSE': [22, 25, 18, 28]
}
df_pazienti = pd.DataFrame(dati_clinici)
print("\nDataFrame dei dati clinici:")
df_pazienti



DataFrame dei dati clinici:


Unnamed: 0,ID_Paziente,Età,Sesso,Diagnosi,MMSE
0,P001,60,M,AD,22
1,P002,75,F,PD,25
2,P003,68,M,AD,18
3,P004,55,F,HD,28


In [14]:
# Visualizzare le prime righe
print("\nPrime 2 righe del DataFrame:")
df_pazienti.head(2)


Prime 2 righe del DataFrame:


Unnamed: 0,ID_Paziente,Età,Sesso,Diagnosi,MMSE
0,P001,60,M,AD,22
1,P002,75,F,PD,25


In [15]:
# Visualizzare informazioni sul DataFrame
print("\nInformazioni sul DataFrame:")
df_pazienti.info()


Informazioni sul DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ID_Paziente  4 non-null      object
 1   Età          4 non-null      int64 
 2   Sesso        4 non-null      object
 3   Diagnosi     4 non-null      object
 4   MMSE         4 non-null      int64 
dtypes: int64(2), object(3)
memory usage: 292.0+ bytes


In [16]:


# Statistiche descrittive
print("\nStatistiche descrittive della colonna 'Età':")
df_pazienti['Età'].describe()


Statistiche descrittive della colonna 'Età':


Unnamed: 0,Età
count,4.0
mean,64.5
std,8.812869
min,55.0
25%,58.75
50%,64.0
75%,69.75
max,75.0


In [17]:
# Selezione di colonne
print("\nSolo colonna 'Diagnosi':")
df_pazienti['Diagnosi']


Solo colonna 'Diagnosi':


Unnamed: 0,Diagnosi
0,AD
1,PD
2,AD
3,HD


In [18]:
# Filtro dati (es. pazienti con MMSE < 20)
pazienti_basso_mmse = df_pazienti[df_pazienti['MMSE'] < 20]
print("\nPazienti con MMSE < 20:")
pazienti_basso_mmse


Pazienti con MMSE < 20:


Unnamed: 0,ID_Paziente,Età,Sesso,Diagnosi,MMSE
2,P003,68,M,AD,18


## 4. Principi base dell'IA e Machine Learning
Questa sezione introdurrà i concetti fondamentali che stanno alla base dell'Intelligenza Artificiale (IA) e del Machine Learning (ML), specificamente nel contesto delle loro applicazioni in neurologia.

### 4.1. Cosa sono IA e ML e come si relazionano con la ricerca in neurologia

- **Intelligenza Artificiale (IA)**: È un campo vasto dell'informatica che mira a creare macchine o sistemi capaci di svolgere compiti che, se eseguiti da esseri umani, richiederebbero intelligenza. Questo include ragionamento, apprendimento, percezione, comprensione del linguaggio e problem solving.
 - **In Neurologia**: L'IA può supportare la diagnosi precoce (es. Alzheimer da scansioni cerebrali), la personalizzazione dei trattamenti, la previsione della progressione di malattie e l'analisi di pattern complessi nei dati neuroscientifici.

- **Machine Learning** (ML - Apprendimento Automatico): È una sotto-disciplina dell'IA. Invece di programmare esplicitamente ogni regola, il ML permette ai sistemi di "imparare" dai dati. Vengono forniti grandi set di dati e il sistema identifica autonomamente pattern, fa previsioni o prende decisioni. È come insegnare mostrando esempi.
 - **In Neurologia**: Il ML è cruciale per analizzare coorti di pazienti, scoprire biomarcatori da dati multimodali (es. genetica + imaging), prevedere la risposta a farmaci (es. nell'epilessia), o segmentare automaticamente le lesioni cerebrali.

### 4.2. Introduzione al concetto di Modello e Algoritmo

Questi due termini sono centrali nel Machine Learning e, sebbene correlati, rappresentano concetti distinti.

**Modello** (Il "cervello" addestrato che fa previsioni)

- **Cos'è**: Immaginate il modello come il risultato finale del processo di apprendimento. Non è solo la sua architettura (la sua struttura di base, come una rete neurale con i suoi strati e connessioni), ma è l'architettura addestrata. È la struttura che ha "imparato" dai dati, con tutti i suoi "pesi" e "bias" (i parametri interni che sono stati regolati durante l'apprendimento) che le permettono di prendere decisioni o fare previsioni su nuovi dati.
 - **Analogia Medica**: Pensate a un medico esperto. Il modello è l'insieme delle sue conoscenze consolidate, la sua capacità di riconoscere una malattia dai sintomi, di interpretare un'immagine diagnostica, o di prevedere una prognosi, basandosi su anni di esperienza e dati clinici acquisiti. È il "motore predittivo" pronto all'uso.
- **In pratica**: Se un modello è stato addestrato per riconoscere i segni precoci della demenza da un pattern di atrofia cerebrale su una RM, quando gli presentate una nuova risonanza, è il modello (con i suoi parametri interni ottimizzati) che la analizza e vi fornisce una predizione o una classificazione.

**L'Algoritmo** (La "ricetta" o il "processo" per addestrare il Modello)

- **Cos'è**: L'algoritmo è il processo, la procedura o la ricetta che viene utilizzata per costruire o addestrare il modello a partire dai dati. È l'insieme di istruzioni passo-passo che il computer segue per imparare. Non è il risultato finale, ma il "metodo" per arrivarci.
  - Analogia Medica: Riprendendo l'esempio del medico, l'algoritmo è il metodo di studio che ha seguito: i libri letti, i corsi frequentati, i tirocini in ospedale, le ore di pratica e supervisione. È il processo iterativo attraverso cui ha imparato a distinguere tra diverse patologie, a raffinare la sua diagnosi e a migliorare le sue previsioni.
- **Componenti dell'Algoritmo di Addestramento**: Quando parliamo di algoritmo nel contesto del Machine Learning, spesso ci riferiamo all'algoritmo di addestramento che regola i parametri del modello. Questi includono:
  - **Funzione di Loss (o Costo)**: Una misura numerica di quanto il modello sta sbagliando rispetto alla "verità" dei dati di addestramento. L'obiettivo dell'algoritmo è minimizzare questa "perdita".
  - **Ottimizzatore:** L'algoritmo matematico che decide come modificare i parametri interni del modello (i pesi) per ridurre la funzione di loss. Esempi comuni sono la Discesa del Gradiente (Gradient Descent) e le sue varianti (Adam, RMSprop).
  - **Learning Rate:** Un parametro dell'ottimizzatore che determina la "dimensione del passo" con cui i parametri del modello vengono aggiornati in ogni iterazione. Un learning rate troppo alto può far "saltare" l'ottimizzazione, uno troppo basso può renderla estremamente lenta.
  - **Epoche:** Il numero di volte che l'intero dataset di addestramento viene mostrato all'algoritmo. Ogni epoca è un ciclo completo di apprendimento sul dataset. Più epoche di solito significano più apprendimento, ma anche rischio di overfitting.
- **La Relazione**: L'algoritmo (la ricetta) prende i dati (gli ingredienti) e un'architettura iniziale, e li usa per addestrare un modello (il piatto finale). Una volta addestrato, il modello è pronto per fare previsioni su nuovi dati.

#### Esempio Concettuale: Classificazione di pazienti (Sano/Malato)

Immaginiamo di voler creare un modello che classifichi i pazienti come "Sani" o "Malati" basandosi su alcuni biomarcatori.

- **Dati**: Avremmo un dataset di pazienti con i loro biomarcatori e l'etichetta "Sano" o "Malato".
- **Algoritmo di Apprendimento**: Potremmo scegliere un algoritmo come la "Regressione Logistica" o un "Albero Decisionale". Questo algoritmo definisce come il modello verrà costruito.
- **Processo di Addestramento:**
  - L'algoritmo analizza i dati.
  - In base a una funzione di loss, calcola quanto le sue previsioni iniziali sono lontane dalla realtà.
  - L'ottimizzatore (guidato dal learning rate) regola i "pesi" del modello per ridurre la loss.
  - Questo processo si ripete per diverse epoche.
- **Modello Finale**: Alla fine dell'addestramento, otteniamo un modello addestrato. Questo modello è ora capace di prendere i biomarcatori di un nuovo paziente (che non ha mai visto) e predire se è "Sano" o "Malato" con una certa probabilità.

In [19]:
# Piccola dimostrazione concettuale (senza training reale, solo per illustrare l'idea)
from sklearn.linear_model import LogisticRegression
import numpy as np

# Supponiamo di avere dati di esempio:
# Caratteristiche (es. biomarcatori X1, X2) e etichette (0=Sano, 1=Malato)
X = np.array([
    [1.2, 0.5],
    [2.1, 1.8],
    [0.9, 0.3],
    [2.5, 2.0],
    [1.0, 0.6]
])
y = np.array([0, 1, 0, 1, 0])

# L'Algoritmo (in questo caso, Logistic Regression)
# Questo è l'oggetto che useremo per addestrare il nostro modello
algoritmo_classificazione = LogisticRegression()

# Il processo di "apprendimento" o "addestramento" del modello
# Qui l'algoritmo "impara" dai dati X e dalle etichette y
print("Addestramento del modello...")
modello_addestrato = algoritmo_classificazione.fit(X, y)
print("Modello addestrato con successo!")

# Il Modello (ora possiamo usarlo per fare previsioni su nuovi dati)
nuovi_dati_paziente = np.array([[1.5, 0.7]]) # Un nuovo paziente con nuovi biomarcatori

predizione = modello_addestrato.predict(nuovi_dati_paziente)
probabilita = modello_addestrato.predict_proba(nuovi_dati_paziente)

print(f"\nNuovi dati paziente: {nuovi_dati_paziente}")
print(f"Predizione (0=Sano, 1=Malato): {predizione[0]}")
print(f"Probabilità (Sano, Malato): {probabilita[0]}")

# Nota: In un caso reale, avremmo bisogno di molti più dati e un processo di validazione robusto!

Addestramento del modello...
Modello addestrato con successo!

Nuovi dati paziente: [[1.5 0.7]]
Predizione (0=Sano, 1=Malato): 0
Probabilità (Sano, Malato): [0.69270307 0.30729693]
