# Notebook 1 – Analisi e contesto

Questo notebook contiene l’analisi preliminare dei dati sulla temperatura a Bologna, le temperature pericolose e la demografica che ci interessa di Bologna e la definizione del contesto del progetto.

Progettazione, dati open, personae, user stories, use case, product canvas


# **Temperature moderate ed estreme e rischio climatico-sanitario a Bologna: uno studio data-driven sul rischio climatico**

## Metodologia per l’Analisi delle Temperature Estreme

Il nostro progetto si basa su evidenze scientifiche presentate negli studi di Gasparrini et al. (2015), i quali mostrano che:

- Non solo gli eventi estremi (es. ondate di calore o gelo) causano mortalità, ma anche giornate **moderatamente calde o fredde** hanno un impatto significativo sulla salute pubblica.
- Le temperature ottimali (minima mortalità) si collocano spesso oltre il percentile 80 o 85 della distribuzione locale.
- Le soglie per definire "caldo estremo" e "freddo estremo" non sono fisse ma dipendono dal clima locale e vengono calcolate sui percentili:
    - Extreme cold: temperature < 2,5° percentile
    - Moderate cold: tra 2,5° percentile e temperatura ottimale
    - Moderate heat: tra temperatura ottimale e 97,5° percentile
    - Extreme heat: temperature > 97,5° percentile

**Obiettivi della nostra analisi:**

1. Calcolare i percentili chiave sulla distribuzione della temperatura di Bologna.
2. Classificare ogni giorno in una categoria termica (moderate/extreme heat/cold).
3. Analizzare la frequenza dei giorni in ciascuna categoria.
4. Incrociare queste informazioni con i dati di mortalità per verificare se:
    - Le morti siano più frequenti in giornate moderate rispetto agli estremi.
    - Esistano differenze tra le stagioni.
    - Luciana e altre persone vulnerabili siano esposte a rischi nascosti in giornate non estreme.

Questa metodologia consente di realizzare uno strumento di allerta climatico-sanitario basato su soglie locali, in linea con quanto indicato dagli studi epidemiologici più recenti.


### Determinazione della Temperatura Ottimale (OT) in assenza di dati di mortalità

La metodologia classica per l'analisi del rischio climatico-sanitario prevede l'individuazione della **Temperatura Ottimale (OT)**, ossia il valore termico associato alla minima mortalità. Tuttavia, nel caso di Bologna, **non disponiamo di dati epidemiologici locali** che colleghino direttamente la mortalità quotidiana alle variazioni di temperatura.  

**Per questa ragione, abbiamo adottato un approccio alternativo, data-driven, per stimare la OT**, basato esclusivamente sulla distribuzione statistica delle temperature osservate nel nostro dataset storico (2019-2025).  

In particolare:
- abbiamo analizzato la distribuzione delle temperature medie giornaliere (tmed) tramite istogrammi e misure di tendenza centrale (mediana, moda);
- abbiamo scelto di utilizzare la **mediana della temperatura media giornaliera** come proxy ragionevole della Temperatura Ottimale (OT), in linea con approcci presenti in letteratura quando mancano dati di mortalità;
- tale scelta si basa sull'ipotesi che il valore centrale della distribuzione rappresenti una condizione climatica abituale, meno associata a stress termici estremi per la popolazione.

Questa soluzione, pur non sostituendo l'analisi epidemiologica, **ci consente comunque di definire soglie locali per identificare eventi di caldo o freddo moderato ed estremo**, calcolando i percentili chiave (2,5° e 97,5°) rispetto alla temperatura ottimale così stimata.

In prospettiva futura, il nostro approccio potrà essere integrato con dati sanitari per affinare ulteriormente la stima della Temperatura Ottimale e valutare in modo più preciso l'impatto sanitario degli eventi termici estremi a Bologna.


# **Popolazioni a Rischio e Fattori di Vulnerabilità**

Una parte essenziale del nostro progetto è comprendere **quali gruppi di popolazione siano maggiormente a rischio a causa delle temperature estreme** (e non solo).

Studi recenti mostrano chiaramente che la **vulnerabilità termica non dipende esclusivamente dai valori assoluti di temperatura**, ma è amplificata da **caratteristiche individuali, sociali e ambientali**.

# Fasce d’età sensibili
- **Anziani (65+):** sono tra i più vulnerabili al caldo estremo per via di una termoregolazione meno efficiente, presenza di malattie croniche e isolamento sociale. Il rischio di mortalità aumenta significativamente anche in giornate moderatamente calde.

- **Bambini (<5 anni):** sono più esposti per motivi biologici (instabilità termoregolatoria) e dipendono dagli adulti per protezione.

# Condizioni socio-economiche

- **Persone con basso reddito** tendono a vivere in abitazioni meno isolate, senza climatizzazione, e con minor accesso a cure mediche.

- **Minoranze etniche e razziali**, soprattutto nei contesti urbani, sperimentano esposizioni termiche più elevate dovute alla collocazione abitativa (es. quartieri con meno alberature, più cemento) e alla maggiore probabilità di vivere in “urban heat islands”.

# Altri fattori di rischio

- **Disabilità**: mobilità ridotta, comorbidità, e barriere logistiche o comunicative contribuiscono a una maggiore esposizione e minore capacità di reagire a eventi estremi.

- **Isolamento sociale**: vivere da soli, soprattutto in età avanzata, è un fattore di rischio documentato.

- **Condizioni di salute pregresse**: in particolare cardiovascolari e respiratorie, che aumentano la letalità sia con il freddo che con il caldo.

# Implicazioni per il Progetto

Queste informazioni ci consentono di:

1. **Costruire Personae realistiche**, come Luciana (anziana sola), per testare l’efficacia delle nostre analisi e visualizzazioni.

2. **Integrare layer informativi** nei nostri strumenti (es. mappe o dashboard) che rappresentino la vulnerabilità sociale e sanitaria, non solo l’esposizione termica.

3. **Definire soglie di allerta personalizzate**: per alcune categorie, l’intervallo moderatamente caldo può essere già critico, suggerendo la necessità di allarmi precoci anche in assenza di eventi estremi.

# Connessioni con la Pianificazione Sanitaria

Gli studi dimostrano che le **morti legate al freddo** superano quelle legate al caldo, ma ricevono meno attenzione mediatica e politica.

Allo stesso tempo, le **giornate moderatamente calde e fredde causano molte più morti rispetto agli estremi**.

Questo rafforza la **necessità di strumenti predittivi locali e basati su dati reali**, che siano utilizzabili dai servizi sanitari e sociali locali per migliorare l’adattamento urbano e il supporto ai soggetti fragili

#**Dataset utilizzati**

Per il progetto *“Temperature moderate ed estreme e rischio climatico-sanitario a Bologna”* abbiamo selezionato tre dataset aperti. Per questo motivo abbiamo raccolto (in un file cvs) e analizzato i seguenti open data:



•	Kaggle: https://www.kaggle.com/datasets/willianoliveiragibin/extreme-temperatures
1.	Dataset sulla mortalità in relazione alla temperatura, basato sulla metodologia di Gasparrini.
2.	Nel progetto il dataset è salvato come “deathsTemperature.csv”.


•	Open-Meteo: https://open-meteo.com/en/docs
1.	Dati storici sulle temperature a Bologna, con granularità giornaliera.
2.	Nel progetto il dataset è salvato come “bolognaTemperature.csv”.


•	ISTAT: https://esploradati.istat.it/databrowser/#/it/dw/categories/IT1,POP,1.0/POP_POPULATION/DCIS_POPRES1/IT1,22_289_DF_DCIS_POPRES1_24,1.0
1.	Dati ISTAT sulla popolazione per singola età e comune italiano, utile per identificare la densità di persone anziane per zona.
2.	Nel progetto il dataset è salvato come “demografica.csv”.


Il primo dataset rispecchia tutti e tre i criteri di open-Data poiché è disponibile secondo i termini della licenza “cco” che ne garantisce il libero utilizzo a chiunque, inoltre è accessibile tramite il formato open data “csv” e gratuito poiché basta un account kaggle senza costi aggiuntivi per usufruirne.

Il secondo e il terzo dataset presentano caratteristiche simili: sono disponibili seconda la licenza “CC BY 4.0”, sono gratuiti e accessibili in formato aperto (csv).

La scelta di questi dataset è importante per la realizzazione del progetto in quanto essi permettono di incrociare i dati storici sulle temperature con le categorie di persone a rischio da noi considerate. Tutto questo basandoci sulle evidenze scientifiche di Gasparini.

## Importazione librerie e creazione dei DataFrames

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df_temp = pd.read_csv("bolognaTemperature.csv", sep=";")
df_demo = pd.read_csv("demografica.csv")
df_death = pd.read_csv("deathsTemperature.csv")



---


# df_temp: Analisi


---



**Vediamo com'é strutturato il dataset.**


---



In [2]:
df_temp.head()

Unnamed: 0,Data,Temperatura media,Temperatura massima,Temperatura minima,Stagione
0,2001-01-01,2.7,6.5,-0.2,Inverno
1,2001-01-02,3.8,7.0,1.5,Inverno
2,2001-01-03,3.6,7.2,1.2,Inverno
3,2001-01-04,1.8,4.2,0.6,Inverno
4,2001-01-07,5.8,8.6,3.0,Inverno


In [3]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8924 entries, 0 to 8923
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Data                 8924 non-null   object 
 1   Temperatura media    8924 non-null   float64
 2   Temperatura massima  8924 non-null   float64
 3   Temperatura minima   8924 non-null   float64
 4   Stagione             8924 non-null   object 
dtypes: float64(3), object(2)
memory usage: 348.7+ KB


df_temp è composto da 8924 dati e da 5 variabili.
- In questo dataset tutte le variabili ci serviranno per la realizzazione del nostro progetto.
- le variabili "Temperatura media", "Temperatura massima", "Temperatura minima" e "Stagione" definiscono le caratteristiche della temperatura in un particolare giorno rappresentato da "Data".
- le variabili "Data" e "Stagione" dovranno essere convertite rispettivamente in datetyme e valore numerico per semplificare le analisi.

# df_demo: Analisi

Vediamo com'è strutturato il dataset.

In [4]:
df_demo.head()

Unnamed: 0,Frequenza,Territorio,Indicatore,Sesso,Età,Stato civile,TIME_PERIOD,Osservazione,"'Stato dell""'osservazione'"
0,Annuale,Bologna,Popolazione al 1º gennaio,Totale,0 anni,Totale,2019,7526,
1,Annuale,Bologna,Popolazione al 1º gennaio,Totale,0 anni,Totale,2020,7165,
2,Annuale,Bologna,Popolazione al 1º gennaio,Totale,0 anni,Totale,2021,6962,
3,Annuale,Bologna,Popolazione al 1º gennaio,Totale,0 anni,Totale,2022,6971,
4,Annuale,Bologna,Popolazione al 1º gennaio,Totale,0 anni,Totale,2023,6856,


In [5]:
df_demo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 714 entries, 0 to 713
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Frequenza                   714 non-null    object
 1   Territorio                  714 non-null    object
 2   Indicatore                  714 non-null    object
 3   Sesso                       714 non-null    object
 4   Età                         714 non-null    object
 5   Stato civile                714 non-null    object
 6   TIME_PERIOD                 714 non-null    int64 
 7   Osservazione                714 non-null    int64 
 8   'Stato dell"'osservazione'  102 non-null    object
dtypes: int64(2), object(7)
memory usage: 50.3+ KB


df_demo è composto da 714 dati e 9 variabili.
- In questo dataset non ci serviranno le sequenti variabili:
-- Territorio: il nostro progetto è gia circoscritto alla città di Bologna.
-- Indicatore: Consideriamo già a priori la popolazione a partire dal primo gennaio.
-- Sesso: non è una variabile rilevante per distinguere le categorie di persone sensibili.
-- Frequenza: Consideriamo a priori che i dati demografici sono annuali.
-- Stato civile: non è una variabile rilevante per distinguere le categorie di persone sensibili
- Queste sono le variabili che ci servono:
-- Età: ci permette di suddividere la popolazione in over65 e under5.
-- Period: ci permette di identificare l'anno di riferimento.
-- Osservazione: ci permette di quantificare la popolazione totale.
-- Stato dell'osservazione: definisce che l'osservazione è un dato stimato.

# df_death: Analisi

Vediamo com'è strutturato il dataset.

In [6]:
df_death.head()

Unnamed: 0,country,Code,Year,Extreme cold,Moderate cold,Moderate heat,Extreme heat
0,Australia,AUS,2015,0.67,5.82,0.14,0.32
1,Brazil,BRA,2015,0.49,2.34,0.48,0.22
2,Canada,CAN,2015,0.25,4.21,0.27,0.26
3,China,CHN,2015,1.06,9.31,0.24,0.4
4,Italy,ITA,2015,0.85,8.51,0.94,0.67


In [7]:
df_demo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 714 entries, 0 to 713
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Frequenza                   714 non-null    object
 1   Territorio                  714 non-null    object
 2   Indicatore                  714 non-null    object
 3   Sesso                       714 non-null    object
 4   Età                         714 non-null    object
 5   Stato civile                714 non-null    object
 6   TIME_PERIOD                 714 non-null    int64 
 7   Osservazione                714 non-null    int64 
 8   'Stato dell"'osservazione'  102 non-null    object
dtypes: int64(2), object(7)
memory usage: 50.3+ KB


df_death è composto da 14 dati e 7 variabili.
- In questo dataset tutte le variabili ci serviranno per la realizzazione del nostro progetto.
- la variabile "Country" permette di stimare la mortalità a livello locale a Bologna.
- la variabile "Code" semplifica le analisi.
- le variabile "Extreme cold", "Moderate cold", "Moderate heat" e "Extreme heat" mostrano le percentuali di mortalità con le rispettive fascie di temperatura.


# Personae



---
1. Luciana. 84 anni.

  Vedova e vive da sola in casa.
  E' orgogliosa e tendenzialmente non chiede aiuto.
  Vuole essere a conoscenza quando la temperatura diventa pericolosa per la sua salute, così da prendere precauzioni e sentirsi più sicura.
---
2. Marco, 40 anni.

  Operatore sanitario.
  E' attento nel suo ambiente di lavoro.
  Deve monitorare molti pazienti.
  Usa quotidianamente smartphone e sistemi informatici per scopi medici. Vuole sapere quando le situazioni dei pazienti possono diventare rischiose a causa del clima.
---
3. Manuela, 31 anni.  
  
  Vive in città con il marito e il figlio di 3 anni.
  E' premurosa e attenta alla salute del figlio.
  Usa frequentemente lo smartphone.
  E' una persona molto organizzata.Vuole sapere quali giorni sono più sicuri per portare il figlio al parco, così da evitare che si ammali.

# User story


# Product canvas

Vision:
- Offrire un sistema digitale che avverta le categorie a rischio di rischi climitaci dannosi.

Goals:
- Creare un canale comunicativo tramite un app tra Il SSN e le categorie che permetta di ridurre i danni sociali e sanitari legati al clima.
Dare più sicurezza agli utenti.

Key metrics:
- Temperature giornaliere.
- Fascia climatica classificata.
- Popolazione totale, over65 e under5.
- Percentuali di rischio mortalità stimate.

Target customer segmentation:
- Utenti over 65 e genitori di under 5.
- Luciana: anziana, 84 anni, vive sola, poco tecnologica.
- Marco: operatore sanitario, 40 anni, premuroso e usa sistemi digitali sanitari.
- Manuela: mamma, 31 anni, figlio di 3 anni, premurosa, usa spesso lo smartphone.

Unique value proposition:
- Prototipo Colab che integra dati climatici, demografici e sanitari per generare alert e insight climatici.



Channels:
- Diffusione con la nostra rete sociale di contatti.

Customer need:
- Sentirsi sicuri e avere la certezza di uscire di casa senza gravi conseguenze per la salute propria e dei propri famigliari.
Evitare complicazioni grazie a notifiche semplici, intuitive e immediate.

Key resources:
- Risorse esterne: dati meteo, dati demografici e dati che mettono in correlazione mortalità giornaliera e temperatura.

Revenue streams:
- il modello è gratuito.

Cost structure:
- Nessun costo fisso o variabile.

Luciana: “in quanto donna anziana e pensionata voglio ricevere avvertenze chiare e intuitive sui rischi del clima così da essere preparata al meglio”.


Marco: “in quanto operatore sanitario voglio sapere in quali giorni il clima è più pericoloso in modo che i miei pazienti a rischio possano poi essere contattati preventivamente anche per limitare l’uso di ambulanze o reparti di emergenza”.

Manuela: “In quanto madre di un bambino piccolo e sensibile ai cambi di temperatura voglio sapere in anticipo quali sono le giornate più indicate per portare fuori mio figlio”.

# **Utilizzo di Essence**

Nel corso del progetto abbiamo utilizzato Essence per supportare il lavoro di gruppo in modo strutturato e riflessivo. In particolare, ci è servito per:

- Definire e visualizzare gli elementi chiave del progetto, come: Stakeholder, Opportunity, Requirements, Team e Software System.

- Guidare le retrospettive di fine sprint, attraverso una riflessione mirata sullo stato degli Alpha principali.

- Individuare criticità e adattare il nostro modo di lavorare, soprattutto nella gestione dei dati e nel coordinamento tra notebook.

- Mantenere la coerenza tra obiettivi iniziali e risultati prodotti, validando l'efficacia rispetto alle personae e agli use case.

L'approccio Essence ci ha aiutato a mantenere una visione d’insieme durante tutto il ciclo di sviluppo agile del progetto.

