<h1 align="center"><strong>Relazione di Open Data Management 2023-2024</strong></h1>
<h3 align="center"><strong><em>di Daniele Nicosia e Claudio Bellanti</em></strong></h3>
<h5 align="center"><em>Università degli Studi di Palermo - Facoltà di Informatica</em></h5>

***
***

### [`1. - Traccia`](#1-traccia)
### [`2. - Selezione dei dataset`](#2-selezione-dei-dataset)
- ##### [`2.1 - Raccolta`](#21-raccolta)
- ##### [`2.2 - Licenze`](#22-licenze)
### [`3. - Elaborazione dei dataset`](#3-elaborazione-dei-dataset)
- ##### [`3.1 - Pulizia e selezione dei dati rilevanti`](#31-pulizia-e-selezione-dei-dati-rilevanti)
- ##### [`3.2 - Arricchimento`](#32-arricchimento)
### [`4. - Finalizzazione dei dataset`](#4-finalizzazione-dei-dataset)
- ##### [`4.1 - Ontologia`](#41-ontologia)
- ##### [`4.2 - Conversione in RDF`](#42-conversione-in-rdf)
### [`5. - Visualizzazione dati`](#5-visualizzazione-dati)
- ##### [`5.1 - Creazione mappe con i GeoJson`](#51-creazione-mappe-con-i-geojson)

***
***

## **`1. - Traccia`**

Utilizzando il linguaggio di programmazione Python, per lo sviluppo del progetto si devono innanzitutto rispettare i seguenti passi:

- _Selezione dati_
- _Elaborazione dati (data cleaning, definizione struttura omogenea)_
- _Open Linked Data (creazione di uno strato semantico, ontologie, interlinking)_

L'obiettivo della suddetta relazione è lo studio della qualità dell'aria nel **`Comune di Milano`** in relazione alle aree verdi presenti sul territorio, con particolare attenzione alla presenza di polveri sottili (PM10) e di biossido di azoto (NO2).

***
***

## **`2. - Selezione dei dataset`**

#### **`2.1 - Raccolta`**

Per lo sviluppo del progetto sono stati selezionati dei dataset i cui dati rappresentino gli eventi che si sono verificati nel Comune di Milano nel periodo 2014-2021. I dataset selezionati sono i seguenti:

- [**`Ricoveri ordinari apparato respiratorio 2007-2021`**](https://dati.comune.milano.it/dataset/ds1053_ricoveri-ordinari-apparato-respiratorio)
- [**`Stazioni di monitoraggio inquinanti`**](https://dati.comune.milano.it/dataset/ds484_stazioni_di_monitoraggio_inquinanti_atmosferici_dellarpa_sit)
- [**`Aree verdi`**]() TODO
- [**`Ricostruzione della popolazione 2002-2019`**](https://demo.istat.it/app/?i=RIC&l=it)
  - Per questo dataset è stato necessario effettuare una personalizzazione tramite l'interfaccia di ISTAT. Il dataset risultante contiene la popolazione residente nel solo Comune di Milano dal 2002 al 2019.
- [**`Popolazione residente 2019-2023`**](https://demo.istat.it/app/?i=POS&l=it)
  - Per questo dataset è stato necessario effettuare una personalizzazione tramite l'interfaccia di ISTAT. Il dataset risultante contiene la popolazione residente nel solo Comune di Milano dal 2020 al 2022.

***


#### **`2.2 - Licenze`**

Le licenze dei dataset selezionati sono le seguenti:

- **`Ricoveri ordinari apparato respiratorio 2007-2021`**: Creative Commons Attribuzione-Condividi allo stesso modo 3.0 Italia ([CC BY-SA 3.0 IT](https://creativecommons.org/licenses/by-sa/3.0/it/))
- **`Stazioni di monitoraggio inquinanti`**: Creative Commons Attribuzione 4.0 Internazionale ([CC BY 4.0](https://creativecommons.org/licenses/by/4.0/))
- **`Aree verdi`**: TODO
- **`Ricostruzione della popolazione 2002-2019`**: Creative Commons Attribuzione 3.0 ([CC BY 3.0](https://www.istat.it/it/note-legali))
- **`Popolazione residente 2019-2023`**: Creative Commons Attribuzione 3.0 ([CC BY 3.0](https://creativecommons.org/licenses/by/4.0/))

***
***


## **`3. - Elaborazione dei dataset`**

#### **`3.1 - Pulizia e selezione dei dati rilevanti`**

Il primo passo effettuato è stato unire i diversi dataset della popolazione residente nel Comune di Milano, in un unico dataset.

Si è notato che i dataset puri non erano tutti adattati allo stesso modo, infatti, si sono riscontrate due problematiche:

- Encoding dei dataset differenti, a causa delle loro diversi origini
- Errori vari dovuti a `;` o `,` non correttamente inseriti

##### *`Preparazione ambiente di sviluppo`*

Prima di cominciare ad analizzare i dati dobbiamo importare le librerie necessarie al nostro scopo.



In [None]:
%pip install -r requirements.txt

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import glob
import os
import re
import json
import plotly.graph_objects as go

##### *`Creazione dataset rilevazione della qualità dell'aria`*

In questo estratto di codice, ci siamo concentrati sull'elaborazione di un insieme di dati complesso riguardante la qualità dell'aria, raccolto nel corso di diversi anni. Questi dati provengono da molteplici stazioni che, è importante notare, hanno capacità di rilevamento diverse. Non tutte le stazioni sono equipaggiate per misurare ogni tipo di inquinante, il che introduce una certa variabilità nei dati che stiamo trattando.

Il primo passo significativo nel nostro processo è stato unire questi diversi file di dati, ognuno contenente frammenti del quadro generale della qualità dell'aria, in un unico, coerente DataFrame. Questo non solo ha semplificato le fasi successive dell'analisi, ma ha anche assicurato che ogni pezzo di informazione fosse contestualizzato all'interno del dataset più ampio.

Una volta consolidati i dati, abbiamo affrontato la questione della uniformità temporale, assicurandoci che ogni data fosse in un formato standard e ordinando poi il dataset in ordine cronologico. Questo ordine temporale è essenziale per qualsiasi analisi storica o trend che potrebbe emergere da questi dati.

Il problema successivo che abbiamo affrontato è stato quello dei valori mancanti, un'incidenza comune nei grandi set di dati, specialmente quando si tratta di rilevamenti ambientali su più anni. La strategia adottata qui è stata calcolare la mediana dei valori per ogni inquinante per ogni anno, una tecnica scelta per la sua resistenza agli outlier, ovvero quei valori che differiscono significativamente dalla norma e che potrebbero distorcere i risultati se non trattati correttamente.

Utilizzando le mediane annuali, abbiamo potuto imputare valori ragionevoli nei casi in cui i dati erano mancanti, mantenendo l'integrità generale dei dati senza concedere un peso eccessivo a misurazioni anomale o inaccurate. Questo passaggio è essenziale per mantenere la validità delle nostre conclusioni finali.

Dopo aver riempito questi vuoti, il nostro set di dati era quasi pronto per essere utilizzato in analisi future. Abbiamo rimosso alcune colonne superflue per rendere il dataset più snello e abbiamo gestito eventuali valori mancanti residui, assicurandoci che fossero chiaramente indicati.

***

In [None]:
file_paths = glob.glob('./data/raw/rilevazione_qualità_aria/*.csv')

# Carica tutti i file CSV in un dizionario di DataFrame, specificando il separatore corretto
dfs = {fp: pd.read_csv(fp, sep=';') for fp in file_paths}

# Concatena tutti i DataFrame in un unico DataFrame
air_quality = pd.concat(dfs.values(), ignore_index=True)

# Converti la colonna 'data' in datetime se non lo è già
air_quality['data'] = pd.to_datetime(air_quality['data'])

# Ordina il DataFrame in base alla colonna 'data' in ordine crescente
air_quality.sort_values('data', ascending=True, inplace=True)

# Carica il file delle stazioni meteorologiche (adattalo al tuo percorso file)
stazioni = pd.read_csv('./data/raw/rilevazione_qualità_aria/stazioni_mereologiche.csv')

# Estraiamo gli inquinanti che ogni stazione può misurare e creiamo un dizionario
stazioni['inquinanti'] = stazioni['inquinanti'].apply(lambda x: x.split(', ') if isinstance(x, str) else [])
dict_stazioni_inquinanti = stazioni.set_index('id_amat')['inquinanti'].to_dict()

# Crea un nuovo DataFrame pivotato
air_quality_pivoted = pd.pivot_table(air_quality, values='valore', index=['stazione_id', 'data'], columns='inquinante').reset_index()
air_quality_pivoted['data'] = pd.to_datetime(air_quality_pivoted['data'])
air_quality_pivoted.sort_values('data', ascending=True, inplace=True)

# Estrai l'anno da ogni data
air_quality_pivoted['year'] = air_quality_pivoted['data'].dt.year

# Calcolo delle mediane annuali e riempimento dei valori NaN
annual_medians = {}
for stazione_id, inquinanti in dict_stazioni_inquinanti.items():
    for inquinante in inquinanti:
        if inquinante in air_quality_pivoted.columns:
            data_grouped = air_quality_pivoted[air_quality_pivoted['stazione_id'] == stazione_id].groupby('year')
            medians_by_year = data_grouped[inquinante].median()

            for year, median in medians_by_year.items():
                annual_medians[(stazione_id, inquinante, year)] = median

for key, median in annual_medians.items():
    stazione_id, inquinante, year = key
    mask = (air_quality_pivoted['stazione_id'] == stazione_id) & \
           (air_quality_pivoted['year'] == year) & \
           (air_quality_pivoted[inquinante].isna())
    
    air_quality_pivoted.loc[mask, inquinante] = median

# Rimozione della colonna 'year' dopo aver completato le operazioni di imputazione
air_quality_pivoted = air_quality_pivoted.drop(columns='year')
air_quality_pivoted = air_quality_pivoted.fillna(0)

# Salvataggio del DataFrame aggiornato
air_quality_pivoted.to_csv('./data/processed/rilevazione_qualità_aria/air_quality_pivoted.csv', index=False, na_rep='NaN')

##### *`Creazione dataset GeoJson stazioni metereologiche`*

Il codice qui presentato si occupa essenzialmente di trasformare un elenco di stazioni meteorologiche, con varie informazioni associate, in un formato facilmente utilizzabile per applicazioni geospaziali. Inizialmente, vengono eliminate alcune informazioni non necessarie, concentrando l'attenzione su dati più pertinenti, come la posizione geografica di ogni stazione.

Una parte cruciale di questo processo riguarda la manipolazione delle coordinate geografiche. Dal momento che le posizioni sono state fornite come testo, il codice le converte in formato GeoJSON; uno standard specifico per i dati geografici.
Questo formato è particolarmente utile perché è ampiamente riconosciuto e utilizzato in molte applicazioni di mappatura, rendendo i dati facilmente accessibili e utilizzabili.
Alla fine di questa procedura avremo la possibilità, attraverso librerie e strumenti online, di ottenere una mappa con i nostri specifici "Point" e i relativi metadati.

In [None]:
stazioni_metereologiche = pd.read_csv('./data/raw/rilevazione_qualità_aria/stazioni_mereologiche.csv')

stazioni_metereologiche.drop(columns=['inizio_operativita', 'fine_operativita','LONG_X_4326','LAT_Y_4326'], inplace=True)

# Estrai le coordinate dalla colonna "Location"
stazioni_metereologiche['coordinates'] = stazioni_metereologiche['Location'].str.strip('()').str.split(', ')
stazioni_metereologiche['latitude'] = stazioni_metereologiche['coordinates'].apply(lambda x: float(x[0]))
stazioni_metereologiche['longitude'] = stazioni_metereologiche['coordinates'].apply(lambda x: float(x[1]))

# Crea la struttura base GeoJSON
geojson = {
    "type": "FeatureCollection",
    "features": []
}

# Popola GeoJSON con le features
for index, row in stazioni_metereologiche.iterrows():
    feature = {
        "type": "Feature",
        "geometry": {
            "type": "Point",
            "coordinates": [row['longitude'], row['latitude']]
        },
        "properties": row.drop(['_id', 'Location', 'coordinates', 'latitude', 'longitude']).to_dict()
    }
    geojson["features"].append(feature)

# Salva il GeoJSON in un file
with open("./data/processed/rilevazione_qualità_aria/stazioni_metereologiche.geojson", 'w') as f:
    json.dump(geojson, f)

stazioni_metereologiche.to_csv('./data/processed/rilevazione_qualità_aria/stazioni_metereologiche.csv', index=False, na_rep='NaN')

##### *`Creazione dataset GeoJson aree verdi`*

Al fine di effettuare una analisi completa, abbiamo optato di inserire all'interno dell'analisi anche le aree verdi di Milano.
In questo caso abbiamo prelevato i dati forniti in CSV dal comune di Milano e ne abbiamo realizzato un Geo JSON.

In [None]:
aree_verdi = pd.read_csv('./data/raw/rilevazione_qualità_aria/aree_verdi.csv')
if 'Location' in aree_verdi.columns:
    aree_verdi['coordinates'] = aree_verdi['Location'].str.strip('()').str.split(', ')
    aree_verdi['latitude'] = aree_verdi['coordinates'].apply(lambda x: float(x[0]))
    aree_verdi['longitude'] = aree_verdi['coordinates'].apply(lambda x: float(x[1]))
else:
    # Se non esiste una colonna 'Location', le coordinate potrebbero essere presenti come colonne separate
    # Assicurati che le colonne 'latitude' e 'longitude' esistano nel tuo file CSV
    aree_verdi['latitude'] = aree_verdi['latitude'].apply(float)  # Converti in float se già non lo sono
    aree_verdi['longitude'] = aree_verdi['longitude'].apply(float)  # Converti in float se già non lo sono

# Crea la struttura base GeoJSON
geojson_aree_verdi = {
    "type": "FeatureCollection",
    "features": []
}

# Popola GeoJSON con le features
for index, row in aree_verdi.iterrows():
    feature = {
        "type": "Feature",
        "geometry": {
            "type": "Point",
            "coordinates": [row['longitude'], row['latitude']]
        },
        "properties": row.drop(['Location', 'coordinates', 'latitude', 'longitude']).to_dict()  # escludi le colonne non necessarie
    }
    geojson_aree_verdi["features"].append(feature)

# Salva il GeoJSON in un file
output_file = "./data/processed/rilevazione_qualità_aria/aree_verdi.geojson"
with open(output_file, 'w') as f:
    json.dump(geojson_aree_verdi, f)

##### *`Creazione dataset popolazione`*

Il dataset in questione è stato ottenuto, innanzitutto, rimuovendo le colonne degli anni che non ci interessava analizzare. Successivamente, è stato necessario unire dei dataset poichè sono stati cambiati i metadati e la loro disposizione negli anni successivi al 2019.

In [None]:
percorso_input = './data/raw/popolazione/'
percorso_output = './data/processed/popolazione/'

popolazione = pd.read_csv(percorso_input + 'ricostruzione_popolazione_2002_2019.csv')

anni = np.arange(2014, 2021)
for col in popolazione.columns:
    try:
        year = int(col)
        if year not in anni:
            popolazione = popolazione.drop(columns=col)
    except ValueError:
        pass


file_list = os.listdir(percorso_input)
popolazione_files = [f for f in file_list if f.startswith('popolazione')]

prev_age = None
curr_row = None

for filename in popolazione_files:
    new_pop = pd.read_csv(os.path.join(percorso_input, filename))

    year = filename[-8:-4]
    popolazione[year] = 0

    for index, row in popolazione.iterrows():
        age = row['Età']
        if age != prev_age:
            curr_row = new_pop.loc[new_pop['Età'] == age].iloc[0]
            prev_age = age

        if popolazione.loc[index, 'Sesso'] == 'Maschi':
            popolazione.loc[index, year] = curr_row['Totale maschi']
        elif popolazione.loc[index, 'Sesso'] == 'Femmine':
            popolazione.loc[index, year] = curr_row['Totale femmine']
        else:
            popolazione.loc[index, year] = curr_row['Totale']

popolazione.to_csv(percorso_output + 'popolazione_2014_2021.csv', index=False)

##### *`Creazione dataset ricoveri`*

Per il dataset dei ricoveri, poichè i dati erano già in un formato accettabile, è stato necessario solo rimuovere le colonne e le righe non necessarie.

In [None]:
percorso_input = './data/raw/ricoveri/'
percorso_output = './data/processed/ricoveri/'

ricoveri = pd.read_csv(percorso_input + 'ricoveri_ordinari_apparato_respiratorio.csv', sep=';')

# Rimuovo le righe degli anni precedenti al 2014
ricoveri = ricoveri[ricoveri['anno'] >= 2014]

# Rimuovo la colonna della misura utilizzata
ricoveri = ricoveri.drop(columns='misura')

ricoveri.to_csv(percorso_output + 'ricoveri_2014_2021.csv', index=False)

#### **`3.2 - Arricchimento`**

Successivamente alla fase di pulizia e selezione, si è introdotta una fase di arricchimento dei dataset.

##### *`Arricchimento dataset [NOME]`*

TODO

***
***

## **`4. - Finalizzazione dei dataset`**

#### **`4.1 - Ontologia`**

L'ontologia progettata in questione è di tipo `OWL` ed è stata realizzata, con l'ausilio del software `Protégé`, in modo da poter essere utilizzata per la rappresentazione di dati relativi alla qualità dell'aria in un determinato comune. 

Nell'ontologia sono state rappresentate le seguenti entità:

- **`Comune`**: che rappresenta i comuni.
- **`Popolazione`**: che rappresenta la popolazione.
- **`AreaVerde`**: che rappresenta le aree verdi.
- **`StazioneMeteorologica`**: che rappresenta le stazioni meteorologiche.
- **`MisurazioneQualitaAria`**: che rappresenta le misurazioni della qualità dell'aria.

Inoltre le proprietà rappresentate nell'ontologia sono:

- **`haRicoveri`**: Rappresenta il numero di ricoveri associati ad una popolazione.
- **`haPopolazione`**: Stabilisce il numero di abitanti per un dato comune.
- **`haAreaVerde`**: Indica la presenza di aree verdi all'interno di un comune.
- **`haStazioneMeteorologica`**: Rappresenta la presenza di stazioni meteorologiche in un comune.
- **`haCoordinate`**: Indica la posizione geografica di una stazione meteorologica o di un'area verde.
- **`monitoraInquinante`**: Specifica l'inquinante specifico misurato da una stazione meteorologica.
- **`haValoreInquinante`**: Indica il valore numerico effettivo di una misurazione della qualità dell'aria registrato da una stazione meteorologica.
- **`haQualitaAria`**: Collega un'area verde alle misurazioni della qualità dell'aria effettuate in quella zona.


L'ontologia descritta è stata realizzata nel formato `.ttl` ed è riportata in [**`questo file`**](ontologia.ttl).

***

In [None]:
from urllib import parse 
from rdflib import Graph, Literal, URIRef, Namespace, BNode
from rdflib.namespace import RDF, OWL, RDFS
from SPARQLWrapper import SPARQLWrapper, JSON
from rdflib import XSD
import pandas as pd

# Preparo il grafo
g = Graph()

base_uri = "http://www.qualitaariamilano.it/resource/"

sso = Namespace("http://www.semanticweb.org/aria-ontology-cb-dn/ontology/")
g.bind("sso", sso)

ssr = Namespace("http://www.semanticweb.org/aria-ontology-cb-dn/resource/")
g.bind("ssr", ssr)

def urify(uri, res):
    res = res.replace(" ","_").replace("\'","")
    return uri + parse.quote(res)

In [None]:
# Carica il dataset sulla qualità dell'aria
import time

# Prepara i namespace
wd = Namespace("http://www.wikidata.org/entity/")

# Prepara la query SPARQL
def get_wikidata_uris(pollutant_names):
    uris = []
    for pollutant_name in pollutant_names:
        sparql_query = """
        PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
        SELECT ?item WHERE {{
        ?item rdfs:label "{0}"@en.
        }}
        LIMIT 1
        """.format(pollutant_name["name"])  # Non codificare qui, SPARQLWrapper gestisce già l'encoding
        sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
        sparql.setQuery(sparql_query)
        sparql.setReturnFormat(JSON)
        print(f"Querying {pollutant_name['name']}...")
        try:
            results = sparql.query().convert()
            for result in results["results"]["bindings"]:
                uris.append(result["item"]["value"])
                time.sleep(2)
                break  # Break here ensures that only the first result is taken
        except Exception as e:
            print(f"An error occurred while querying {pollutant_name['name']}: {e}")
            uris.append(None)  # Append None if there was an error or no result

    return uris

# Utilizza la nuova funzione per ottenere tutti gli URI
arr_inquinanti = [
    { "name": "benzene", "formula": "C6H6" },
    { "name": "carbon monoxide", "formula": "CO" },
    { "name": "nitrogen dioxide", "formula": "NO2" },
    { "name": "ozone", "formula": "O3" },
    { "name": "PM10 (excluding PM 2.5)", "formula": "PM10" },
    { "name": "PM 2.5", "formula": "PM25" },
    { "name": "sulfur dioxide", "formula": "SO2" }
]
pollutant_uris = get_wikidata_uris(arr_inquinanti)

# Ora puoi iterare su pollutant_uris e creare le tue triple RDF
for pollutant, pollutant_uri in zip(arr_inquinanti, pollutant_uris):
    if pollutant_uri:
        # Crea l'URIRef con l'URI trovato
        pollutant_uri_ref = URIRef(pollutant_uri)
        formula_uri_ref = URIRef(f"{base_uri}{pollutant['formula']}")
        # Aggiungi le triple al grafo
        g.add((pollutant_uri_ref, RDF.type, OWL.Thing))
        g.add((pollutant_uri_ref, RDFS.label, Literal(pollutant["name"])))
        g.add((pollutant_uri_ref, sso.chemicalFormula, Literal(pollutant["formula"])))
        g.add((pollutant_uri_ref, OWL.sameAs, formula_uri_ref))
        
print(g.serialize(format="turtle"))

In [None]:
popolazione_df = pd.read_csv('./data/processed/popolazione/popolazione_totale_2014_2021.csv')
ricoveri_df = pd.read_csv('./data/processed/ricoveri/ricoveri_2014_2021.csv')
stazioni_metereologiche_df = pd.read_csv('./data/processed/rilevazione_qualità_aria/stazioni_metereologiche.csv')
res = URIRef(urify(base_uri, "Milano"))

haStazioniMetereologiche = BNode()

def addSingleComuneTriple(popolazione_df):
    #g.add([res, RDF.type, sso.Comune])
    for index, row in popolazione_df.iterrows():
        anno = row['Anno']
        popolazione = row['Totale']
        # Creazione di un Blank Node per ogni anno
        popolazione_node = BNode()
        g.add([res, sso.haPopolazione, popolazione_node])
        g.add([popolazione_node, sso.anno, Literal(anno, datatype=XSD.gYear)])
        g.add([popolazione_node, sso.totalePopolazione, Literal(popolazione, datatype=XSD.integer)])
        # Aggiunta degli ID delle stazioni metereologiche
    for index, row in ricoveri_df.iterrows():
        anno = row['anno']
        ricoveri = row['Totale']
        # Creazione di un Blank Node per ogni anno
        ricoveri_node = BNode()
        g.add([res, sso.haRicoveriApparatoRespiratorio, ricoveri_node])
        g.add([ricoveri_node, sso.anno, Literal(anno, datatype=XSD.gYear)])
        g.add([ricoveri_node, sso.totaleRicoveri, Literal(ricoveri, datatype=XSD.integer)])
    for index, row in stazioni_metereologiche_df.iterrows():
        id_amat = row['id_amat']
        stazione_node = BNode()
        g.add([res, sso.haStazioneMetereologica, stazione_node])
        g.add([stazione_node, sso.idAmat, Literal(id_amat, datatype=XSD.integer)])

# Applica la funzione
addSingleComuneTriple(popolazione_df)

In [None]:
g_stazioni = Graph()
stazioni_metereologiche_df = pd.read_csv('./data/processed/rilevazione_qualità_aria/stazioni_metereologiche.csv')
base_uri_stazioni = "http://www.qualitaariamilano.it/resource/stazioni/"

def creaGrafoStazioni(g_stazioni, stazioni_df):
    for index, row in stazioni_df.iterrows():
        id_amat = row['id_amat']
        nome = row['nome']
        latitudine = row['latitude']
        longitudine = row['longitude']
        stazione_uri = URIRef(f"{base_uri_stazioni}{id_amat}")
        # Aggiungi dettagli della stazione al grafo
        g_stazioni.add([stazione_uri, RDF.type, sso.StazioneMetereologica])
        g_stazioni.add([stazione_uri, sso.nome, Literal(nome, datatype=XSD.string)])
        g_stazioni.add([stazione_uri, sso.latitude, Literal(latitudine, datatype=XSD.decimal)])
        g_stazioni.add([stazione_uri, sso.longitude, Literal(longitudine, datatype=XSD.decimal)])

creaGrafoStazioni(g_stazioni, stazioni_metereologiche_df)
print(g_stazioni.serialize(format='turtle'))

for index, row in stazioni_metereologiche_df.iterrows():
    id_amat = row['id_amat']
    inquinanti = row['inquinanti'].split(', ')
    stazione_node_g = BNode() # Nodo nel grafo g
    stazione_uri_g_stazioni = URIRef(f"{base_uri_stazioni}{id_amat}") # Nodo nel grafo g_stazioni

    # Aggiungi dati al grafo g
    g.add([res, sso.haStazioneMetereologica, stazione_node_g])
    for inquinante in inquinanti:
        inquinante_uri = URIRef(f"{base_uri}{inquinante}")
        g.add([stazione_node_g, sso.monitoraInquinante, inquinante_uri])
    g.add([stazione_node_g, sso.idAmat, Literal(id_amat, datatype=XSD.integer)])

    # Collega il nodo nel grafo g con il nodo corrispondente nel grafo g_stazioni
    if (stazione_uri_g_stazioni, None, None) in g_stazioni:
        g.add([stazione_node_g, OWL.sameAs, stazione_uri_g_stazioni])

In [None]:
from urllib.parse import urlparse

air_quality_df = pd.read_csv('./data/processed/rilevazione_qualità_aria/air_quality_pivoted.csv')

for index, row in air_quality_df.iterrows():
    stazione_id = int(row['stazione_id'])
    stazione_uri = URIRef(f"{base_uri_stazioni}{stazione_id}")
    data = row['data']
    stazione_node = BNode()
    g.add([stazione_uri, sso.haMisuraInquinante, stazione_node])
    g.add([stazione_node, sso.data, Literal(data, datatype=XSD.date)])
    # Itero le triple che rappresentano le stazioni metereologiche
    for s, p, o in g.triples((None, OWL.sameAs, stazione_uri)):
        for s2, p2, o2 in g.triples((s, sso.monitoraInquinante, None)):
            o_name = urlparse(str(o2)).path.split('/')[-1]
            inquinante_node = BNode()
            g.add([stazione_node, sso.inquinante, inquinante_node])
            g.add([inquinante_node, sso.formula, Literal(o_name, datatype=XSD.string)])
            g.add([inquinante_node, sso.valore, Literal(row[o_name], datatype=XSD.float)])
    
print(g.serialize(format='turtle'))

In [None]:
# Leggi il file geojson delle aree verdi e crea un grafo RDF
g_aree_verdi = Graph()
base_uri_aree_verdi = "http://www.qualitaariamilano.it/resource/aree_verdi/"

with open('./data/processed/rilevazione_qualità_aria/aree_verdi.geojson') as f:
    data = json.load(f)

for feature in data['features']:
    properties = feature['properties']
    geometry = feature['geometry']
    longitude = geometry['coordinates'][0]
    latitude = geometry['coordinates'][1]
    nome = properties['PARCO']
    codice_area = properties['CODICE_AREA']
    zona = properties['ZONA']
    id = properties['_id']
    area_mq = properties['AREA_MQ']
    perim_m = properties['PERIM_M']
    area_verde_uri = URIRef(f"{base_uri_aree_verdi}{id}")
    g_aree_verdi.add([area_verde_uri, RDF.type, sso.AreaVerde])
    g_aree_verdi.add([area_verde_uri, sso.nome, Literal(nome, datatype=XSD.string)])
    g_aree_verdi.add([area_verde_uri, sso.latitude, Literal(latitude, datatype=XSD.decimal)])
    g_aree_verdi.add([area_verde_uri, sso.longitude, Literal(longitude, datatype=XSD.decimal)])
    g_aree_verdi.add([area_verde_uri, sso.codiceArea, Literal(codice_area, datatype=XSD.integer)])
    g_aree_verdi.add([area_verde_uri, sso.zona, Literal(zona, datatype=XSD.string)])
    g_aree_verdi.add([area_verde_uri, sso.area, Literal(area_mq, datatype=XSD.integer)])
    g_aree_verdi.add([area_verde_uri, sso.perimetro, Literal(perim_m, datatype=XSD.integer)])
        
print(g_aree_verdi.serialize(format='turtle'))

for area in data['features']:
    id_av = area['properties']['_id']
    area_node_g = BNode()  # Nodo nel grafo g
    area_uri_g_aree_verdi = URIRef(f"{base_uri_aree_verdi}{id_av}")  # Nodo nel grafo g_aree_verdi

    # Aggiungi dati al grafo g
    g.add([res, sso.haAreaVerde, stazione_node_g])
    g.add([area_node_g, sso.idAv, Literal(id_av, datatype=XSD.integer)])

    # Collega il nodo nel grafo g con il nodo corrispondente nel grafo g_stazioni
    if (area_uri_g_aree_verdi, None, None) in g_aree_verdi:
        g.add([area_node_g, OWL.sameAs, area_uri_g_aree_verdi])

In [None]:
# Salva il grafo RDF
g.serialize(destination='./data/ontology/ontologia.ttl', format='turtle')

## Status linking:
    Comune:
    Popolazione ✅
    Ricoveri ✅
    Aree verdi ✅
    Stazioni metereologiche ✅

    Stazione metereologiche:
    Misura Qualità Aria (inquinanti) ✅
    Inquinanti wikidata ❌
    Coordinate ✅

    Area verde:
    Coordinate ✅

    (Forse manca qualcosa, se trovi qualche incongruenza aggiungila qui per avere una todo)


In [None]:
for s, p, o in g.triples((None, OWL.sameAs, None)):
    if (o, None, None) in g_stazioni:
        print(f"Il nodo {o} esiste in entrambi i grafi e è collegato. (g_stazioni)")
    if (o, None, None) in g_aree_verdi:
        print(f"Il nodo {o} esiste in entrambi i grafi e è collegato. (g_aree_verdi)")



## **`5. - Visualizzazione dati`**

#### **`5.1 - Creazione mappe con i GeoJson`**

##### Evoluzione della Popolazione e Ricoveri Respiratori nel Comune di Milano (2014-2021)

In [None]:
from matplotlib.ticker import FuncFormatter

query = """
PREFIX sso: <http://www.semanticweb.org/aria-ontology-cb-dn/ontology/>
SELECT ?anno ?popolazione ?totaleRicoveri
WHERE {
    ?comune sso:haPopolazione ?popNode .
    ?popNode sso:anno ?anno ;
             sso:totalePopolazione ?popolazione .
    OPTIONAL {
        ?comune sso:haRicoveriApparatoRespiratorio ?ricNode .
        ?ricNode sso:anno ?anno ;
                 sso:totaleRicoveri ?totaleRicoveri .
    }
}
ORDER BY ?anno
"""

def millions_formatter(x, pos):
    return '%1.0f' % x

result = g.query(query)
# Prepara i dati per il plot
anni = []
popolazione = []
ricoveri = []

for row in result:
    anni.append(str(row.anno))
    popolazione.append(int(row.popolazione) if row.popolazione is not None else 0)
    ricoveri.append(int(row.totaleRicoveri) if row.totaleRicoveri is not None else 0)

print("anni")
print(anni)
print("popolazione")
print(popolazione)
print("ricoveri")
print(ricoveri)

# Creazione del grafico
fig, ax1 = plt.subplots()
ax1.yaxis.set_major_formatter(FuncFormatter(millions_formatter))
color = 'tab:red'
ax1.set_xlabel('Anno')
ax1.set_ylabel('Popolazione', color=color)
ax1.plot(anni, popolazione, color=color)
ax1.tick_params(axis='y', labelcolor=color)

ax2 = ax1.twinx()  # Istanziare un secondo asse per i ricoveri
color = 'tab:blue'
ax2.set_ylabel('Ricoveri', color=color)
ax2.plot(anni, ricoveri, color=color)
ax2.tick_params(axis='y', labelcolor=color)

fig.tight_layout()
plt.title('Popolazione e Ricoveri Respiratori nel Tempo')
plt.show()

##### Variazioni Stagionali della Qualità dell'Aria: Un'Analisi Mensile degli Inquinanti nel Comune di Milano

In [None]:
import plotly.express as px
import pandas as pd
from random import randint

# Creazione di dati fittizi
anni = ['2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021']
mesi = ['Gennaio', 'Febbraio', 'Marzo', 'Aprile', 'Maggio', 'Giugno', 'Luglio', 'Agosto', 'Settembre', 'Ottobre', 'Novembre', 'Dicembre']
data = []

for anno in anni:
    for mese in mesi:
        data.append({
            'Anno': anno,
            'Mese': mese,
            'LivelloInquinante': randint(20, 100)  # Generazione di un valore casuale per l'inquinante
        })

df = pd.DataFrame(data)

# Creazione del grafico interattivo
fig = px.line(df, x='Mese', y='LivelloInquinante', color='Anno', title='Andamento Mensile di un Inquinante per Anno',
              labels={'LivelloInquinante': 'Livello di Inquinante'}, animation_frame='Anno')
fig.layout.updatemenus[0].buttons[0].args[1]['frame']['duration'] = 1000
fig.layout.updatemenus[0].buttons[0].args[1]['transition']['duration'] = 500

# Mostra il grafico
fig.show()


#### **`4.2 - Conversione in RDF`**

TODO

***
***