# <center> **Tesina di Open Data Management 2022-2023**

<br>
<div align="center">
    <img src="op_wallpaper.jpg" width="1200" height="auto">

### <center> _Andrea Spinelli, Raffaele Terracino, Marco Valenti_
##### <center> 23 Giugno 

***
***

# __Indice__

###  [`1. Traccia`](#)
### [`2. Selezione dei dataset`](#)
##### &emsp;&emsp; [`2.1 Raccolta`](#)
##### &emsp;&emsp; [`2.2 Licenze`](#)
### [`3. Elaborazione dei dataset`](#)
##### &emsp;&emsp; [`3.1 Pulizia e selezione dei dati rilevanti`](#)
##### &emsp;&emsp; [`3.2 Arricchimento`](#)
### [`4. Trasformazione dei dataset a 5 stelle`](#)
##### &emsp;&emsp; [`4.1 Ontologia`](#)
##### &emsp;&emsp; [`4.2 Creazione grafo RDF`](#)
##### &emsp;&emsp; [`4.3 Interlinking del grafo RDF`](#)
### [`5. Data visualization`](#)
### [`6. Creazione di un'applicazione`](#)

***
***
# __1 Traccia__

<u> Utilizzando il linguaggio Python, per lo sviluppo del progetto si devono innanzitutto rispettare i seguenti passi: </u>

- _Selezione dati;_
- _Elaborazione dati (data cleaning, definizione struttura omogenea);_
- _Open Linked Data (creazione di uno strato semantico, ontologie, interlinking)._
 
<u> Dopodiché si può passare, opzionalmente, allo sviluppo del servizio tramite: </u> 
- _Creazione di un bot telegram._

<u> Siano i seguenti dataset (forniti in allegato): </u>

__farmacie.csv,__

__parafarmacie.csv,__

__strutture_sanitarie_pubbliche.csv,__

__strutture_sanitarie_private.csv.__

<u> Si vuole realizzare un servizio in ambito “Salute” che fornisca le posizioni e le disponibilità delle strutture mediche nella regione siciliana. </u>

Si suppone che un utente del servizio abbia bisogno di dover andare a fare una visita dermatologica (struttura privata), oppure una visita ad un consultorio (struttura pubblica), tuttavia non conosce la posizione della struttura; quindi, può interrogare il servizio affinché possa trovare in un raggio di 𝑥 metri, data la sua posizione, un elenco (messaggio testuale, posizioni, …) di strutture specializzate nel campo desiderato. 

È possibile inoltre che l’utente, dopo una visita, abbia la prescrizione di alcuni farmaci; pertanto, avrà bisogno della locazione delle farmacie, o parafarmacie, più vicine. Il servizio di tale richiesta funziona allo stesso modo di quello precedente, inoltre si può fornire anche il recapito telefonico per effettuare la prenotazione dei farmaci. 

***
***
# __2 Selezione dei dataset__


### __2.1 Raccolta__

I dataset utilizzati per la realizzazione della base di conoscenza riguardano Farmacie, Parafarmacie, Strutture sanitarie Pubbliche, Strutture Sanitarie Private e la Popolazione residente in Sicilia nell'anno 2023. L'obiettivo della base di conoscenza è racchiudere tutti gli esercizi sanitari presenti in Sicilia.

L'ultimo dataset, in particolare, risulta fondamentale per raccontare una storia basandosi sugli altri dataset.

Seguono i link da cui sono stati reperiti i dataset

`Farmacie:` <br>
_https://www.dati.salute.gov.it/dati/dettaglioDataset.jsp?menu=dati&idPag=5_

`Parafarmacie:` <br>
_https://www.dati.salute.gov.it/dati/dettaglioDataset.jsp?menu=dati&idPag=7_

`Strutture Sanitarie Pubbliche:` <br>
_https://dati.regione.sicilia.it/catalogo/da5a0f1f-82b4-472f-b3dd-458295983a97_

`Strutture Sanitarie Private:` <br>
_http://pti.regione.sicilia.it/portal/page/portal/PIR_PORTALE/PIR_LaStrutturaRegionale/PIR_AssessoratoSalute/PIR_DipPianificazioneStrategica/PIR_Infoedocumenti/PIR_8713479.360776903/PIR_Strutturesanitarieprivateaccreditate_

`Popolazione Sicilia, 1 Gen 2023:` <br>
_http://dati.istat.it/Index.aspx?QueryId=19101_

***

### __2.2 Licenze__

`Farmacie:` Italian Open Data Licence v2.0

`Parafarmacie:` Italian Open Data Licence v2.0

`Strutture Sanitarie Pubbliche:` Creative Commons BY, versione 4.0

`Strutture Sanitarie Private:` Licenza specificata nel decreto legislativo n. 33/2013, che specifica che "documenti, le informazioni e i dati oggetto di pubblicazione obbligatoria ai sensi della normativa vigente, resi disponibili anche a seguito dell'accesso civico di cui all'articolo 5, sono pubblicati in formato di tipo aperto ai sensi dell'articolo 68 del Codice dell'amministrazione digitale, di cui al decreto legislativo 7 marzo 2005, n. 82, e sono riutilizzabili ai sensi del decreto legislativo 24 gennaio 2006, n. 36, del decreto legislativo 7 marzo 2005, n. 82, e del decreto legislativo 30 giugno 2003, n. 196, senza ulteriori restrizioni diverse dall'obbligo di citare la fonte e di rispettarne l'integrità"

`Popolazione Sicilia, 1 Gen 2023:` Creative Commons BY, versione 3.0 (specificato al link https://www.istat.it/it/note-legali)

***
***
# __3 Elaborazione dei dataset__

### __3.1 Pulizia e selezione dei dati rilevanti__

Si è notato innanzitutto che i dataset puri non erano tutti adatti allo stesso modo, infatti, si sono riscontrate due problematiche:
1. Encoding dei dataset differenti, a causa delle loro diversi origini;
2. Errori vari dovuti a `;` o `,` non correttamente inseriti.

La problematica 1. si è riscontrata a causa degli errori di lettura dei file `CSV` da parte del metodo `read_csv()` di `Pandas`, inoltre se ne è veriificata la veridicità tramite il comando `file` di Unix.<br>
Per ovviare a tale problema si è deciso prima di tutto come encoding più adatto ai dataset scelti l'`UTF-8`, dopodiché si è passati alla conversione dell'encoding dei file tramite un convertitore online che, in quanto i file `CSV` sono alla base dei testi, non ha generato problemi problemi di conversione nei dataset.

La problematica 2. si è riscontrata tramite lettura e osservazioni preventive all'uso dei dataset, i quali quest'ultimi presentavano errori di compiliazioni facilmente individuabili, appunto, si è fatto semplice uso dello strumento `Find and Replace`.

Gli strumenti adoperati per la pulizia dei dataset includono `frictionless`, `Open Refine`, l'estensione `Edit csv` di `VS Code` e `Microsoft Excel`.

I dataset relativi a questa prima elaborazione sono stati raccolti in: `../datasets/cleaned/`. <br>

Proseguendo con l'elaborazione dei dataset, sono seguite altre due osservazioni:
1. Alcune **righe** dei dataset presentano dati di regioni aggiuntive oltre la Sicilia (a cui è stato circoscritto il progetto);
2. Siccome i dataset sono circoscritti ad una regione, alcune **colonne** ripetevano un medesimo dato per tutti i dataset.

Entrambe le osservazioni sono state ovviate sempre in fase di pre-processing mediante lo strumento `Excel`. <br>
La 1. selezionando le righe cui presentavano il campo "Regione = Sicilia" e rimuovendo le altre; la 2., similmente, eliminando direttamente i campi superflui più quelli non adatti allo scopo del progetto.

Questa seconda elaborazione dei dataset è stata riportata in: `../datasets/pivoted/`.

***

### __3.2 Arricchimento__

Successiva alla fase di pulizia e selezione, si è introdotta una fase di arricchimento dei dataset.

Tale scelta è stata effettuata dopo varie osservazioni preventive per le fasi successive dei dataset, i motivi principi sono stati: <br>
l'agevolazione della trasformazione dei dataset a 4 stelle nel formato RDF, <br>
l'agevolazione della trasformazione dei dataset a 5 stelle per l'interlinking.

Per quest'ultima fase si è fatto uso della libreria `OSMPythonTools.nominatim` che offre la possibilità di fare richiesta ai database di OpenStreetMap, inoltre fornisce un servizio di caching molto vantaggioso all'uso in quanto, fatta una serie di richieste, scarica e salva tutti i dati in una cartella a parte che, in caso di riavvio del programma, riduce il tempo dello script localmente.

In [None]:
import pandas as pd

comuni = pd.read_csv("../datasets/csv/selected/popolazione_sicilia.csv", sep=',', skiprows=[1])
farmacie = pd.read_csv('../datasets/csv/cleaned/farmacie.csv', sep=';') #si prende quello clenead per considerare più comuni

comuni['Territorio'] = comuni['Territorio'].apply(lambda x : x.title().replace('à', 'a\'').replace('è', 'e\'').replace('ì', 'i\'').replace('ò', 'o\'').replace('ù', 'u\''))
farmacie['DESCRIZIONECOMUNE'] = farmacie['DESCRIZIONECOMUNE'].apply(lambda x : x.title())
joined = comuni.merge(farmacie, left_on='Territorio', right_on='DESCRIZIONECOMUNE')

df2=joined.drop_duplicates(subset=['Territorio'], keep='first')

df3=df2.rename(columns={"Territorio": "Comune", "Value": "PopolazioneTotale", "DESCRIZIONEPROVINCIA" : "Provincia", "SIGLAPROVINCIA":"SiglaProvincia"})
df3.to_csv('comuni_sicilia.csv', columns=['Comune', 'PopolazioneTotale', 'Provincia', 'SiglaProvincia'], index=False)

Inizializzazione dei dataset da arricchire in delle variabili:

In [1]:
import pandas as pd

df_private = pd.read_csv("../datasets/csv/selected/strutture_sanitarie_private.csv", on_bad_lines="skip", delimiter=";", encoding="utf-8")
df_pubbliche = pd.read_csv("../datasets/csv/selected/strutture_sanitarie_pubbliche.csv", on_bad_lines="skip", delimiter=";", encoding="utf-8")
df_farma = pd.read_csv("../datasets/csv/selected/farmacie.csv", on_bad_lines="skip", delimiter=",", encoding="utf-8")

df_private.columns = df_private.columns.str.strip()
df_pubbliche.columns = df_pubbliche.columns.str.strip()
df_farma.columns = df_farma.columns.str.strip()

Si arricchisce `private.csv` con `CAP`, `Latitudine` e `Longitudine`:

In [None]:
from OSMPythonTools.nominatim import Nominatim
from pathlib import Path
import pandas as pd
import re

nominatim = Nominatim()
results = []

LOC = []
LAT = []
LON = []

for via, citta in zip(df_private["Indirizzo"], df_private["Citta\'"]):
    
    via = str(via).lower().replace('a\'', 'a').replace('e\'', 'e').replace('i\'', 'i').replace('o\'', 'o').replace('u\'', 'u')
    citta = str(citta).lower().replace('a\'', 'a').replace('e\'', 'e').replace('i\'', 'i').replace('o\'', 'o').replace('u\'', 'u')

    res = nominatim.query(via + " " + citta)
    results.append(res)

for item in results:
    tmp = item.toJSON()
    if len(tmp) != 0:
        LAT.append(tmp[0]['lat'])
        LON.append(tmp[0]['lon'])
        cap = re.search(r'\d{5}',tmp[0]['display_name'])
        if cap is not None:
            LOC.append(cap.group())
        else:
            LOC.append(0)
    else:
        LAT.append(0.0)
        LON.append(0.0)
        LOC.append(0)
            
df_private.insert(loc=0, column='Longitudine', value=pd.Series(LON))
df_private.insert(loc=0, column='Latitudine', value=pd.Series(LAT))
df_private.insert(loc=0, column='CAP', value=pd.Series(LOC))

filepath = Path('../datasets/csv/completed/private.csv')
df_private.to_csv(filepath, index=False)

Si arricchisce `pubbliche.csv` con `Comune`, `Latitudine` e `Longitudine`:

In [None]:
from OSMPythonTools.nominatim import Nominatim
from pathlib import Path
import pandas as pd
import re

nominatim = Nominatim()
results = []

COM = []
LAT = []
LON = []

for via, cap in zip(df_pubbliche["Indirizzo"], df_pubbliche["CAP"]):
    
    via = str(via).lower().replace('a\'', 'a').replace('e\'', 'e').replace('i\'', 'i').replace('o\'', 'o').replace('u\'', 'u')
    cap = str(cap).lower().replace('a\'', 'a').replace('e\'', 'e').replace('i\'', 'i').replace('o\'', 'o').replace('u\'', 'u')

    res = nominatim.query(via + " " + cap)
    results.append(res)
    
for item in results:
    tmp = item.toJSON()
    if len(tmp) != 0:
        LAT.append(tmp[0]['lat'])
        LON.append(tmp[0]['lon'])
        com = re.search(r', (\w*), Sicilia',tmp[0]['display_name'])
        if com is not None:
            COM.append(com[1])
        else:
            COM.append("")
    else:
        LAT.append(0.0)
        LON.append(0.0)
        COM.append("")
            
df_pubbliche.insert(loc=0, column='Longitudine', value=pd.Series(LON))
df_pubbliche.insert(loc=0, column='Latitudine', value=pd.Series(LAT))
df_pubbliche.insert(loc=0, column='Comune', value=pd.Series(COM))

filepath = Path('../datasets/csv/completed/pubbliche.csv')
df_pubbliche.to_csv(filepath, index=False)

Si rielaborano i campi `LATITUDINE` e `LONGITUDINE` di `farmacie.csv`, in quanto le ultime due centinaia dei campi mancano di informazioni. <br>
Si inseriscono in un CSV temporaneo i dati mancanti, si rielaborano allo stesso modo dei due file precedenti, sovracrivendo i campi esistenti, e si concatenato con quello originale:

In [2]:
from OSMPythonTools.nominatim import Nominatim
from pathlib import Path
import pandas as pd

df_farma_tmp = pd.read_csv("../datasets/csv/selected/farmacie_tmp.csv", on_bad_lines="skip", encoding="utf-8")

nominatim = Nominatim()
results = []

LAT = []
LON = []

for via, citta in zip(df_farma_tmp["INDIRIZZO"], df_farma_tmp["DESCRIZIONECOMUNE"]):

    via = str(via).lower().replace('a\'', 'a').replace('e\'', 'e').replace('i\'', 'i').replace('o\'', 'o').replace('u\'', 'u')
    citta = str(citta).lower().replace('a\'', 'a').replace('e\'', 'e').replace('i\'', 'i').replace('o\'', 'o').replace('u\'', 'u')

    res = nominatim.query(via + "," + citta)
    results.append(res)

for item in results:
    tmp = item.toJSON()
    if len(tmp) != 0:
        LAT.append(tmp[0]['lat'])
        LON.append(tmp[0]['lon'])
    else:
        LAT.append(0.0)
        LON.append(0.0)

df_farma_tmp["LONGITUDINE"] = pd.Series(LON)
df_farma_tmp["LATITUDINE"] = pd.Series(LAT)

###

df_farma["LATITUDINE"] = df_farma["LATITUDINE"].apply(lambda x : float(x.replace(',', '.')) if x != '-' else 0.0)
df_farma["LONGITUDINE"] = df_farma["LONGITUDINE"].apply(lambda x : float(x.replace(',', '.')) if x != '-' else 0.0)
df_farma["PARTITAIVA"] = df_farma["PARTITAIVA"].apply(lambda x : x if x != "-" else 0)
df_farma["INDIRIZZO"] = df_farma["INDIRIZZO"].apply(lambda x : x.replace('"', ''))

filepath = Path('../datasets/csv/selected/tmp.csv')
df_farma_tmp.to_csv(filepath, index=False)
df_farma_tmp = pd.read_csv("../datasets/csv/selected/tmp.csv", on_bad_lines="skip", encoding="utf-8")

###

df_farma = df_farma.convert_dtypes()
df_farma_tmp = df_farma_tmp.convert_dtypes()

df_farma = df_farma.drop(df_farma.loc[448:].index)
df_finale = pd.merge(df_farma, df_farma_tmp, how="outer")

filepath = Path('../datasets/csv/completed/farmacie.csv')
df_finale.to_csv(filepath, index=False)

Il salvataggio del dataset con i tipi corretti in un ulteriore file temporaneo è necessario per il corretto funzionamento per il merge con Pandas.

Quest'ultime elaborazioni dei dataset sono state riportate in: `../datasets/completed/`.

***
***
# __4 Trasformazione dei dataset a 5 stelle__

### __4.1 Ontologia__
L'ontologia è stata creata con il software Protègè..... ontologia_sanita.ttl
***

### __4.2 Creazione grafo RDF__




///some comment

In [None]:
import pandas as pd
import urllib.parse
from rdflib import Graph, Literal, Namespace, URIRef
from rdflib.namespace import RDF, RDFS

base_uri = "http://www.sanitasicilia.it/resource/"
g = Graph()

sso = Namespace("http://www.sanitasicilia.it/ontology/")
g.bind("sso", sso)

ssr = Namespace("http://www.sanitasicilia.it/resource/")
g.bind("ssr", ssr)

///Some comment COMUNI

In [None]:
def urify(ns, testo):
    testo=testo.replace(" ","_").replace("\'","")
    return ns+urllib.parse.quote(testo)

def addTriples(row):
    res = URIRef(urify(base_uri, row[0]))
    g.add([res, URIRef(RDF.type), URIRef(sso.Comune)])
    g.add([res, sso.hasName, Literal(row[0], datatype=XSD.string)])
    g.add([res, sso.hasTotalPopulation, Literal(row[1], datatype=XSD.integer)])
    g.add([res, sso.hasProvince, Literal(row[2], datatype=XSD.string)])
    g.add([res, sso.hasProvinceAcr, Literal(row[3], datatype=XSD.string)])

comuni_df = pd.read_csv("../datasets/csv/completed/comuni_sicilia.csv")

comuni_df.apply(lambda row : addTriples(row), axis=1)
g.serialize(destination='../datasets/rdf/comuni_sicilia.ttl', format='turtle')

///Some comment FARMACIE E PARAFARMACIE

In [None]:
def addTriples(row):
    res = URIRef(urify(base_uri, row[5]))
    g.add([res, URIRef(RDF.type), URIRef(sso.Farmacia)])
    g.add([res, sso.isIn, URIRef(urify(base_uri, row[2].title()))])
    g.add([res, sso.hasCap, Literal(row[3], datatype=XSD.integer)])
    g.add([res, sso.hasAddress, Literal(row[4], datatype=XSD.string)])
    g.add([res, sso.hasName, Literal(row[5], datatype=XSD.string)])
    g.add([res, sso.hasLatitude, Literal(row[6], datatype=XSD.decimal)])
    g.add([res, sso.hasLongitude, Literal(row[7], datatype=XSD.decimal)])
    g.add([res, sso.hasVatNumber, Literal(row[8], datatype=XSD.integer)])

farmacie_df = pd.read_csv("../datasets/csv/completed/farmacie.csv", sep=';')
farmacie_df["LATITUDINE"] = farmacie_df["LATITUDINE"].apply(lambda x : float(x.replace(',', '.')) if x != '-' else 0.0)
farmacie_df["LONGITUDINE"] = farmacie_df["LONGITUDINE"].apply(lambda x : float(x.replace(',', '.')) if x != '-' else 0.0)
farmacie_df["PARTITAIVA"] = farmacie_df["PARTITAIVA"].apply(lambda x : x if x != '-' else 0)

parafarmacie_df = pd.read_csv("../datasets/csv/completed/parafarmacie.csv", sep=';')
parafarmacie_df["LATITUDINE"] = parafarmacie_df["LATITUDINE"].apply(lambda x : float(x.replace(',', '.')) if x != '-' else 0.0)
parafarmacie_df["LONGITUDINE"] = parafarmacie_df["LONGITUDINE"].apply(lambda x : float(x.replace(',', '.')) if x != '-' else 0.0)
parafarmacie_df["PARTITAIVA"] = parafarmacie_df["PARTITAIVA"].apply(lambda x : x if x != '-' else 0)

g = Graph()
farmacie_df.apply(lambda row : addTriples(row), axis=1)
g.serialize(destination='../datasets/rdf/farmacie.ttl', format='turtle')

g = Graph() #attualmente, per debug rdf separati
parafarmacie_df.apply(lambda row : addTriples(row), axis=1)
g.serialize(destination='../datasets/rdf/parafarmacie.ttl', format='turtle')

***

### __4.3 Interlinking del grafo RDF__




///some comment

***
***
# __5 Data visualization__

### <center> **uMap locations**


<div align = "center">
	<table width="90%" style="border: hidden;">
		<tbody>
			<tr style="border: hidden;">
				<td align = "center" style="border: hidden;">Farmacie</td>
				<td align = "center" style="border: hidden;">Parafarmacie</td>
			</tr>
			<tr style="border: hidden;">
				<td class="dcf-txt-center" style="border: hidden;">
					<iframe src="https://umap.openstreetmap.fr/it/map/farmacie_930881" width="100%" height="400px"></iframe>
				</td>
				<td class="dcf-txt-center" style="border: hidden;">
					<iframe src="https://umap.openstreetmap.fr/it/map/parafarmacie_930888" width="100%" height="400px"></iframe>
					</td>
			</tr>
			<tr style="border: hidden;">
				<td align = "center" style="border: hidden;">Strutture sanitarie pubbliche</td>
				<td align = "center" style="border: hidden;">Strutture sanitarie private</td>
			</tr>
			<tr style="border: hidden;">
				<td class="dcf-txt-center" style="border: hidden;">
					<iframe src="https://umap.openstreetmap.fr/it/map/strutture-sanitarie-pubbliche_930890" width="100%" height="400px"></iframe>
				</td>
				<td class="dcf-txt-center" style="border: hidden;">
					<iframe src="https://umap.openstreetmap.fr/it/map/strutture-sanitarie-private_930895" width="100%" height="400px"></iframe>
					</td>
			</tr>
		</tbody>
	</table>
</div>

***
***
# __6 Creazione di un'applicazione__
