In [74]:
import os

In [75]:
import pandas as pd
import geopandas as gpd
import numpy as np
import matplotlib.pyplot as plt

In [76]:
### Constants
OUTPUT_DIR = "output"
JOB = "SSMP01"
JOB_TEXT = "Medico"
YEAR = "2022"

In [77]:
if not os.path.exists(OUTPUT_DIR):
    # Create the directory
    os.makedirs(OUTPUT_DIR)

# prepare dataframe

In [78]:
df = pd.read_csv(
    '../datasets/C_17_dataset_188_0_upFile.csv',
    delimiter=";",
    keep_default_na=False)

In [79]:
df

Unnamed: 0,ANNO DI RIFERIMENTO,CODICE REGIONE,DENOMINAZIONE REGIONE,CODICE AZIENDA,DENOMINAZIONE AZIENDA,CODICE SERD,DENOMINAZIONE SERD,CODICE QUALIFICA,DESCRIZIONE QUALIFICA,NUM. DIP. TEMPO PIENO,...,NUM. DIP. PART TIME OLTRE 50%,NUM. DIP. PART TIME OLTRE 50% U,NUM. DIP. PART TIME OLTRE 50% D,PERSONALE DIPENDENTE,PERSONALE DIPENDENTE U,PERSONALE DIPENDENTE D,ALTRO RAPPORTO,ALTRO RAPPORTO U,ALTRO RAPPORTO D,"TOTALE PERSONALE,,"
0,2021,010,PIEMONTE,203,TO3,S01,Servizio per le dipendenze di VIA MARTIRI XXX...,ASMP01,PERSONALE AMMINISTRATIVO,1,...,0,0,0,1,0,1,0,0,0,"1,,"
1,2021,010,PIEMONTE,203,TO3,S01,Servizio per le dipendenze di VIA MARTIRI XXX...,SMS046,DI CUI PSICHIATRI,1,...,0,0,0,1,0,1,0,0,0,"1,,"
2,2021,010,PIEMONTE,203,TO3,S01,Servizio per le dipendenze di VIA MARTIRI XXX...,SSMP01,MEDICO,2,...,0,0,0,2,0,2,0,0,0,"2,,"
3,2021,010,PIEMONTE,203,TO3,S01,Servizio per le dipendenze di VIA MARTIRI XXX...,SSMP03,PERSONALE INFERMIERISTICO,3,...,0,0,0,4,0,4,0,0,0,"4,,"
4,2021,010,PIEMONTE,203,TO3,S01,Servizio per le dipendenze di VIA MARTIRI XXX...,SSMP05,EDUCATORE PROFESSIONALE,5,...,0,0,0,5,1,4,0,0,0,"5,,"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2846,,,,,,,,,,,...,,,,,,,,,,",,"
2847,,,,,,,,,,,...,,,,,,,,,,",,"
2848,,,,,,,,,,,...,,,,,,,,,,",,"
2849,,,,,,,,,,,...,,,,,,,,,,",,"


In [80]:
df["DENOMINAZIONE REGIONE"].unique()

array(['PIEMONTE             ', 'VALLE D`AOSTA        ',
       'LOMBARDIA            ', 'PROV. AUTON. BOLZANO ',
       'PROV. AUTON. TRENTO  ', 'VENETO               ',
       'FRIULI VENEZIA GIULIA', 'LIGURIA              ',
       'EMILIA ROMAGNA       ', 'TOSCANA              ',
       'UMBRIA               ', 'MARCHE               ',
       'LAZIO                ', 'ABRUZZO              ',
       'MOLISE               ', 'CAMPANIA             ',
       'PUGLIA               ', '', 'BASILICATA           ',
       'CALABRIA             ', 'SICILIA              ',
       'SARDEGNA             '], dtype=object)

In [81]:
df['DENOMINAZIONE REGIONE'] = df['DENOMINAZIONE REGIONE'].str.strip()

In [82]:
df.loc[df["DENOMINAZIONE REGIONE"] == 'PROV. AUTON. BOLZANO', "DENOMINAZIONE REGIONE"] = 'trentino-alto adige'

In [83]:
df.loc[df["DENOMINAZIONE REGIONE"] == 'PROV. AUTON. TRENTO', "DENOMINAZIONE REGIONE"] = 'trentino-alto adige'

In [84]:
df['DENOMINAZIONE REGIONE'] = df['DENOMINAZIONE REGIONE'].str.lower()

In [85]:
df['DENOMINAZIONE REGIONE'] = df['DENOMINAZIONE REGIONE'].map(lambda x: x.replace("-", " "))

In [86]:
df['DENOMINAZIONE REGIONE'] = df['DENOMINAZIONE REGIONE'].map(lambda x: x.replace("`", "'"))

In [87]:
df["TOTALE PERSONALE,,"] = df["TOTALE PERSONALE,,"].map(lambda x: x.replace(",", ""))

In [88]:
df = df.rename(columns={
    "DENOMINAZIONE REGIONE": "reg_name",
    "TOTALE PERSONALE,,": "tot_personal"
})

In [89]:
df["tot_personal"].unique()

array(['1', '2', '4', '5', '3', '7', '8', '6', '9', '12', '0', '13', '11',
       '14', '18', '34', '15', '10', '16', ''], dtype=object)

In [90]:
df = df.replace(r'^\s*$', np.nan, regex=True)

In [91]:
df["tot_personal"] = df["tot_personal"].astype(float)

In [92]:
df.columns


Index(['ANNO DI RIFERIMENTO', 'CODICE REGIONE', 'reg_name', 'CODICE AZIENDA',
       'DENOMINAZIONE AZIENDA', 'CODICE SERD', 'DENOMINAZIONE SERD',
       'CODICE QUALIFICA', 'DESCRIZIONE QUALIFICA', 'NUM. DIP. TEMPO PIENO',
       'NUM. DIP. TEMPO PIENO U', 'NUM. DIP. TEMPO PIENO D',
       'NUM. DIP. PART TIME FINO 50%', 'NUM. DIP. PART TIME FINO 50% U',
       'NUM. DIP. PART TIME FINO 50% D', 'NUM. DIP. PART TIME OLTRE 50%',
       'NUM. DIP. PART TIME OLTRE 50% U', 'NUM. DIP. PART TIME OLTRE 50% D',
       'PERSONALE DIPENDENTE', 'PERSONALE DIPENDENTE U',
       'PERSONALE DIPENDENTE D', 'ALTRO RAPPORTO', 'ALTRO RAPPORTO U',
       'ALTRO RAPPORTO D', 'tot_personal'],
      dtype='object')

In [93]:
df["reg_name"].unique()

array(['piemonte', "valle d'aosta", 'lombardia', 'trentino alto adige',
       'veneto', 'friuli venezia giulia', 'liguria', 'emilia romagna',
       'toscana', 'umbria', 'marche', 'lazio', 'abruzzo', 'molise',
       'campania', 'puglia', nan, 'basilicata', 'calabria', 'sicilia',
       'sardegna'], dtype=object)

# Prepare geodataframe

In [94]:
if not os.path.exists("regions_df.pkl"):
    %run ../dataframes/regions_gdf.ipynb -i

In [95]:
regions_df = pd.read_pickle("regions_df.pkl")

In [96]:
regions_df

Unnamed: 0,reg_name,reg_istat_code_num,reg_istat_code,geometry,zone
0,piemonte,1,1,"POLYGON ((7.13605 45.27996, 7.13601 45.28040, ...",Nord
1,valle d'aosta,2,2,"POLYGON ((7.73455 45.92365, 7.73590 45.92744, ...",Nord
2,lombardia,3,3,"MULTIPOLYGON (((8.57964 45.75172, 8.57532 45.7...",Nord
3,trentino alto adige,4,4,"POLYGON ((12.01396 46.55091, 12.01376 46.55077...",Nord
4,veneto,5,5,"POLYGON ((10.63538 45.53543, 10.63228 45.56846...",Nord
5,friuli venezia giulia,6,6,"MULTIPOLYGON (((13.51691 46.38301, 13.51750 46...",Nord
6,liguria,7,7,"MULTIPOLYGON (((7.55166 43.89429, 7.56264 43.9...",Nord
7,emilia romagna,8,8,"MULTIPOLYGON (((9.33258 44.73504, 9.33167 44.7...",Centro
8,toscana,9,9,"MULTIPOLYGON (((9.89786 44.16359, 9.89451 44.1...",Centro
9,umbria,10,10,"MULTIPOLYGON (((13.15849 42.65425, 13.15764 42...",Centro


In [97]:
regions_df["reg_name"].unique()

array(['piemonte', "valle d'aosta", 'lombardia', 'trentino alto adige',
       'veneto', 'friuli venezia giulia', 'liguria', 'emilia romagna',
       'toscana', 'umbria', 'marche', 'lazio', 'abruzzo', 'molise',
       'campania', 'puglia', 'basilicata', 'calabria', 'sicilia',
       'sardegna'], dtype=object)

# MD Data

In [98]:
df_job = df.loc[df["CODICE QUALIFICA"] == JOB, ["reg_name",  "tot_personal"] ]

In [99]:
df_job

Unnamed: 0,reg_name,tot_personal
2,piemonte,2.0
8,piemonte,2.0
13,piemonte,2.0
17,piemonte,2.0
30,piemonte,1.0
...,...,...
2796,sardegna,2.0
2803,sardegna,3.0
2810,sardegna,5.0
2818,sardegna,7.0


In [100]:
df_job.columns

Index(['reg_name', 'tot_personal'], dtype='object')

In [107]:
df_serd_count = df_job.groupby(["reg_name"])["reg_name"].count().reset_index(name="serd_count")

Unnamed: 0,reg_name,serd_count
0,abruzzo,11
1,basilicata,5
2,calabria,15
3,campania,41
4,emilia romagna,37
5,friuli venezia giulia,6
6,lazio,30
7,liguria,14
8,lombardia,79
9,marche,14


In [None]:
df_job = df_job.groupby([
    'reg_name',
]).sum().reset_index()

In [None]:
gdf_job = regions_df.merge(df_job, on="reg_name")

In [None]:
gdf_job = gdf_job.merge(df_serd_count, on="reg_name")

In [None]:
gdf_job

In [None]:
plot_title = "Totale personale medico per SerD per regione - Anno {}".format(
    JOB_TEXT,
    YEAR
)

In [None]:
plot_job = gdf_job.plot(
    column="tot_personal",
    legend=True,
    cmap='OrRd'
);
plt.title(plot_title)
plot_job.set_axis_off()
plt.annotate('fonte: Ministero della salute', (0,0), (260, -30), xycoords='axes fraction', textcoords='offset points', va='top')

In [None]:
plot_job.get_figure().savefig('output/plot_job.png')