In [1]:
import os
import sys

In [2]:
import pandas as pd
import geopandas as gpd
import numpy as np
import matplotlib.pyplot as plt

In [3]:
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

from utils import region_formatter

In [4]:
df_patients = pd.read_csv(
    '../datasets/C_17_dataset_190_0_upFile.csv',
    delimiter=";",
    skiprows=3,
    keep_default_na=False)

In [5]:
df_patients

Unnamed: 0,Anno,Codice regione,Descrizione Regione,Codice ASL,ASL,SERD,Categoria Sostanza,Utenti
0,2022,10,PIEMONTE,203,TO3,A12,OPPIACEI,1
1,2022,10,PIEMONTE,203,TO3,B01,OPPIACEI,3
2,2022,10,PIEMONTE,203,TO3,B03,OPPIACEI,40
3,2022,10,PIEMONTE,203,TO3,S01,OPPIACEI,124
4,2022,10,PIEMONTE,203,TO3,S02,OPPIACEI,104
...,...,...,...,...,...,...,...,...
2775,2022,200,SARDEGNA,201,AZIENDA PER LA TUTELA DELLA SALUTE,S12,ALTRE SOSTANZE,
2776,2022,200,SARDEGNA,201,AZIENDA PER LA TUTELA DELLA SALUTE,S14,ALTRE SOSTANZE,
2777,2022,200,SARDEGNA,201,AZIENDA PER LA TUTELA DELLA SALUTE,S21,ALTRE SOSTANZE,
2778,2022,200,SARDEGNA,302,ASL N. 2 DELLA GALLURA,S06,ALTRE SOSTANZE,1


In [6]:
df_patients.dtypes

Anno                    int64
Codice regione          int64
Descrizione Regione    object
Codice ASL              int64
ASL                    object
SERD                   object
Categoria Sostanza     object
Utenti                 object
dtype: object

In [7]:
df_patients = df_patients.replace(r'^\s*$', np.nan, regex=True)

In [8]:
df_patients["Utenti"] = df_patients["Utenti"].astype(float)

In [9]:
df_patients["Descrizione Regione"].unique()

array(['PIEMONTE', "VALLE D'AOSTA", 'LOMBARDIA', 'PROV. AUTON. BOLZANO',
       'PROV. AUTON. TRENTO', 'VENETO', 'FRIULI VENEZIA GIULIA',
       'LIGURIA', 'EMILIA ROMAGNA', 'TOSCANA', 'UMBRIA', 'MARCHE',
       'LAZIO', 'ABRUZZO', 'MOLISE', 'CAMPANIA', 'PUGLIA', 'BASILICATA',
       'CALABRIA', 'SICILIA', 'SARDEGNA'], dtype=object)

In [10]:
formatter = region_formatter.RegionFormatter(df_patients)

In [11]:
formatter.format("Descrizione Regione")

In [12]:
df_patients["Descrizione Regione"].unique()

array(['piemonte', "valle d'aosta", 'lombardia', 'trentino alto adige',
       'veneto', 'friuli venezia giulia', 'liguria', 'emilia romagna',
       'toscana', 'umbria', 'marche', 'lazio', 'abruzzo', 'molise',
       'campania', 'puglia', 'basilicata', 'calabria', 'sicilia',
       'sardegna'], dtype=object)

In [13]:
df_patients

Unnamed: 0,Anno,Codice regione,Descrizione Regione,Codice ASL,ASL,SERD,Categoria Sostanza,Utenti
0,2022,10,piemonte,203,TO3,A12,OPPIACEI,1.0
1,2022,10,piemonte,203,TO3,B01,OPPIACEI,3.0
2,2022,10,piemonte,203,TO3,B03,OPPIACEI,40.0
3,2022,10,piemonte,203,TO3,S01,OPPIACEI,124.0
4,2022,10,piemonte,203,TO3,S02,OPPIACEI,104.0
...,...,...,...,...,...,...,...,...
2775,2022,200,sardegna,201,AZIENDA PER LA TUTELA DELLA SALUTE,S12,ALTRE SOSTANZE,
2776,2022,200,sardegna,201,AZIENDA PER LA TUTELA DELLA SALUTE,S14,ALTRE SOSTANZE,
2777,2022,200,sardegna,201,AZIENDA PER LA TUTELA DELLA SALUTE,S21,ALTRE SOSTANZE,
2778,2022,200,sardegna,302,ASL N. 2 DELLA GALLURA,S06,ALTRE SOSTANZE,1.0


In [14]:
df_patients = df_patients.rename(columns={
    "Descrizione Regione": "reg_name",
})

In [15]:
df_patients_regions_agg = df_patients.groupby([
    'reg_name',
])["Utenti"].sum().reset_index(name="users_sum")

In [16]:
df_patients_regions_agg

Unnamed: 0,reg_name,users_sum
0,abruzzo,3241.0
1,basilicata,1176.0
2,calabria,3090.0
3,campania,8462.0
4,emilia romagna,9139.0
5,friuli venezia giulia,1983.0
6,lazio,11767.0
7,liguria,3969.0
8,lombardia,23161.0
9,marche,4962.0


In [17]:
df_patients_regions_agg.to_pickle("{}/df_patients_regions_agg.pkl".format(os.getcwd()))