# COVID-19 data reader

Questo notebook carica i dati regionali riguardanti la diffusione e la gestione del COVID-19 direttamente dal repository delle Protezione civile.

I dati sono così organizzati:
- per ciascuna feature si crea un dizionario i cui elementi sono le regioni, accessibili per nome (es. `trend[indicatore][regione]`)
- ogni elemento contiene il valore misurato nei giorni di osservazione
- le date sono nella lista di stringhe `giorni`
- è stata creata una entry per ciascun dizionario dell'indicatore per l'*Italia*. Questo indicatore, per quanto riguarda gli indicatori di base originali, ne è la somma, sltrimenti è opportunamente calcolato.


Fonte dati: *Presidenza del Consiglio dei Ministri - Dipartimento della Protezione Civile*

https://github.com/pcm-dpc/COVID-19

> **NOTA** Questo notebook nasce per condividere il proprio kernel con altri notebooks dove vengono effettuate e visualizzate le analisi vere e proprie.

## Lista indicatori raccolti nella struttura dati

**Originali:**
- ricoverati_con_sintomi
- terapia_intensiva
- totale_ospedalizzati
- isolamento_domiciliare
- totale_positivi
- variazione_totale_positivi
- nuovi_positivi
- dimessi_guariti
- deceduti
- totale_casi
- tamponi
- casi_da_sospetto_diagnostico
- casi_da_screening

**Derivati:**
- tamponi_giornalieri
- casi_da_sospetto_diagnostico_giornalieri
- casi_da_screening_giornalieri
- deceduti_giornalieri
- perc_tamponi_positivi
- perc_guariti_su_positivi
- perc_deceduti_su_positivi

**Altre variabili:**
- giorni
- day_counter
- regioni
- eventi (dizionario di eventi notevoli con data)
    - data (str)
    - id_giorno (indice del giorno dell'evento)
    - desc (str)
- posti in TI per regione

In [16]:
import pandas as pd
import numpy as np
import datetime



import warnings
warnings.filterwarnings('ignore')

## Parametri

In [17]:
#data_file='dpc-covid19-ita-regioni.csv' # locale non aggiornato
data_file='https://raw.githubusercontent.com/pcm-dpc/COVID-19/master/dati-regioni/dpc-covid19-ita-regioni.csv'

## Lettura dati e preprocessing

In [18]:
data=pd.read_csv(data_file)
print(data.columns)

giorni=pd.unique(data['data'])
day_counter=list(range(len(giorni)))
print('Giorni osservati: %d'%len(giorni))
print('Da: %s'%giorni[0][0:10])
print(' A: %s'%giorni[-1][0:10])
regioni=pd.unique(data['denominazione_regione'])

#data[data['denominazione_regione']=='Lombardia'].head(5)
data[data['denominazione_regione']=='Toscana'].tail(5)


Index(['data', 'stato', 'codice_regione', 'denominazione_regione', 'lat',
       'long', 'ricoverati_con_sintomi', 'terapia_intensiva',
       'totale_ospedalizzati', 'isolamento_domiciliare', 'totale_positivi',
       'variazione_totale_positivi', 'nuovi_positivi', 'dimessi_guariti',
       'deceduti', 'casi_da_sospetto_diagnostico', 'casi_da_screening',
       'totale_casi', 'tamponi', 'casi_testati', 'note'],
      dtype='object')
Giorni osservati: 252
Da: 2020-02-24
 A: 2020-11-01


Unnamed: 0,data,stato,codice_regione,denominazione_regione,lat,long,ricoverati_con_sintomi,terapia_intensiva,totale_ospedalizzati,isolamento_domiciliare,...,variazione_totale_positivi,nuovi_positivi,dimessi_guariti,deceduti,casi_da_sospetto_diagnostico,casi_da_screening,totale_casi,tamponi,casi_testati,note
5204,2020-10-28T17:00:00,ITA,9,Toscana,43.769231,11.255889,857,130,987,21373,...,1320,1708,13335,1297,29543.0,7449.0,36992,1041270,696653.0,
5225,2020-10-29T17:00:00,ITA,9,Toscana,43.769231,11.255889,956,137,1093,22877,...,1610,1966,13678,1310,31190.0,7768.0,38958,1056864,706557.0,
5246,2020-10-30T17:00:00,ITA,9,Toscana,43.769231,11.255889,1007,153,1160,25260,...,2450,2765,13983,1320,33468.0,8255.0,41723,1074698,717521.0,effettuati 12488 tamponi rapidi antigenici di ...
5267,2020-10-31T17:00:00,ITA,9,Toscana,43.769231,11.255889,1046,163,1209,26635,...,1424,2540,15074,1345,35553.0,8710.0,44263,1090874,727110.0,
5288,2020-11-01T17:00:00,ITA,9,Toscana,43.769231,11.255889,1106,173,1279,28695,...,2130,2379,15305,1363,37515.0,9127.0,46642,1106715,736419.0,


### Lettura dati popolazione

In [19]:
dati_pop=pd.read_excel('popolazione_regioni.xlsx')
#dati_pop
pop_keys=list(dati_pop['Regione'])


popolazione = {pop_keys[i]: dati_pop.iloc[i]['Popolazione'] for i in range(len(pop_keys))} 

popolazione

{'Lombardia': 10060574,
 'Lazio': 5879082,
 'Campania': 5801692,
 'Sicilia': 4999891,
 'Veneto': 4905854,
 'Emilia-Romagna': 4459477,
 'Piemonte': 4356406,
 'Puglia': 4029053,
 'Toscana': 3729641,
 'Calabria': 1947131,
 'Sardegna': 1639591,
 'Liguria': 1550640,
 'Marche': 1525271,
 'Abruzzo': 1311580,
 'Friuli Venezia Giulia': 1215220,
 'P.A. Trento': 1072276,
 'Umbria': 882015,
 'Basilicata': 562869,
 'Molise': 305617,
 "Valle d'Aosta": 125666,
 'P.A. Bolzano': 106441}

### Inserimento dati capacità TI

In [20]:
posti_ti_covid={'Lombardia': 1446,
 'Lazio': 845,
 'Campania': 834,
 'Sicilia': 719,
 'Veneto': 705,
 'Emilia-Romagna': 646,
 'Piemonte': 626,
 'Puglia': 580,
 'Toscana': 567,
 'Calabria': 280,
 'Sardegna': 235,
 'Liguria': 237,
 'Marche': 220,
 'Abruzzo': 189,
 'Friuli Venezia Giulia': 175,
 'P.A. Trento': 78,
 'Umbria': 128,
 'Basilicata': 81,
 'Molise': 44,
 "Valle d'Aosta": 20,
 'P.A. Bolzano': 77,
 'Italia':8732}

posti_ti_antecovid={'Lombardia': 861,
 'Lazio': 571,
 'Campania': 335,
 'Sicilia': 418,
 'Veneto': 494,
 'Emilia-Romagna': 449,
 'Piemonte': 327,
 'Puglia': 304,
 'Toscana': 374,
 'Calabria': 146,
 'Sardegna': 134,
 'Liguria': 180,
 'Marche': 115,
 'Abruzzo': 123,
 'Friuli Venezia Giulia': 120,
 'P.A. Trento': 32,
 'Umbria': 70,
 'Basilicata': 49,
 'Molise': 30,
 "Valle d'Aosta": 10,
 'P.A. Bolzano': 37,
 'Italia':5179}



# si stima che GLOBALMENTE siano stati approntati il 38% dei nuovi posti TI
posti_ti_stimati={}
for r in regioni:
    posti_ti_stimati[r]=np.round(posti_ti_antecovid[r]+(posti_ti_covid[r]-posti_ti_antecovid[r])*.38)
    
posti_ti_stimati['Italia']=np.round(posti_ti_antecovid['Italia']+(posti_ti_covid['Italia']-posti_ti_antecovid['Italia'])*.38)

### Inserimento di eventi notevoli riferiti a date

In [21]:
lockdown={'data':'2020-03-10',
          'id_giorno':15,
          'desc':'Lockdown'}

scuole_chiuse={'data':'2020-03-04',
               'id_giorno':9,
               'desc':'Scuole chiuse'}

fase_2={'data':'2020-05-04',
               'id_giorno':71,
               'desc':'Fase2'}


eventi=[scuole_chiuse,lockdown, fase_2]

## Analisi

### Creazione della struttura dati

- Si crea un dizionario per ciascuno degli indicatori selezionati
- a sua volta ciascun elemento del primo dizionario è un dizionario con le regioni come chiave
    - ogni elemento indicatore contiene i valori dell'indicatore per la regione

**Esempio:**
```    
trend[indicatore][regione]
```

In [22]:
# indicatori osservati
indicatori=['ricoverati_con_sintomi', 'terapia_intensiva',
       'totale_ospedalizzati', 'isolamento_domiciliare', 'totale_positivi',
       'variazione_totale_positivi', 'nuovi_positivi', 'dimessi_guariti',
       'deceduti', 'totale_casi', 'tamponi','casi_da_sospetto_diagnostico', 'casi_da_screening']

# qui immetto tutti i trend per ciascuna regione
trend={}
for ind in indicatori:
    trend[ind]={}
    for regione in regioni:
        trend[ind][regione]=np.array(data[data['denominazione_regione']==regione][ind])

# calcolo gli indicatori nazionali come somma delle regioni
for ind in indicatori:
    trend[ind]['Italia']=np.zeros(len(giorni))
    for regione in regioni:
        trend[ind]['Italia']+=trend[ind][regione]

### Indicatori derivati

#### Giorno della settimana associato ai giorni

In [23]:
def which_weekday(datestring):
    # datestring is in this format '2020-02-24T18:00:00'
    return datetime.date(int(datestring[0:4]),int(datestring[5:7]),int(datestring[8:10])).weekday()

giorno_settimana=[which_weekday(d) for d in giorni]

#### Tamponi giornalieri

In [24]:
# tamponi giornalieri
trend['tamponi_giornalieri']={}
for regione in regioni:
    trend['tamponi_giornalieri'][regione]=np.insert(np.diff(trend['tamponi'][regione]),0,0)

trend['tamponi_giornalieri']['Italia']=np.insert(np.diff(trend['tamponi']['Italia']),0,0)


#### Provenienza infetti giornaliera
> screening o sintomi

In [25]:
trend['casi_da_sospetto_diagnostico_giornalieri']={}
trend['casi_da_screening_giornalieri']={}

for regione in regioni:
    trend['casi_da_sospetto_diagnostico_giornalieri'][regione]=np.insert(np.diff(trend['casi_da_sospetto_diagnostico'][regione]),0,0)
    trend['casi_da_screening_giornalieri'][regione]=np.insert(np.diff(trend['casi_da_screening'][regione]),0,0)

trend['casi_da_sospetto_diagnostico_giornalieri']['Italia']=np.insert(np.diff(trend['casi_da_sospetto_diagnostico']['Italia']),0,0)
trend['casi_da_screening_giornalieri']['Italia']=np.insert(np.diff(trend['casi_da_screening']['Italia']),0,0)


#### Deceduti giornalieri

In [26]:
# deceduti giornalieri
trend['deceduti_giornalieri']={}
for regione in regioni:
    trend['deceduti_giornalieri'][regione]=np.insert(np.diff(trend['deceduti'][regione]),0,0)

trend['deceduti_giornalieri']['Italia']=np.insert(np.diff(trend['deceduti']['Italia']),0,0)


#### Guariti giornalieri

In [27]:
trend['guariti_giornalieri']={}
for regione in regioni:
    trend['guariti_giornalieri'][regione]=np.insert(np.diff(trend['dimessi_guariti'][regione]),0,0)

trend['guariti_giornalieri']['Italia']=np.insert(np.diff(trend['dimessi_guariti']['Italia']),0,0)


#### Percentuale tamponi positivi

In [28]:
# percentuale tamponi positivi su quelli effettuati
trend['perc_tamponi_positivi']={}
for regione in regioni:
    trend['perc_tamponi_positivi'][regione]=100*trend['nuovi_positivi'][regione]/trend['tamponi_giornalieri'][regione]

trend['perc_tamponi_positivi']['Italia']=100*trend['nuovi_positivi']['Italia']/trend['tamponi_giornalieri']['Italia']

#### Rate deceduti e rate guariti su attualmente positivi (il giorno precedente)

In [29]:
trend['perc_guariti_su_positivi']={}
trend['perc_deceduti_su_positivi']={}

np.hstack((regioni,'Italia'))

for regione in np.hstack((regioni,'Italia')):
    # percentuale di GUARITI su POSITIVI
    trend['perc_guariti_su_positivi'][regione]=np.zeros_like(trend['totale_positivi'][regione],dtype=float)
    for d in range(1,len(giorni)):
        try:
            trend['perc_guariti_su_positivi'][regione][d]=100*float(trend['guariti_giornalieri'][regione][d]/trend['totale_positivi'][regione][d-1])
            #print('%d   %4.2f  %4.2f'%(d,trend['guariti_giornalieri'][regione][d],trend['totale_positivi'][regione][d-1]))
        except ValueError:
            trend['perc_guariti_su_positivi'][regione][d]=np.NaN
            
    # percentuale di DECEDUTI su POSITIVI
    trend['perc_deceduti_su_positivi'][regione]=np.zeros_like(trend['totale_positivi'][regione],dtype=float)
    for d in range(1,len(giorni)):
        try:
            trend['perc_deceduti_su_positivi'][regione][d]=100*float(trend['deceduti_giornalieri'][regione][d]/trend['totale_positivi'][regione][d-1])
            #print('%d   %4.2f  %4.2f'%(d,trend['deceduti_giornalieri'][regione][d],trend['totale_positivi'][regione][d-1]))
        except ValueError:
            trend['perc_deceduti_su_positivi'][regione][d]=np.NaN
                

## Salvataggio dati su file PICKLE

Vengono salvati su file **pickle** nell' ordine:
- trend
- regioni
- giorni


In [30]:
import pickle

output_data_file='stored_data.pkl'

outfile = open(output_data_file,'wb')
pickle.dump(trend,outfile)
pickle.dump(regioni,outfile)
pickle.dump(giorni,outfile)
pickle.dump(giorno_settimana,outfile)
pickle.dump(popolazione,outfile)
pickle.dump(posti_ti_covid,outfile)
pickle.dump(posti_ti_antecovid,outfile)
pickle.dump(posti_ti_stimati,outfile)
outfile.close()