#Homework 2 - Spark

## Lettura dei dati

In [0]:
import requests
import sys

from pyspark.sql.functions import when, count, isnull, expr, current_date, col, date_format, year, month, lag, sum, round, max, min, datediff, explode, lit
from pyspark.sql.window import Window

In [0]:
local_path_popolazione_regioni = "dbfs:/FileStore/shared_uploads/gu.dichiara@studenti.unina.it/popolazione_regioni.csv"
local_path_dati_covid_regioni = "dbfs:/FileStore/shared_uploads/gu.dichiara@studenti.unina.it/dati_covid_regioni.csv"
local_path_dati_vaccini_somministrazioni = "dbfs:/FileStore/shared_uploads/gu.dichiara@studenti.unina.it/dati_vaccini_somministrazioni.csv"

# local_path_popolazione_regioni = "dbfs:/FileStore/shared_uploads/fabio.dandrea@studenti.unina.it/popolazione_regioni.csv"
# local_path_dati_covid_regioni = "dbfs:/FileStore/shared_uploads/fabio.dandrea@studenti.unina.it/dati_covid_regioni.csv"
# local_path_dati_vaccini_somministrazioni = "dbfs:/FileStore/shared_uploads/fabio.dandrea@studenti.unina.it/dati_vaccini_somministrazioni.csv"
# local_path_dati_vaccini_consegne = "dbfs:/FileStore/shared_uploads/fabio.dandrea@studenti.unina.it/dati_vaccini_consegne.csv"

popolazione_regioni_URL = "https://raw.githubusercontent.com/pcm-dpc/COVID-19/master/dati-statistici-riferimento/popolazione-istat-regione-range.csv"
dati_covid_regioni_URL = "https://raw.githubusercontent.com/pcm-dpc/COVID-19/master/dati-regioni/dpc-covid19-ita-regioni.csv"
dati_vaccini_somministrazioni_URL = "https://raw.githubusercontent.com/italia/covid19-opendata-vaccini/master/dati/somministrazioni-vaccini-latest.csv"

dbutils.fs.put(local_path_popolazione_regioni, requests.get(popolazione_regioni_URL).text, True)
dbutils.fs.put(local_path_dati_covid_regioni, requests.get(dati_covid_regioni_URL).text, True)
dbutils.fs.put(local_path_dati_vaccini_somministrazioni, requests.get(dati_vaccini_somministrazioni_URL).text, True)

popolazione_regioni = spark.read.option("inferSchema", "true") \
                                .option("header", "true") \
                                .csv(local_path_popolazione_regioni)
dati_covid_regioni = spark.read.option("inferSchema", "true") \
                                .option("header", "true") \
                                .csv(local_path_dati_covid_regioni)
dati_vaccini_somministrazioni = spark.read.option("inferSchema", "true") \
                                          .option("header", "true") \
                                          .csv(local_path_dati_vaccini_somministrazioni)

## Preprocessing

### Popolazione Regioni
Si eliminano le colonne che non sono di interesse.

In [0]:
popolazione_regioni = popolazione_regioni.drop('codice_regione', 'codice_nuts_1', 
                                               'descrizione_nuts_1', 'sigla_regione', 
                                               'latitudine_regione', 'longitudine_regione',
                                               'totale_genere_maschile', 'totale_genere_femminile')

popolazione_regioni.show(2)

Si verifica che il formato dei dati sia corretto.

In [0]:
popolazione_regioni.dtypes

Si verifica la correttezza delle colonne categoriche.

In [0]:
num_regioni = popolazione_regioni.groupBy('denominazione_regione') \
                .count() \
                .count()
print('Il numero di regioni è:', num_regioni)
print()
popolazione_regioni.groupBy('codice_nuts_2', 'denominazione_regione') \
                    .count() \
                    .drop('count') \
                    .orderBy('codice_nuts_2') \
                    .show(num_regioni)

In [0]:
popolazione_regioni.groupBy('range_eta') \
                    .count() \
                    .orderBy('range_eta') \
                    .show()

Si verifica la correttezza delle colonne numeriche.

In [0]:
popolazione_regioni.describe('totale_generale') \
                   .show()

Si verifica la presenza di *missing values*.

In [0]:
popolazione_regioni.select([count(when(isnull(c), c)).alias(c) for c in popolazione_regioni.columns]).show()

### Dati Covid Regioni
Si eliminano le colonne che non sono di interesse.

In [0]:
dati_covid_regioni = dati_covid_regioni.drop('stato', 'codice_nuts_1', 'codice_regione', 
                                             'lat', 'long', 'note_test', 'note_casi',
                                             'note', 'casi_da_sospetto_diagnostico', 
                                             'casi_da_screening','casi_testati', 
                                             'ingressi_terapia_intensiva', 
                                             'totale_positivi_test_molecolare', 
                                             'totale_positivi_test_antigenico_rapido',
                                             'tamponi_test_molecolare', 
                                             'tamponi_test_antigenico_rapido', 
                                             'isolamento_domiciliare', 
                                             'variazione_totale_positivi', 
                                             'dimessi_guariti', 'totale_casi')
dati_covid_regioni.show(2)

Si verifica che il formato dei dati sia corretto.

In [0]:
dati_covid_regioni.dtypes

In [0]:
dati_covid_regioni = dati_covid_regioni.withColumn('data', date_format(dati_covid_regioni.data, 'yyyy-MM-dd').cast('date'))

In [0]:
dati_covid_regioni.dtypes

Si verifica la correttezza delle colonne categoriche.

In [0]:
num_regioni = dati_covid_regioni.groupBy('denominazione_regione') \
                .count() \
                .count()

print('Il numero di regioni è:', num_regioni)
print()

dati_covid_regioni.groupBy('codice_nuts_2', 'denominazione_regione') \
                    .count() \
                    .drop('count') \
                    .orderBy('codice_nuts_2') \
                    .show(5)

Si possono fare alcune osservazioni:
- per alcune entry mancano i codici nuts;
- per aclune entry i codici nuts sono sbagliati (problema dovuto alla lettura del file csv);
- alcune regioni (Bolzano e Trento) hanno una denominazione diversa rispetto alla tabella `popolazione_regioni`;

In [0]:
join1 = popolazione_regioni.join(dati_covid_regioni, on='denominazione_regione', how='anti') \
                    .groupBy('codice_nuts_2', 'denominazione_regione') \
                    .count() \
                    .drop('count') \
                    .withColumnRenamed('denominazione_regione', 'popolazione_regioni_denominazione_regione')

join2 = dati_covid_regioni.join(popolazione_regioni, on='denominazione_regione', how='anti') \
                    .groupBy('codice_nuts_2', 'denominazione_regione') \
                    .count() \
                    .drop('count') \
                    .withColumnRenamed('denominazione_regione', 'dati_covid_regioni_denominazione_regione')

join1.join(join2, on='codice_nuts_2').show()

dati_covid_regioni = dati_covid_regioni.replace('P.A. Trento', value='Trento', subset='denominazione_regione')
dati_covid_regioni = dati_covid_regioni.replace('P.A. Bolzano', value='Bolzano', subset='denominazione_regione')

In [0]:
dati_covid_regioni = dati_covid_regioni.drop('codice_nuts_2')

nuts_2 = popolazione_regioni.groupBy('codice_nuts_2', 'denominazione_regione') \
                            .count() \
                            .drop('count')

dati_covid_regioni = dati_covid_regioni.join(nuts_2, on='denominazione_regione', how='left')

dati_covid_regioni.groupBy('codice_nuts_2', 'denominazione_regione') \
                  .count() \
                  .drop('count') \
                  .orderBy('codice_nuts_2').show(num_regioni)

Si verifica la correttezza delle colonne numeriche.

In [0]:
dati_covid_regioni.describe(['ricoverati_con_sintomi', 'terapia_intensiva', 'totale_ospedalizzati', 'totale_positivi', 'nuovi_positivi', 'deceduti', 'tamponi']) \
                  .show()

In [0]:
dati_covid_regioni.filter(condition='nuovi_positivi < 0').show()

Si verifica la presenza di *missing values*.

In [0]:
dati_covid_regioni.select([count(when(isnull(c), c)).alias(c) for c in dati_covid_regioni.drop('data').columns]).show()

Si verifica la presenza di *missing values* nella serie temporale.

In [0]:
min_data = dati_covid_regioni.agg(min('data').alias('minimo'))
max_data = dati_covid_regioni.agg(max('data').alias('massimo'))

date = min_data.join(max_data)

date.show()

In [0]:
time_series = date.withColumn('data', explode(expr('sequence(minimo, massimo, interval 1 day)'))) \
                  .select('data')

time_series.show()

In [0]:
date_covid = dati_covid_regioni.select('data') \
                               .distinct() \
                               .orderBy('data')

date_covid.join(time_series, on='data', how='anti').show()

### Dati Somministrazioni Vaccini

Si elmininano le colonne che non sono di interesse

In [0]:
dati_vaccini_somministrazioni = dati_vaccini_somministrazioni.drop('area', 'codice_regione_ISTAT', 'sesso_maschile', 'sesso_femminile' 'codice_NUTS1')
dati_vaccini_somministrazioni.show()

Si verifica che il formato dei dati sia corretto

In [0]:
dati_vaccini_somministrazioni.dtypes

In [0]:
dati_vaccini_somministrazioni = dati_vaccini_somministrazioni.withColumn('data_somministrazione', date_format(dati_vaccini_somministrazioni.data_somministrazione, 'yyyy-MM-dd').cast('date'))

In [0]:
dati_vaccini_somministrazioni.dtypes

Si verifica la correttezza delle colonne categoriche.

In [0]:
num_regioni = dati_vaccini_somministrazioni.groupBy('nome_area') \
                                           .count() \
                                           .count()
print('Il numero di regioni è:', num_regioni)
print()
dati_vaccini_somministrazioni.groupBy('codice_NUTS2', 'nome_area') \
                             .count() \
                             .drop('count') \
                             .orderBy('codice_NUTS2') \
                             .show(num_regioni)

In [0]:
join1 = popolazione_regioni.join(dati_vaccini_somministrazioni, popolazione_regioni.denominazione_regione == dati_vaccini_somministrazioni.nome_area, how='anti') \
                    .groupBy('codice_nuts_2', 'denominazione_regione') \
                    .count() \
                    .drop('count') 

join2 = dati_vaccini_somministrazioni.join(popolazione_regioni, popolazione_regioni.denominazione_regione == dati_vaccini_somministrazioni.nome_area, how='anti') \
                    .groupBy('codice_NUTS2', 'nome_area') \
                    .count() \
                    .drop('count') 

join1.join(join2, popolazione_regioni.codice_nuts_2 == dati_vaccini_somministrazioni.codice_NUTS2).show()

dati_vaccini_somministrazioni = dati_vaccini_somministrazioni.replace('Provincia Autonoma Trento', value='Trento', subset='nome_area')
dati_vaccini_somministrazioni = dati_vaccini_somministrazioni.replace('Provincia Autonoma Bolzano / Bozen', value='Bolzano', subset='nome_area')
dati_vaccini_somministrazioni = dati_vaccini_somministrazioni.replace('Friuli-Venezia Giulia', value='Friuli Venezia Giulia', subset='nome_area')
dati_vaccini_somministrazioni = dati_vaccini_somministrazioni.replace('Valle d\'Aosta / Vallée d\'Aoste', value='Valle d\'Aosta', subset='nome_area')

In [0]:
dati_vaccini_somministrazioni.groupBy('codice_NUTS2', 'nome_area') \
                             .count() \
                             .drop('count') \
                             .orderBy('codice_NUTS2') \
                             .show(num_regioni)

In [0]:
dati_vaccini_somministrazioni.groupBy('fascia_anagrafica') \
                    .count() \
                    .drop('count') \
                    .orderBy('fascia_anagrafica') \
                    .show()

Si osserva che rispetto alla tabella popolazione_regioni manca la `fascia_anagrafica` 0-15

Si verifica la correttezza delle colonne numeriche.

In [0]:
dati_vaccini_somministrazioni.describe(['prima_dose', 'seconda_dose']) \
                             .show()

In [0]:
dati_vaccini_somministrazioni.describe(['categoria_operatori_sanitari_sociosanitari', 'categoria_personale_non_sanitario', 'categoria_ospiti_rsa', 'categoria_60_69', 'categoria_70_79']) \
                             .show()

In [0]:
dati_vaccini_somministrazioni.describe(['categoria_over80', 'categoria_forze_armate', 'categoria_personale_scolastico', 'categoria_soggetti_fragili', 'categoria_altro']) \
                             .show()

Si verifica la presenza di *missing values*.

In [0]:
dati_vaccini_somministrazioni.select([count(when(isnull(c), c)).alias(c) for c in dati_vaccini_somministrazioni.drop('data').columns]).show()

Si verifica la presenza di *missing values* nella serie temporale.

In [0]:
min_data = dati_vaccini_somministrazioni.agg(min('data_somministrazione').alias('minimo'))
max_data = dati_vaccini_somministrazioni.agg(max('data_somministrazione').alias('massimo'))

date = min_data.join(max_data)

date.show()

In [0]:
time_series = date.withColumn('data_somministrazione', explode(expr('sequence(minimo, massimo, interval 1 day)'))) \
                  .select('data_somministrazione')

time_series.show()

In [0]:
date_covid = dati_vaccini_somministrazioni.select('data_somministrazione') \
                               .withColumn('data_somministrazione', date_format(dati_vaccini_somministrazioni.data_somministrazione, 'yyyy-MM-dd').cast('date')) \
                               .distinct() \
                               .orderBy('data_somministrazione')

date_covid.join(time_series, on='data_somministrazione', how='anti') \
          .show()

## Elaborazione

### Dati Covid-19

#### Attuali Positivi per Regione

In [0]:
attuali_positivi_regione = dati_covid_regioni.where(col("data") >= current_date() - expr("INTERVAL 1 days")) \
                                             .select('denominazione_regione', 'totale_positivi') \
                                             .withColumnRenamed('denominazione_regione', 'regione') \
                                             .withColumnRenamed('totale_positivi', 'attuali_positivi')

popolazione = popolazione_regioni.groupBy('denominazione_regione') \
                                 .sum('totale_generale')

cond = [popolazione.denominazione_regione == attuali_positivi_regione.regione]
attuali_positivi_regione = attuali_positivi_regione.join(popolazione, cond, how='left') \
                                                   .drop('denominazione_regione') \
                                                   .withColumnRenamed('sum(totale_generale)', 'popolazione') \
                                                   .orderBy('regione')

attuali_positivi_regione = attuali_positivi_regione.withColumn('positivi_per_100k', (attuali_positivi_regione.attuali_positivi / attuali_positivi_regione.popolazione * 100000).cast('int')) \
                                                   .orderBy('positivi_per_100k', ascending=False)

attuali_positivi_regione.show(21)

#### Casi Covid-19 per Mese

In [0]:
casi_mensili = dati_covid_regioni.select(date_format('data','yyyy-MM').alias('mese'), 'nuovi_positivi') \
                  .groupby('mese') \
                  .sum('nuovi_positivi') \
                  .withColumnRenamed('sum(nuovi_positivi)', 'casi')

In [0]:
tamponi_mensili = dati_covid_regioni.select(date_format('data','yyyy-MM').alias('mese'), 'denominazione_regione', 'tamponi') \
                                    .groupby('mese', 'denominazione_regione') \
                                    .max('tamponi') \
                                    .groupby('mese') \
                                    .sum('max(tamponi)') \
                                    .withColumnRenamed('sum(max(tamponi))', 'tamponi')

my_window = Window.partitionBy().orderBy("mese") 

tamponi_mensili = tamponi_mensili.withColumn("prev_value", lag(tamponi_mensili.tamponi) \
                                 .over(my_window)) 
tamponi_mensili = tamponi_mensili.withColumn("diff", when(isnull(tamponi_mensili.tamponi - tamponi_mensili.prev_value), tamponi_mensili.tamponi).otherwise(tamponi_mensili.tamponi - tamponi_mensili.prev_value)) \
                                 .drop('tamponi', 'prev_value') \
                                 .withColumnRenamed('diff', 'tamponi')

In [0]:
panoramica_mensile = casi_mensili.join(tamponi_mensili, on='mese') \
                                 .orderBy('mese', ascending=False)

panoramica_mensile = panoramica_mensile.withColumn('percentuale_tamponi_positivi', panoramica_mensile.casi / panoramica_mensile.tamponi * 100)

panoramica_mensile.show()

# path = "dbfs:/FileStore/gu.dichiara@studenti.unina.it/panoramica_mensile.csv"
# panoramica_mensile.write.csv(path, mode='overwrite', sep=',', header=True)

#### Dati Critici per Mese

In [0]:
decessi_mensili = dati_covid_regioni.select(date_format('data','yyyy-MM').alias('mese'), 'denominazione_regione', 'deceduti') \
                                    .groupby('mese', 'denominazione_regione') \
                                    .max('deceduti') \
                                    .groupby('mese') \
                                    .sum('max(deceduti)') \
                                    .withColumnRenamed('sum(max(deceduti))', 'deceduti')

my_window = Window.partitionBy().orderBy("mese") 

decessi_mensili = decessi_mensili.withColumn("prev_value", lag(decessi_mensili.deceduti) \
                                 .over(my_window)) 
decessi_mensili = decessi_mensili.withColumn("diff", when(isnull(decessi_mensili.deceduti - decessi_mensili.prev_value), decessi_mensili.deceduti).otherwise(decessi_mensili.deceduti - decessi_mensili.prev_value)) \
                                 .drop('deceduti', 'prev_value') \
                                 .withColumnRenamed('diff', 'deceduti')

In [0]:
terapie_intensive_mensili = dati_covid_regioni.select('data', 'terapia_intensiva') \
                  .groupby('data') \
                  .sum('terapia_intensiva') \
                  .select(date_format('data','yyyy-MM').alias('mese'), 'sum(terapia_intensiva)') \
                  .groupby('mese') \
                  .mean('sum(terapia_intensiva)') \
                  .withColumnRenamed('avg(sum(terapia_intensiva))', 'media_terapia_intensiva')

terapie_intensive_mensili = terapie_intensive_mensili.withColumn('media_terapia_intensiva', terapie_intensive_mensili.media_terapia_intensiva.cast('int'))

In [0]:
dati_critici_mensili = decessi_mensili.join(casi_mensili, on='mese') \
                                      .join(terapie_intensive_mensili, on='mese') \
                                      .orderBy('mese')

dati_critici_mensili.show()

### Dati Vaccini

#### Dosi Somministrate per Regione

In [0]:
dosi_somministrate_regione = dati_vaccini_somministrazioni.groupBy('nome_area') \
                                                          .sum('prima_dose', 'seconda_dose') \
                                                          .orderBy('nome_area') \
                                                          .withColumnRenamed('nome_area', 'regione') \
                                                          .withColumnRenamed('sum(prima_dose)', 'vaccinati_prima_dose') \
                                                          .withColumnRenamed('sum(seconda_dose)', 'vaccinati_seconda_dose')

popolazione = popolazione_regioni.groupBy('denominazione_regione').sum('totale_generale')

cond = [popolazione.denominazione_regione == dosi_somministrate_regione.regione]
dosi_somministrate_regione = dosi_somministrate_regione.join(popolazione, cond, how='left') \
                                                       .drop('denominazione_regione') \
                                                       .withColumnRenamed('sum(totale_generale)', 'popolazione') \
                                                       .orderBy('regione')

dosi_somministrate_regione = dosi_somministrate_regione.withColumn('percentuale_prima_dose', dosi_somministrate_regione.vaccinati_prima_dose / dosi_somministrate_regione.popolazione * 100)
dosi_somministrate_regione = dosi_somministrate_regione.withColumn('percentuale_seconda_dose', dosi_somministrate_regione.vaccinati_seconda_dose / dosi_somministrate_regione.popolazione * 100)

dosi_somministrate_regione.show(21)

#### Dosi Somministrate per Fascia Anagrafica

In [0]:
dosi_somministrate_fascia = dati_vaccini_somministrazioni.groupBy('fascia_anagrafica') \
                                                          .sum('prima_dose', 'seconda_dose') \
                                                          .orderBy('fascia_anagrafica') \
                                                          .withColumnRenamed('sum(prima_dose)', 'vaccinati_prima_dose') \
                                                          .withColumnRenamed('sum(seconda_dose)', 'vaccinati_seconda_dose')

popolazione = popolazione_regioni.groupBy('range_eta').sum('totale_generale')

cond = [popolazione.range_eta == dosi_somministrate_fascia.fascia_anagrafica]
dosi_somministrate_fascia = dosi_somministrate_fascia.join(popolazione, cond, how='left') \
                                                       .withColumnRenamed('sum(totale_generale)', 'popolazione') \
                                                       .drop('range_eta') \
                                                       .orderBy('fascia_anagrafica')

dosi_somministrate_fascia = dosi_somministrate_fascia.withColumn('percentuale_prima_dose', dosi_somministrate_fascia.vaccinati_prima_dose / dosi_somministrate_fascia.popolazione * 100)
dosi_somministrate_fascia = dosi_somministrate_fascia.withColumn('percentuale_seconda_dose', dosi_somministrate_fascia.vaccinati_seconda_dose / dosi_somministrate_fascia.popolazione * 100)

dosi_somministrate_fascia.show(9)

#### Dosi Somministrate per Regione e Fascia Anagrafica

In [0]:
dosi_somministrate = dati_vaccini_somministrazioni.groupBy('nome_area', 'fascia_anagrafica') \
                                                  .sum('prima_dose', 'seconda_dose') \
                                                  .orderBy('nome_area', 'fascia_anagrafica') \
                                                  .withColumnRenamed('nome_area', 'regione') \
                                                  .withColumnRenamed('sum(prima_dose)', 'vaccinati_prima_dose') \
                                                  .withColumnRenamed('sum(seconda_dose)', 'vaccinati_seconda_dose')

cond = [popolazione_regioni.denominazione_regione == dosi_somministrate.regione, popolazione_regioni.range_eta == dosi_somministrate.fascia_anagrafica]
dosi_somministrate = dosi_somministrate.join(popolazione_regioni.select('denominazione_regione', 'range_eta', 'totale_generale'), cond, how='left') \
                                       .drop('denominazione_regione', 'range_eta') \
                                       .withColumnRenamed('totale_generale', 'popolazione') \
                                       .orderBy('regione', 'fascia_anagrafica')

dosi_somministrate = dosi_somministrate.withColumn('percentuale_prima_dose', dosi_somministrate.vaccinati_prima_dose / dosi_somministrate.popolazione * 100)
dosi_somministrate = dosi_somministrate.withColumn('percentuale_seconda_dose', dosi_somministrate.vaccinati_seconda_dose / dosi_somministrate.popolazione * 100)

dosi_somministrate.where('regione == "Campania"').show(189)

#### Dosi Somministrate per Fascia Anagrafica e Fornitore

In [0]:
dosi_fascia_fornitore = dati_vaccini_somministrazioni.groupBy('fascia_anagrafica', 'fornitore') \
                                                          .sum('prima_dose', 'seconda_dose') \
                                                          .orderBy('fascia_anagrafica', 'fornitore') 

totale_dosi_somministrate_fascia = dosi_somministrate_fascia.select('fascia_anagrafica', 'vaccinati_prima_dose', 'vaccinati_seconda_dose') \
                                                            .withColumn('totale_dosi', dosi_somministrate_fascia.vaccinati_prima_dose + dosi_somministrate_fascia.vaccinati_seconda_dose) \
                                                            .drop('vaccinati_prima_dose', 'vaccinati_seconda_dose')

dosi_fascia_fornitore = dosi_fascia_fornitore.join(totale_dosi_somministrate_fascia, on='fascia_anagrafica')

dosi_fascia_fornitore = dosi_fascia_fornitore.withColumn('percentuale_dosi', round((dosi_fascia_fornitore['sum(prima_dose)'] + dosi_fascia_fornitore['sum(seconda_dose)']) *100 /  dosi_fascia_fornitore.totale_dosi, 3)) \
                                             .drop('sum(prima_dose)', 'sum(seconda_dose)', 'totale_dosi') \
                                             .orderBy('fascia_anagrafica', 'fornitore')

dosi_fascia_fornitore.show(100)

#### Dosi Somministrate per Mese e Categoria

In [0]:
dosi_somministrate_categorie_mensili = dati_vaccini_somministrazioni.select(date_format('data_somministrazione','yyyy-MM').alias('mese'), \
                                                                            'categoria_operatori_sanitari_sociosanitari', 'categoria_personale_non_sanitario', 'categoria_ospiti_rsa', \
                                                                            'categoria_60_69', 'categoria_70_79', 'categoria_over80', 'categoria_forze_armate', 'categoria_personale_scolastico', \
                                                                            'categoria_soggetti_fragili', 'categoria_altro') \
                                                                    .groupby('mese') \
                                                                    .agg(sum('categoria_operatori_sanitari_sociosanitari').alias('operatori_sanitari_sociosanitari'), \
                                                                         sum('categoria_personale_non_sanitario').alias('personale_non_sanitario'), \
                                                                         sum('categoria_ospiti_rsa').alias('ospiti_rsa'), \
                                                                         sum('categoria_60_69').alias('60_69'), \
                                                                         sum('categoria_70_79').alias('70_79'), \
                                                                         sum('categoria_over80').alias('over80'), \
                                                                         sum('categoria_forze_armate').alias('forze_armate'), \
                                                                         sum('categoria_personale_scolastico').alias('personale_scolastico'), \
                                                                         sum('categoria_soggetti_fragili').alias('soggetti_fragili'), \
                                                                         sum('categoria_altro').alias('altro')) \
                                                                      .orderBy('mese')

# dosi_somministrate_categorie_mensili.show()

In [0]:
dosi_somministrate_mensili = dati_vaccini_somministrazioni.select(date_format('data_somministrazione','yyyy-MM').alias('mese'), 'prima_dose', 'seconda_dose') \
                                                          .groupby('mese') \
                                                          .sum('prima_dose', 'seconda_dose')

dosi_somministrate_mensili = dosi_somministrate_mensili.withColumnRenamed('sum(prima_dose)', 'vaccinati_prima_dose') \
                                                       .withColumnRenamed('sum(seconda_dose)', 'vaccinati_seconda_dose')


totale_dosi_somministrate_mensili = dosi_somministrate_mensili.withColumn('totale_dosi', dosi_somministrate_mensili.vaccinati_prima_dose + dosi_somministrate_mensili.vaccinati_seconda_dose)

percentuale_dosi_categorie = totale_dosi_somministrate_mensili.join(dosi_somministrate_categorie_mensili, on='mese') \
                                                              .drop('vaccinati_prima_dose', 'vaccinati_seconda_dose') \
                                                              .withColumn('operatori_sanitari_sociosanitari', round(dosi_somministrate_categorie_mensili.operatori_sanitari_sociosanitari / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .withColumn('personale_non_sanitario', round(dosi_somministrate_categorie_mensili.personale_non_sanitario / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .withColumn('ospiti_rsa', round(dosi_somministrate_categorie_mensili.ospiti_rsa / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .withColumn('60_69', round(dosi_somministrate_categorie_mensili['60_69'] / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .withColumn('70_79', round(dosi_somministrate_categorie_mensili['70_79'] / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .withColumn('over80', round(dosi_somministrate_categorie_mensili.over80 / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .withColumn('forze_armate', round(dosi_somministrate_categorie_mensili.forze_armate / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .withColumn('personale_scolastico', round(dosi_somministrate_categorie_mensili.personale_scolastico / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .withColumn('soggetti_fragili', round(dosi_somministrate_categorie_mensili.soggetti_fragili / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .withColumn('altro', round(dosi_somministrate_categorie_mensili.altro / totale_dosi_somministrate_mensili.totale_dosi *100, 3)) \
                                                              .drop('totale_dosi') \
                                                              .orderBy('mese')
    
percentuale_dosi_categorie.show()

### Correlazione Dati Covid-19 e Dati Vaccini

#### Dosi Somministrate per Mese e Media Terapia Intensiva

In [0]:
dosi_somministrate_terapie_intensive = dosi_somministrate_mensili.join(terapie_intensive_mensili, on='mese', how='left') \
                                                                 .orderBy('mese')
dosi_somministrate_terapie_intensive.show()

In [0]:
popolazione_totale = popolazione_regioni.groupBy().sum()

temp = dosi_somministrate_mensili.join(terapie_intensive_mensili, on='mese', how='left')

temp = temp.join(popolazione_totale) \
            .withColumnRenamed('sum(totale_generale)', 'totale') \
            .orderBy('mese')

cum_sum = temp.withColumn('cumsum_prima_dose', sum(temp.vaccinati_prima_dose).over(Window.partitionBy().orderBy().rowsBetween(-sys.maxsize, 0))) \
              .withColumn('cumsum_seconda_dose', sum(temp.vaccinati_seconda_dose).over(Window.partitionBy().orderBy().rowsBetween(-sys.maxsize, 0)))

cum_sum = cum_sum.withColumn('percentuale_prima_dose', cum_sum.cumsum_prima_dose / cum_sum.totale * 100)
cum_sum = cum_sum.withColumn('percentuale_seconda_dose', cum_sum.cumsum_seconda_dose / cum_sum.totale * 100)

dosi_somministrate_terapie_intensive = cum_sum.select('mese', 'percentuale_prima_dose', 'percentuale_seconda_dose', 'media_terapia_intensiva')
dosi_somministrate_terapie_intensive.show()

#### Dosi Attualmente Somministrate per Regione e Attuale Terapia Intensiva

In [0]:
attuali_terapie_intensive_regioni = dati_covid_regioni.where(col("data") >= current_date() - expr("INTERVAL 1 days")) \
                                             .select('denominazione_regione', 'terapia_intensiva') \
                                             .withColumnRenamed('denominazione_regione', 'regione')

In [0]:
attuali_dosi_somministrate_terapie_intensive = attuali_terapie_intensive_regioni.join(dosi_somministrate_regione, on='regione') \
                                                                                .select('regione', 'percentuale_prima_dose', 'percentuale_seconda_dose', 'terapia_intensiva') \
                                                                                .orderBy('regione')
attuali_dosi_somministrate_terapie_intensive.show(21)