Analisi diffusione COVID-19 nel mondo

Il committente richiede di avere un report su casi e vaccinazioni in diverse aree del mondo; a tal fine, richiede di utilizzare il dataset,
curato da Our World in Data, all'indirizzo https://github.com/owid/covid-19-data/tree/master/public/data; alla voce "# Download
our complete COVID-19 dataset" scaricare il dataset in formato CSV oppure in formato JSON.

* 1.Si richiede di verificare le dimensioni del dataset e le diciture presenti nell'intestazione.

* 2.Si chiede poi per ogni continente di trovare il numero di casi totali avvenuti in quello stesso continente; si chiede di non
considerare eventuali locazioni che nel dataset non appartengono ad alcun continente.

* 3.Sempre riguardo i casi di COVID totali, si chiede di sviluppare una funzione che prenda in input il dataset e due nomi di
continenti, e che ne confronti i seguenti relativi descrittori statistici: valori minimo e massimo, media, e percentuale rispetto al
numero dei casi totali nel mondo (in questo caso calcolati anche sulle locazioni senza indicazione di continente).

* 4.Si chiede poi di effettuare lo stesso tipo di analisi — anche in questo caso sviluppando una funzione ad hoc — per il numero di
vaccinazioni totali per ogni continente.

* 5.Alla fine, basandosi sui calcoli fatti, il committente chiede di stilare un breve (tre o quattro righe) paragrafo testuale riassuntivo
sulle statistiche di casi e vaccinazioni, che si concentri solo sulle differenze esistenti tra Europa, Sud America e Oceania.

Per effettuare le analisi si potranno usare, a scelta, strumenti come funzioni e strutture dati built-in quali open () , liste, dizionari;
moduli built-in quali csv o json; moduli esterni quali Pandas e i relativi metodi e tipi di dato.


In [None]:
import pandas as pd
import matplotlib.pyplot as pl

In [None]:
path = "C:/Users/franc/Desktop/work/beginner_datasets/owid-covid-data.csv"
covid = pd.read_csv(path,sep = ",")

In [None]:
# 1.Si richiede di verificare le dimensioni del dataset e le diciture presenti nell'intestazione.
dim_ = covid.shape
print("Il dataset è composto da ",dim_[1],"colonne e",f"{dim_[0]:,}".replace(",","."),"righe.")
nm_col = list(covid.columns)
print("I nomi delle colonne sono:\n",end="- ")
for el in nm_col:print(el,end="\n- ")

In [None]:
#  2.Si chiede poi per ogni continente di trovare il numero di casi totali avvenuti in quello stesso continente; si chiede di non
#    considerare eventuali locazioni che nel dataset non appartengono ad alcun continente.
tot_cases_cont = covid.groupby(["continent","location"])['total_cases'].aggregate('max').groupby("continent").aggregate("sum")
for el in range(len(tot_cases_cont)) : print("In",tot_cases_cont.index[el],"ci sono stati",f"{tot_cases_cont[el]:,}","in totale.")
tot_cases_cont.plot(kind= "barh",
                    x = tot_cases_cont[0],
                    y =tot_cases_cont.index,
                    color = 'blue',
                    title="Numero Totale Casi",
                    xlabel = "Centinaia di milioni",
                    ylabel="Nome Continente")
pl.show()

In [None]:
# 3.Sempre riguardo i casi di COVID totali, si chiede di sviluppare una funzione che prenda in input il dataset e due nomi di
# continenti, e che ne confronti i seguenti relativi descrittori statistici: valori minimo e massimo, media, e percentuale rispetto al  
# numero dei casi totali nel mondo (in questo caso calcolati anche sulle locazioni senza indicazione di continente).
def cont_cases():
    cont_list = ["Africa","Asia","Europe","North America","Oceania","South America"]  

    tot_case = covid.groupby('location')['total_cases'].aggregate(['max','min','mean'])
    data = pd.DataFrame(tot_case.loc[["Africa","Asia","Europe","North America","Oceania","South America",'World']])
    data['perc_cases'] = 100 * data['max']/data.loc['World','max']
    data['max'] = data["max"].map("{:,.1f}".format)
    data['min'] = data["min"].map("{:,.1f}".format)
    data['mean'] = data["mean"].map("{:,.1f}".format)
    data['perc_cases'] =data["perc_cases"].map("{:,.1f} %".format)
    data = data.rename(columns={'max':'max_cases','min':'min_cases','mean':'mean_cases'})

    print("Inserire il nome del continente che si vuole esaminare.\nSi tenga presente che la scelta deve ricadere fra una di quelle proposte di seguito.")
    print(" - ".join(cont_list))

    while True:
        cont_1 = str(input("Primo Contiente: ")).title().strip()
        if cont_1 in cont_list:
            cont_list.remove(cont_1.title())
            print("Il Primo Continente è stato inserito correttamente.")
            break
        else:
            print("L'elemento inserito non è valido.\nRiprovare.")

    while True:
        print("Scegli il secondo continente fra:\n"+" - ".join(cont_list))
        cont_2 = str(input("\nSecondo Continente:")).title().strip()
        if cont_2 in cont_list:
            print("Il Secondo Continente è stato inserito correttamente.")
            break
        else:print("L'elemento inserito non è valido.\nRiprovare.") 

    return(data.loc[[cont_1,cont_2],:])



In [None]:
# 4.Si chiede poi di effettuare lo stesso tipo di analisi — anche in questo caso sviluppando una funzione ad hoc — per il numero di
# vaccinazioni totali per ogni continente.
def cont_vacc():
    cont_list = ["Africa","Asia","Europe","North America","Oceania","South America"]  

    tot_case = covid.groupby('location')['total_vaccinations'].aggregate(['max','min','mean'])
    data = pd.DataFrame(tot_case.loc[["Africa","Asia","Europe","North America","Oceania","South America",'World']])
    data['perc_vacc'] = 100 * data['max']/data.loc['World','max']
    data['max'] = data["max"].map("{:,.1f}".format)
    data['min'] = data["min"].map("{:,.1f}".format)
    data['mean'] = data["mean"].map("{:,.1f}".format)
    data['perc_vacc'] =data["perc_vacc"].map("{:,.1f} %".format)
    data = data.rename(columns={'max':'max_vacc','min':'min_vacc','mean':'mean_vacc'})


    print("Inserire il nome del continente che si vuole esaminare.\nSi tenga presente che la scelta deve ricadere fra una di quelle proposte di seguito.")
    print(" - ".join(cont_list))

    while True:
        cont_1 = str(input("Primo Contiente: ")).title().strip()
        if cont_1 in cont_list:
            cont_list.remove(cont_1.title())
            print("Il Primo Continente è stato inserito correttamente.")
            break
        else:
            print("L'elemento inserito non è valido.\nRiprovare.")

    while True:
        print("Scegli il secondo continente fra:\n"+" - ".join(cont_list))
        cont_2 = str(input("\nSecondo Continente:")).title().strip()
        if cont_2 in cont_list:
            print("Il Secondo Continente è stato inserito correttamente.")
            break
        else:print("L'elemento inserito non è valido.\nRiprovare.") 

    return(data.loc[[cont_1,cont_2],:])

In [181]:
# 5.Alla fine, basandosi sui calcoli fatti, il committente chiede di stilare un breve (tre o quattro righe) paragrafo testuale riassuntivo
#  sulle statistiche di casi e vaccinazioni, che si concentri solo sulle differenze esistenti tra Europa, Sud America e Oceania. 
tot_case = covid.groupby('location')['total_cases'].aggregate(['max','min','mean'])
tot_vacc = covid.groupby('location')['total_vaccinations'].aggregate(['max','min','mean'])
data_case = pd.DataFrame(tot_case.loc[["Europe","Oceania","South America",'World']])
data_vacc = pd.DataFrame(tot_vacc.loc[["Europe","Oceania","South America",'World']])
data_case['perc_case'] = 100 * data_case['max']/data_case.loc['World','max']
data_case['max'] = data_case["max"].map("{:,.1f}".format)
data_case['min'] = data_case["min"].map("{:,.1f}".format)
data_case['mean'] = data_case["mean"].map("{:,.1f}".format)
data_case['perc_case'] =data_case["perc_case"].map("{:,.1f} %".format)
data_case = data_case.rename(columns={'max':'max_case','min':'min_case','mean':'mean_case'})
data_vacc['perc_vacc'] = 100 * data_vacc['max']/data_vacc.loc['World','max']
data_vacc['max'] = data_vacc["max"].map("{:,.1f}".format)
data_vacc['min'] = data_vacc["min"].map("{:,.1f}".format)
data_vacc['mean'] = data_vacc["mean"].map("{:,.1f}".format)
data_vacc['perc_vacc'] =data_vacc["perc_vacc"].map("{:,.1f} %".format)
data_vacc = data_vacc.rename(columns={'max':'max_vacc','min':'min_vacc','mean':'mean_vacc'})
esame = data_case.join(data_vacc)
esame




Unnamed: 0_level_0,max_case,min_case,mean_case,perc_case,max_vacc,min_vacc,mean_vacc,perc_vacc
location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Europe,249361847.0,1.0,116320199.0,32.3 %,1389677113.0,0.0,997079006.3,10.3 %
Oceania,14474337.0,1.0,5230490.5,1.9 %,82818337.0,3251.0,53615147.3,0.6 %
South America,68826296.0,1.0,39922703.6,8.9 %,958881505.0,420.0,658685821.4,7.1 %
World,770874669.0,2.0,349262650.8,100.0 %,13506907880.0,0.0,9000796588.8,100.0 %


La tabella generata in precedenza, mette in evidenza come in Europa si sia registrato il maggior numero di casi positivi al covid rispetto all'Australia ed al Sud America.
Lo stesso si può dire per le vaccinazioni. Da questo confronto, ponendo come assioma la veridicità delle dichiarazioni rilasciate dalle diverse nazioni, notiamo che le vaccianzioni
sono state eseguite per la maggiora parte in Europa ma che sono superiori alla quantità di casi positivi in Australia e Sud America.
