# Esercitazione Finale Python
## Analisi diffusione COVID-19 nel mondo
Il committente richiede di avere un report su casi e vaccinazioni in diverse aree del mondo; a tal fine, richiede di utilizzare il dataset, curato da Our World in Data, all'indirizzo https://github.com/owid/covid-19-data/tree/master/public/data;
alla voce "🗂 Download our complete COVID-19 dataset" scaricare il dataset in formato CSV oppure in formato JSON.

* Si richiede di verificare le dimensioni del dataset e le diciture presenti nell'intestazione

* Si chiede poi per ogni continente di trovare il numero di casi totali avvenuti in quello stesso continente; si chiede di non considerare eventuali locazioni che nel dataset non appartengono ad alcun continente.

* Sempre riguardo i casi di COVID totali, si chiede di sviluppare una funzione che prenda in input il dataset e due nomi di continenti, e che ne confronti i seguenti relativi descrittori statistici: valori minimo e massimo, media, e percentuale rispetto al numero dei casi totali nel mondo (in questo caso calcolati anche sulle locazioni senza indicazione di continente).

* Si chiede poi di effettuare lo stesso tipo di analisi – anche in questo caso sviluppando una funzione ad hoc – per il numero di vaccinazioni totali per ogni continente.

* Alla fine, basandosi sui calcoli fatti, il committente chiede di stilare un breve (tre o quattro righe) paragrafo testuale riassuntivo sulle statistiche di casi e vaccinazioni, che si concentri solo sulle differenze esistenti tra Europa, Sud America e Oceania.

Per effettuare le analisi si potranno usare, a scelta, strumenti come funzioni e strutture dati built-in quali open(), liste, dizionari; moduli built-in quali csv o json; moduli esterni quali Pandas e i relativi metodi e tipi di dato.

## Punto 1:
Per prima cosa importo la libreria di Pandas e il dataset da utilizzare.

In [1]:
import pandas as pd

df = pd.read_csv(r"https://covid.ourworldindata.org/data/owid-covid-data.csv", low_memory=False)

Successivamente verifico le dimensioni del file, le diciture presenti nell'intestazione e le prime 5 righe del dataset. 

In [2]:
df.shape

(313070, 67)

In [3]:
intestazione = list(df.columns)
print(intestazione)

['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases', 'new_cases_smoothed', 'total_deaths', 'new_deaths', 'new_deaths_smoothed', 'total_cases_per_million', 'new_cases_per_million', 'new_cases_smoothed_per_million', 'total_deaths_per_million', 'new_deaths_per_million', 'new_deaths_smoothed_per_million', 'reproduction_rate', 'icu_patients', 'icu_patients_per_million', 'hosp_patients', 'hosp_patients_per_million', 'weekly_icu_admissions', 'weekly_icu_admissions_per_million', 'weekly_hosp_admissions', 'weekly_hosp_admissions_per_million', 'total_tests', 'new_tests', 'total_tests_per_thousand', 'new_tests_per_thousand', 'new_tests_smoothed', 'new_tests_smoothed_per_thousand', 'positive_rate', 'tests_per_case', 'tests_units', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'total_boosters', 'new_vaccinations', 'new_vaccinations_smoothed', 'total_vaccinations_per_hundred', 'people_vaccinated_per_hundred', 'people_fully_vaccinated_per_hundred', 'total_

In [4]:
df.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,population,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
0,AFG,Asia,Afghanistan,2020-01-03,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
1,AFG,Asia,Afghanistan,2020-01-04,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
2,AFG,Asia,Afghanistan,2020-01-05,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
3,AFG,Asia,Afghanistan,2020-01-06,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,
4,AFG,Asia,Afghanistan,2020-01-07,,0.0,,,0.0,,...,,37.746,0.5,64.83,0.511,41128772.0,,,,


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 313070 entries, 0 to 313069
Data columns (total 67 columns):
 #   Column                                      Non-Null Count   Dtype  
---  ------                                      --------------   -----  
 0   iso_code                                    313070 non-null  object 
 1   continent                                   298214 non-null  object 
 2   location                                    313070 non-null  object 
 3   date                                        313070 non-null  object 
 4   total_cases                                 277045 non-null  float64
 5   new_cases                                   304385 non-null  float64
 6   new_cases_smoothed                          303121 non-null  float64
 7   total_deaths                                256295 non-null  float64
 8   new_deaths                                  304452 non-null  float64
 9   new_deaths_smoothed                         303222 non-null  float64
 

## Punto 2:
Calcolo ora il numero di casi totali avvenuti in quello stesso continente:

In [6]:
df = df.dropna(subset=["continent"])

""" Verrà utilizzato questo df anche per i punti 3 e 4."""

somma_continente = df.groupby("continent")["new_cases"].sum()
casi_globali = df['new_cases'].sum()

print(somma_continente)

continent
Africa            13089145.0
Asia             297460760.0
Europe           249444178.0
North America    124187478.0
Oceania           14123192.0
South America     68612891.0
Name: new_cases, dtype: float64


## Punto 3:
Sviluppo di una funzione per calcolare le metriche di minimo, massimo e media di due continenti e confronto tra casi totali per continente e totale mondiale. Nel print ho utilizzato il "df" con il "dropna" perchè prendendo in considerazione i "Nan" i dati non mi sembravano veritieri. 

In [45]:
def confronta_descrittori_casi(dataset, continente1, continente2):
    df_continente1 = dataset[dataset['continent'] == continente1]
    df_continente2 = dataset[dataset['continent'] == continente2]

    descrittori_continente1 = df_continente1['new_cases'].agg(['min', 'max', 'mean'])
    descrittori_continente2 = df_continente2['new_cases'].agg(['min', 'max', 'mean'])

    totale_mondiale = dataset['new_cases'].sum()
    percentuale_continente1 = (df_continente1['new_cases'].sum() / totale_mondiale) * 100
    percentuale_continente2 = (df_continente2['new_cases'].sum() / totale_mondiale) * 100

    risultati_casi = pd.DataFrame({
        'Continente': [continente1, continente2],
        'Minimo': [descrittori_continente1['min'], descrittori_continente2['min']],
        'Massimo': [descrittori_continente1['max'], descrittori_continente2['max']],
        'Media': [descrittori_continente1['mean'], descrittori_continente2['mean']],
        'Percentuale rispetto al totale mondiale': [percentuale_continente1, percentuale_continente2]
    })

    return risultati_casi

In [46]:
x = confronta_descrittori_casi(df, "Europe", "Asia")
print(x)

  Continente  Minimo    Massimo        Media  \
0     Europe     0.0   500563.0  3953.657801   
1       Asia     0.0  6966046.0  5117.076259   

   Percentuale rispetto al totale mondiale  
0                                32.525550  
1                                38.786532  


## Punto 4

In [43]:
def confronta_descrittori_vaccini(dataset, continente1, continente2):
    df_continente1 = dataset[dataset['continent'] == continente1]
    df_continente2 = dataset[dataset['continent'] == continente2]

    descrittori_continente1 = df_continente1['new_vaccinations'].agg(['min', 'max', 'mean'])
    descrittori_continente2 = df_continente2['new_vaccinations'].agg(['min', 'max', 'mean'])

    totale_mondiale = dataset['new_vaccinations'].sum()
    percentuale_continente1 = (df_continente1['new_vaccinations'].sum() / totale_mondiale) * 100
    percentuale_continente2 = (df_continente2['new_vaccinations'].sum() / totale_mondiale) * 100

    risultati_vaccinazioni = pd.DataFrame({
        'Continente': [continente1, continente2],
        'Minimo': [descrittori_continente1['min'], descrittori_continente2['min']],
        'Massimo': [descrittori_continente1['max'], descrittori_continente2['max']],
        'Media': [descrittori_continente1['mean'], descrittori_continente2['mean']],
        'Percentuale rispetto al totale mondiale': [percentuale_continente1, percentuale_continente2]
    })

    return risultati_vaccinazioni

In [44]:
y = confronta_descrittori_vaccini(df, "Europe", "Asia",)
print(y)

  Continente  Minimo     Massimo          Media  \
0     Europe     0.0   2389472.0   59940.289233   
1       Asia     0.0  24741000.0  509783.344320   

   Percentuale rispetto al totale mondiale  
0                                11.667095  
1                                69.591868  


## Punto 5

Per elaborare una piccola analisi riassuntiva sulle statistiche di casi e vaccinazioni, che si concentri solo sulle differenze esistenti tra Europa, Sud America e Oceania, utilizzerò le funzioni e il df dei punti precedenti.

In [48]:
z = confronta_descrittori_casi(df, "South America", "Oceania")
print(z)
w = confronta_descrittori_vaccini(df, "South America", "Oceania",)
print(w)

      Continente  Minimo   Massimo        Media  \
0  South America     0.0  298408.0  3963.771866   
1        Oceania     0.0  588813.0   475.400296   

   Percentuale rispetto al totale mondiale  
0                                 8.946579  
1                                 1.841553  
      Continente  Minimo    Massimo          Media  \
0  South America     1.0  3976605.0  150541.749688   
1        Oceania     1.0   351226.0   56859.011442   

   Percentuale rispetto al totale mondiale  
0                                 7.774235  
1                                 0.687285  


Confrontando i dati relativi ai casi di COVID-19 e alle vaccinazioni nei continenti Europa, Sud America e Oceania, emergono differenze significative.

Nel continente Europa, si osserva che la situazione dei casi totali presenta un range ampio, con un numero minimo di casi pari a 0 e un massimo giornaliero di 500563 casi, mentre la media si attesta a 3953.65 casi. L'Europa rappresenta il 32.52% dei casi totali nel mondo, indicando una diffusione considerevole del virus nella regione. 

Riguardo alle vaccinazioni, si registra un minimo di 0 dosi amministrate e un massimo giornaliero di 2389472. La media delle vaccinazioni risulta essere di 59940.28. L'Europa contribuisce al 11.667% delle vaccinazioni totali nel mondo, indicando un impegno significativo nella campagna di immunizzazione.

Nel continente Sud America, si osserva una situazione simile a quella europea per quanto riguarda i casi totali, con un numero minimo di casi pari a 0 e un massimo giornaliero di 298408. La media dei casi si attesta a 3963.77. La percentuale dei casi totali del Sud America rispetto al totale mondiale è del 8.94%. Riguardo alle vaccinazioni, si registra un minimo di zero dosi amministrate e un massimo giornaliero di 3,976,605.0. La media delle vaccinazioni risulta essere di 150541.74. Il Sud America contribuisce al 7.77% delle vaccinazioni totali nel mondo, evidenziando un impegno significativo nella campagna di immunizzazione simile a quello dell'Europa.

Nell'Oceania, la situazione dei casi totali presenta un range che parte da zero, arrivando a un massimo giornaliero di 588813. La media dei casi si attesta a 475.40. L'Oceania rappresenta l'1.84% dei casi totali nel mondo, evidenziando una diffusione relativamente contenuta del virus nella regione. Per quanto riguarda le vaccinazioni, si registra un minimo di zero dosi amministrate e un massimo giornaliero di 351226. La media delle vaccinazioni risulta essere di 56859.01. L'Oceania contribuisce allo 0.68% delle vaccinazioni totali nel mondo, indicando un'impostazione diversa rispetto alle altre regioni, forse influenzata dalla minore diffusione del virus.

Complessivamente, i dati evidenziano differenze significative nella diffusione del virus e nell'implementazione delle campagne di vaccinazione tra Europa, Sud America e Oceania. L'Europa e il Sud America si trovano in una situazione simile in termini di casi e vaccinazioni, con una maggiore diffusione del virus e un impegno significativo nella vaccinazione rispetto all'Oceania, dove i casi e le vaccinazioni sono relativamente meno diffusi.