In [None]:
"""
Analisi diffusione COVID-19 nel mondo

Il committente richiede di avere un report su casi e vaccinazioni in diverse aree del mondo; a tal fine, richiede di utilizzare il dataset,
curato da Our World in Data, all'indirizzo https://github.com/owid/covid-19-data/tree/master/public/data; alla voce " Download
our complete COVID-19 dataset" scaricare il dataset in formato CSV oppure in formato JSON.

• Si richiede di verificare le dimensioni del dataset e le diciture presenti nell'intestazione.

• Si chiede poi per ogni continente di trovare il numero di casi totali avvenuti in quello stesso continente; si chiede di non
  considerare eventuali locazioni che nel dataset non appartengono ad alcun continente.
  
• Sempre riguardo i casi di COVID totali, si chiede di sviluppare una funzione che prenda in input il dataset e due nomi di
  continenti, e che ne confronti i seguenti relativi descrittori statistici: valori minimo e massimo, media, e percentuale rispetto al
  numero dei casi totali nel mondo (in questo caso calcolati anche sulle locazioni senza indicazione di continente).
  
• Si chiede poi di effettuare lo stesso tipo di analisi – anche in questo caso sviluppando una funzione ad hoc – per il numero di
  vaccinazioni totali per ogni continente.
  
• Alla fine, basandosi sui calcoli fatti, il committente chiede di stilare un breve (tre o quattro righe) paragrafo testuale riassuntivo
  sulle statistiche di casi e vaccinazioni, che si concentri solo sulle differenze esistenti tra Europa, Sud America e Oceania.
  
Per effettuare le analisi si potranno usare, a scelta, strumenti come funzioni e strutture dati built-in quali open(), liste, dizionari;
moduli built-in quali csv o json; moduli esterni quali Pandas e i relativi metodi e tipi di dato.
"""

In [1]:
#importiamo pandas e il dataset
import pandas as pd
df = pd.read_csv("https://covid.ourworldindata.org/data/owid-covid-data.csv", low_memory=False)
# la dicitura low_memory è stata trovata da google, senza la quale l'importazione del dataset risulta impossibile
#a quanto pare non essendo python in grado di "capire ed assegnare" un tipo ad ogni colonna del dataset dà errore

In [2]:
#verifichiamo le dimensioni del dataset e le intestazioni
df.shape
print("Esaminiamo il dataset: ")
df.info()

Esaminiamo il dataset: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 311581 entries, 0 to 311580
Data columns (total 67 columns):
 #   Column                                      Non-Null Count   Dtype  
---  ------                                      --------------   -----  
 0   iso_code                                    311581 non-null  object 
 1   continent                                   296745 non-null  object 
 2   location                                    311581 non-null  object 
 3   date                                        311581 non-null  object 
 4   total_cases                                 275335 non-null  float64
 5   new_cases                                   302655 non-null  float64
 6   new_cases_smoothed                          301391 non-null  float64
 7   total_deaths                                254635 non-null  float64
 8   new_deaths                                  302735 non-null  float64
 9   new_deaths_smoothed                         30

In [3]:
#trasformiamo il formato della colonna "date" da stringa in data
df["date"] = pd.to_datetime(df.date)

In [4]:
#creiamo un dizionario con i nomi dei continenti
dict_continenti ={}
dict_continenti['Africa']='Africa'
dict_continenti['Asia']='Asia'
dict_continenti['Europa']='Europe'
dict_continenti['Nord America']='North America'
dict_continenti['Sud America']='South America'
dict_continenti['Oceania']='Oceania'

In [5]:
#troviamo la fine della serie storica dei dati rilevati basandoci sull'ultimo rilevamento dei casi totali
df_filtro_casi_totali = df[df['total_cases'] >0]
fine_serie = df_filtro_casi_totali['date'].max()
print(fine_serie)

2023-05-17 00:00:00


In [35]:
#definiamo una funzione per la scelta e inserimento di un continente
def scegli_continenti(dict_continenti, nome):

	i= 0
	lista_valori = []
	print('Scegli un ' + nome + ':')
	for k in dict_continenti:
    		i= i+ 1
    		lista_valori.extend([dict_continenti[k]])
    		print(str(i) + ') ' + k)
	valido = False
	while not valido:
            inserito = input('Scegli: ')
            N_inserito = int(inserito) - 1
            if N_inserito > -1 and N_inserito < len(lista_valori):
                scelta = lista_valori[N_inserito]
                print('Hai scelto come ' +  nome + ': ' + scelta)
                valido = True
            else:
                print('Scegli un ' + nome + ' valido dalla lista')
    
            return scelta

#azioniamo due volte la funzione creata
print("Facciamo un confronto tra due continenti.\n")
primo_continente = scegli_continenti(dict_continenti, 'primo continente')
print("\nOttimo!\n")
secondo_continente = scegli_continenti(dict_continenti, 'secondo continente')
import pandas as pd
import numpy as np
#estraiamo i dati e stampiamo il confronto tra i dati
df_estratto = df[df["continent"].isnull()]
df_estratto = df_estratto[["location","total_cases","total_vaccinations"]].fillna(0)
"""df_estratto["total_cases"]=df_estratto["total_cases"].astype(float).astype('Int64')
df_estratto["total_vaccinations"]=df_estratto["total_vaccinations"].astype(float).astype('Int64')
df_estratto.info()"""
def dati_morti(alfa):
    a=df_estratto.loc[(df_estratto["location"]==alfa), 'total_cases'].min()
    b=df_estratto.loc[(df_estratto["location"]==alfa), 'total_cases'].max()
    c=df_estratto.loc[(df_estratto["location"]==alfa), 'total_cases'].mean()
    d=(100*df_estratto.loc[(df_estratto["location"]==alfa), 'total_cases'].max()/df_estratto.loc[(df_estratto["location"]=="World"), 'total_cases'].max())
    data_morti=[a,b,c,d]
    
    return data_morti

def dati_vaccini(alfa):
    e=df_estratto.loc[(df_estratto["location"]==alfa), 'total_vaccinations'].min()
    f=df_estratto.loc[(df_estratto["location"]==alfa), 'total_vaccinations'].max()
    g=df_estratto.loc[(df_estratto["location"]==alfa), 'total_vaccinations'].mean()
    h=(100*df_estratto.loc[(df_estratto["location"]==alfa), 'total_vaccinations'].max()/df_estratto.loc[(df_estratto["location"]=="World"), 'total_vaccinations'].max())
    data_vaccini=[e,f,g,h]
    
    return data_vaccini

morti_primo = dati_morti(primo_continente)
vaccini_primo = dati_vaccini(primo_continente)
morti_secondo = dati_morti(secondo_continente)
vaccini_secondo = dati_vaccini(secondo_continente)


print("Ecco i dati a confronto!\n")
int_colonne=["Min","Max", "Media", "% mondiale"]
int_righe=[primo_continente,secondo_continente]
print("Morti\n")
morti=[morti_primo, morti_secondo]
vaccini=[vaccini_primo, vaccini_secondo]
print(pd.DataFrame(morti, int_righe, int_colonne))
print("\nVaccini\n")
print(pd.DataFrame(vaccini, int_righe, int_colonne))


Facciamo un confronto tra due continenti.

Scegli un primo continente:
1) Africa
2) Asia
3) Europa
4) Nord America
5) Sud America
6) Oceania


Scegli:  4


Hai scelto come primo continente: North America

Ottimo!

Scegli un secondo continente:
1) Africa
2) Asia
3) Europa
4) Nord America
5) Sud America
6) Oceania


Scegli:  5


Hai scelto come secondo continente: South America
Ecco i dati a confronto!

Morti

               Min          Max         Media  % mondiale
North America  0.0  124169393.0  5.820181e+07   16.200797
South America  0.0   68555165.0  3.485415e+07    8.944622

Vaccini

               Min           Max         Media  % mondiale
North America  0.0  1.150127e+09  5.583996e+08    8.591509
South America  0.0  9.571099e+08  4.383949e+08    7.149662


In [44]:
print("Prendiamo ora in esame i dati di Europa, Sud America ed Oceania.\n")
int_colonne=["Min","Max", "Media", "% mondiale"]
int_righe=["Europa", "Sud America", "Oceania"]
print("Morti\n")
morti=[dati_morti("Europe"), dati_morti("South America"), dati_morti("Oceania")]
vaccini=[dati_vaccini("Europe"), dati_vaccini("South America"), dati_vaccini("Oceania")]
print(pd.DataFrame(morti, int_righe, int_colonne))
print("\nVaccini\n")
print(pd.DataFrame(vaccini, int_righe, int_colonne))
print("\nOsserviamo come l'Europa, nonostante abbia avuto un livello di vaccinazioni maggiore degli altri due continenti, ha subito un numero di morti di gran lunga superiore.\n")
print("Questo può essere dovuto ad una serie di spiegazioni. Il rilevamento dei dati in Sud America certamente non sarà stato meticoloso come in Europa. L'Oceania ha una popolazione minore.")
print("L'inizio del contagio è avvenuto molto prima in Europa rispetto agli altri due.")

Prendiamo ora in esame i dati di Europa, Sud America ed Oceania.

Morti

             Min          Max         Media  % mondiale
Europa       0.0  249319125.0  1.018685e+08   32.529502
Sud America  0.0   68555165.0  3.485415e+07    8.944622
Oceania      0.0   14073969.0  4.151484e+06    1.836278

Vaccini

             Min           Max         Media  % mondiale
Europa       0.0  1.383455e+09  6.871015e+08   10.334480
Sud America  0.0  9.571099e+08  4.383949e+08    7.149662
Oceania      0.0  8.281834e+07  3.601927e+07    0.618657

Osserviamo come l'Europa, nonostante abbia avuto un livello di vaccinazioni maggiore degli altri due continenti, ha subito un numero di morti di gran lunga superiore.

Questo può essere dovuto ad una serie di spiegazioni. Il rilevamento dei dati in Sud America certamente non sarà stato meticoloso come in Europa. L'Oceania ha una popolazione minore.
L'inizio del contagio è avvenuto molto prima in Europa rispetto agli altri due.


In [None]:
#filtriamo il database solo con i dati che ci servono
#il database è impostato in modo che dove "continent" è nullo corrispondono i dati aggregati dei continenti, ma anche altri tipi di aggregazioni
#come le fasce di reddito e l'UE
estratto = df[(df["date"]==fine_serie)&(df["continent"].isnull())]
estratto = estratto[["location","total_cases","total_vaccinations"]]
print(estratto)
#così facendo otteniamo i dati totali di casi e vacinazioni a fine serie 17/05/2023