Se carga el archivo **vaccinations.csv** en un DataFrame de la librería pandas. Se muestran las filas, columnas y los tipos de datos en el DataFrame.  

In [2]:
import pandas as pd

df = pd.read_csv('vaccinations.csv')

print(df.head())

print(df.info())

       country iso_code        date  total_vaccinations  people_vaccinated  \
0  Afghanistan      AFG  2021-02-22                 0.0                0.0   
1  Afghanistan      AFG  2021-02-23                 NaN                NaN   
2  Afghanistan      AFG  2021-02-24                 NaN                NaN   
3  Afghanistan      AFG  2021-02-25                 NaN                NaN   
4  Afghanistan      AFG  2021-02-26                 NaN                NaN   

   people_fully_vaccinated  daily_vaccinations_raw  daily_vaccinations  \
0                      NaN                     NaN                 NaN   
1                      NaN                     NaN              1367.0   
2                      NaN                     NaN              1367.0   
3                      NaN                     NaN              1367.0   
4                      NaN                     NaN              1367.0   

   total_vaccinations_per_hundred  people_vaccinated_per_hundred  \
0                 

Se convierte la columna de fechas en el tipo **datetime64**. Se muestran los datos en un DataFrame.

In [4]:
df['date'] = pd.to_datetime(df['date'])

print(df.dtypes)

print(df.info())

country                                        object
iso_code                                       object
date                                   datetime64[ns]
total_vaccinations                            float64
people_vaccinated                             float64
people_fully_vaccinated                       float64
daily_vaccinations_raw                        float64
daily_vaccinations                            float64
total_vaccinations_per_hundred                float64
people_vaccinated_per_hundred                 float64
people_fully_vaccinated_per_hundred           float64
daily_vaccinations_per_million                float64
vaccines                                       object
source_name                                    object
source_website                                 object
dtype: object
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86512 entries, 0 to 86511
Data columns (total 15 columns):
 #   Column                               Non-Null Count  Dtype    

Se agrupan los datos de las combinaciones de vacunas aplicadas. Se calcula la suma del total de vacunaciones para cada combinación y se ordenan los resultados de mayor a menor.

In [5]:
vaccines_summary = data.groupby('vaccines')['total_vaccinations'].sum()

vaccines_summary = vaccines_summary.sort_values(ascending=False)

print(vaccines_summary)


vaccines
CanSino, Sinopharm/Beijing, Sinopharm/Wuhan, Sinovac, ZF2001     7.094527e+11
Covaxin, Oxford/AstraZeneca, Sputnik V                           3.234403e+11
Johnson&Johnson, Moderna, Pfizer/BioNTech                        1.617576e+11
Moderna, Oxford/AstraZeneca, Pfizer/BioNTech                     1.153913e+11
Johnson&Johnson, Moderna, Oxford/AstraZeneca, Pfizer/BioNTech    9.962579e+10
                                                                     ...     
Pfizer/BioNTech, Sinopharm/Beijing, Sputnik V                    6.915494e+06
Oxford/AstraZeneca, Pfizer/BioNTech, Sputnik V                   6.840405e+06
Moderna                                                          6.531798e+06
Johnson&Johnson, Moderna                                         4.984467e+06
Pfizer/BioNTech, Sputnik V                                       3.863380e+06
Name: total_vaccinations, Length: 84, dtype: float64


Se calcula el total de vacunas aplicadas en todo el mundo sumando los valores de la columna **total_vaccinations**.

In [8]:
total_vaccines_applied = data['total_vaccinations'].sum()
print(f"Cantidad de vacunas aplicadas en todo el mundo: {total_vaccines_applied}")


Cantidad de vacunas aplicadas en todo el mundo: 2002854013761.0


Se calcula el promedio de vacunas aplicadas por país y se ordenan los resultados alfabéticamente por el nombre del país.

In [10]:
average_vaccines_by_country = data.groupby('country')['total_vaccinations'].mean()
average_vaccines_by_country_sorted = average_vaccines_by_country.sort_index()
print(average_vaccines_by_country_sorted)


country
Afghanistan          2.566118e+06
Albania              1.191695e+06
Algeria              9.956086e+06
Andorra              5.827721e+04
Angola               6.074066e+06
                         ...     
Wales                4.132861e+06
Wallis and Futuna    9.142925e+03
Yemen                4.794049e+05
Zambia               1.048484e+06
Zimbabwe             4.181618e+06
Name: total_vaccinations, Length: 223, dtype: float64


Se filtran los datos del **29 de enero del 2021** y se calcula el total de vacunas aplicadas en todo el mundo en esa fecha.

In [12]:
vaccines_on_date = data[data['date'] == '2021-01-29']
total_vaccines_on_date = vaccines_on_date['total_vaccinations'].sum()
print(f"Cantidad de vacunas aplicadas el día 29/01/2021 en todo el mundo: {total_vaccines_on_date}")


Cantidad de vacunas aplicadas el día 29/01/2021 en todo el mundo: 82952931.0


Se crea un nuevo DataFrame con una columna adicional llamada **diferencias** que calcula la diferencia entre las vacunaciones reportadas diarias **(daily_vaccionations)** y las vacunaciones sin procesar **(daily_vaccionations_raw)**.

In [13]:
conDiferencias = data.copy()
conDiferencias['diferencias'] = conDiferencias['daily_vaccinations'] - conDiferencias['daily_vaccinations_raw']
print(conDiferencias.head())


       country iso_code       date  total_vaccinations  people_vaccinated  \
0  Afghanistan      AFG 2021-02-22                 0.0                0.0   
1  Afghanistan      AFG 2021-02-23                 NaN                NaN   
2  Afghanistan      AFG 2021-02-24                 NaN                NaN   
3  Afghanistan      AFG 2021-02-25                 NaN                NaN   
4  Afghanistan      AFG 2021-02-26                 NaN                NaN   

   people_fully_vaccinated  daily_vaccinations_raw  daily_vaccinations  \
0                      NaN                     NaN                 NaN   
1                      NaN                     NaN              1367.0   
2                      NaN                     NaN              1367.0   
3                      NaN                     NaN              1367.0   
4                      NaN                     NaN              1367.0   

   total_vaccinations_per_hundred  people_vaccinated_per_hundred  \
0                       

Se identifica la fecha más reciente y la más antigua; se calcula el periodo de tiempo entre ambas fechas.

In [14]:
fecha_mas_reciente = data['date'].max()
fecha_mas_antigua = data['date'].min()

periodo_tiempo = fecha_mas_reciente - fecha_mas_antigua

print(f"Fecha más reciente: {fecha_mas_reciente}")
print(f"Fecha más antigua: {fecha_mas_antigua}")
print(f"Periodo de tiempo: {periodo_tiempo}")


Fecha más reciente: 2022-03-29 00:00:00
Fecha más antigua: 2020-12-02 00:00:00
Periodo de tiempo: 482 days 00:00:00


Se crea un nuevo DataFrame que incluye una nueva columna llamada **canVac**, que indica la cantidad de tipos de vacunas utilizas en cada registro con base en la columna **vaccines**.

In [15]:
conCantidad = data.copy()
conCantidad['canVac'] = conCantidad['vaccines'].apply(lambda x: len(x.split(',')))
print(conCantidad.head())


       country iso_code       date  total_vaccinations  people_vaccinated  \
0  Afghanistan      AFG 2021-02-22                 0.0                0.0   
1  Afghanistan      AFG 2021-02-23                 NaN                NaN   
2  Afghanistan      AFG 2021-02-24                 NaN                NaN   
3  Afghanistan      AFG 2021-02-25                 NaN                NaN   
4  Afghanistan      AFG 2021-02-26                 NaN                NaN   

   people_fully_vaccinated  daily_vaccinations_raw  daily_vaccinations  \
0                      NaN                     NaN                 NaN   
1                      NaN                     NaN              1367.0   
2                      NaN                     NaN              1367.0   
3                      NaN                     NaN              1367.0   
4                      NaN                     NaN              1367.0   

   total_vaccinations_per_hundred  people_vaccinated_per_hundred  \
0                       

Se incluyen los registros de las fechas anteriores al 20 de diciembre de 2020.

In [16]:
antes20 = data[data['date'] < '2020-12-20']

print(antes20.head())


      country iso_code       date  total_vaccinations  people_vaccinated  \
13403  Canada      CAN 2020-12-14                 5.0                5.0   
13404  Canada      CAN 2020-12-15               727.0              727.0   
13405  Canada      CAN 2020-12-16              3025.0             3025.0   
13406  Canada      CAN 2020-12-17              7279.0             7279.0   
13407  Canada      CAN 2020-12-18             11296.0            11296.0   

       people_fully_vaccinated  daily_vaccinations_raw  daily_vaccinations  \
13403                      NaN                     NaN                 NaN   
13404                      NaN                   722.0               722.0   
13405                      NaN                  2298.0              1510.0   
13406                      NaN                  4254.0              2425.0   
13407                      NaN                  4017.0              2823.0   

       total_vaccinations_per_hundred  people_vaccinated_per_hundred  \
13

Se filtran los registros que contienen la vacuna **Pfizer**.

In [17]:
pfizer = data[data['vaccines'].str.contains('Pfizer', case=False, na=False)]

print(pfizer.head())


       country iso_code       date  total_vaccinations  people_vaccinated  \
0  Afghanistan      AFG 2021-02-22                 0.0                0.0   
1  Afghanistan      AFG 2021-02-23                 NaN                NaN   
2  Afghanistan      AFG 2021-02-24                 NaN                NaN   
3  Afghanistan      AFG 2021-02-25                 NaN                NaN   
4  Afghanistan      AFG 2021-02-26                 NaN                NaN   

   people_fully_vaccinated  daily_vaccinations_raw  daily_vaccinations  \
0                      NaN                     NaN                 NaN   
1                      NaN                     NaN              1367.0   
2                      NaN                     NaN              1367.0   
3                      NaN                     NaN              1367.0   
4                      NaN                     NaN              1367.0   

   total_vaccinations_per_hundred  people_vaccinated_per_hundred  \
0                       

Se guardan los cuatro DataFrames creados (**conDiferencias, conCantidad, antes20, pfizer**) en un archivo de Excel, cada uno en una hoja diferente.

In [18]:
with pd.ExcelWriter('resultadosReto.xlsx') as writer:

    conDiferencias.to_excel(writer, sheet_name='conDiferencias', index=False)
    conCantidad.to_excel(writer, sheet_name='conCantidad', index=False)
    antes20.to_excel(writer, sheet_name='antes20', index=False)
    pfizer.to_excel(writer, sheet_name='pfizer', index=False)

print("Archivo 'resultadosReto.xlsx' guardado exitosamente.")


Archivo 'resultadosReto.xlsx' guardado exitosamente.
