In [10]:
import pandas as pd
import numpy as np
!pip install xlsxwriter

# a) Extraer información del archivo country_vaccinations.csv
df = pd.read_csv("country_vaccinations.csv")

# b) Estructura y asegurar tipo datetime64.
df['date'] = pd.to_datetime(df['date'])
print(df.info())

# c) Determinar la cantidad de vacunas aplicadas de cada compañía
vac_comp = (
    df[["vaccines","daily_vaccinations"]]
    .groupby("vaccines")
    .sum()
    .reset_index()
)
vac_comp.head()

# d) Obtener la cantidad de vacunas aplicadas en todo el mundo
total_mundial = df['daily_vaccinations'].sum()

# e) Calcular el promedio de vacunas aplicadas por país
promedio_pais= (
    df[["country","daily_vaccinations"]]
    .groupby("country")
    .mean()
    .reset_index()
)
promedio_pais.head()

# f) vacunas aplicadas el día 29/01/21 en todo el mundo
fecha_busqueda = pd.to_datetime("2021-01-29")
total_290121 = df.loc[df['date'] == fecha_busqueda, 'daily_vaccinations'].sum()

# g) Dataframe con columna derivada (conDiferencias)
conDiferencias = df.copy()
conDiferencias['diferencias'] = conDiferencias['daily_vaccinations'] - conDiferencias['daily_vaccinations_raw']

# h) Periodo entre fechas
fecha_min = df['date'].min()
fecha_max = df['date'].max()
periodo = fecha_max - fecha_min

# i) Dataframe conCantidad
conCantidad = df.copy()   # Copiar el DataFrame original

conCantidad['canVac'] = (
    conCantidad['vaccines']
        .str.split(',')    # separa en listas por comas
        .str.len()         # conteo
)

# j) Dataframe antes20 con registros antes del 20 de diciembre de 2020.
antes20 = df.loc[df['date'] < pd.to_datetime("2020-12-20")].copy()

# k) Dataframe Pfizer
pfizer = df[df['vaccines'].str.contains('Pfizer')].copy()

# Mostrar resumen
print("\n--- RESUMEN ---")
print("Cantidad de vacunas aplicadas en todo el mundo:", int(total_mundial))
print("Cantidad de vacunas aplicadas el día 29/01/21 :", int(total_290121))
print("Registro más antiguo:", fecha_min.date())
print("Registro más reciente:", fecha_max.date())
print("Periodo (días):", periodo.days)

# Guardar en Excel
with pd.ExcelWriter("resultadosReto.xlsx", engine="openpyxl") as writer:
    conDiferencias.to_excel(writer, sheet_name="conDiferencias", index=False)
    conCantidad.to_excel(writer, sheet_name="conCantidad", index=False)
    antes20.to_excel(writer, sheet_name="antes20", index=False)
    pfizer.to_excel(writer, sheet_name="pfizer", index=False)
    vac_comp.to_excel(writer, sheet_name="vacunas_por_compania", index=False) #Preferi exportar a excel por la cantidad de datos
    promedio_pais.to_excel(writer, sheet_name="promedio_pais", index=False)   #Preferi exportar a excel por la cantidad de datos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86512 entries, 0 to 86511
Data columns (total 15 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                               --------------  -----         
 0   country                              86512 non-null  object        
 1   iso_code                             86512 non-null  object        
 2   date                                 86512 non-null  datetime64[ns]
 3   total_vaccinations                   43607 non-null  float64       
 4   people_vaccinated                    41294 non-null  float64       
 5   people_fully_vaccinated              38802 non-null  float64       
 6   daily_vaccinations_raw               35362 non-null  float64       
 7   daily_vaccinations                   86213 non-null  float64       
 8   total_vaccinations_per_hundred       43607 non-null  float64       
 9   people_vaccinated_per_hundred        41294 non-null  float64       
 10  people_ful