In [3]:
import pandas as pd
import numpy as np

# Cargar los datos desde un archivo CSV (ajustar la ruta según sea necesario)
file_path = 'country_vaccinations.csv'  # Reemplazar con la ruta real del archivo
df = pd.read_csv(file_path)

# Seleccionar columnas relevantes
columns = [
    'country', 'iso_code', 'date', 'total_vaccinations', 'people_vaccinated',
    'people_fully_vaccinated', 'daily_vaccinations', 'total_vaccinations_per_hundred',
    'people_vaccinated_per_hundred', 'people_fully_vaccinated_per_hundred'
]
df = df[columns]

# Convertir la columna de fecha a formato datetime
df['date'] = pd.to_datetime(df['date'])

# Manejo de valores nulos: reemplazar NaN con 0 donde sea necesario
df.fillna(0, inplace=True)

# Crear un resumen por país
resumen = df.groupby('country').agg(
    total_vacunas=('total_vaccinations', 'max'),
    personas_vacunadas=('people_vaccinated', 'max'),
    personas_fully_vacunadas=('people_fully_vaccinated', 'max'),
    promedio_vacunas_diarias=('daily_vaccinations', 'mean')
).reset_index()

# Generar nuevos datos: porcentaje de población totalmente vacunada
resumen['porcentaje_fully_vacunados'] = (
    resumen['personas_fully_vacunadas'] / resumen['personas_vacunadas'] * 100
).fillna(0)

# Guardar el resumen en un archivo CSV y Excel
resumen.to_csv('resumen_vacunacion.csv', index=False)
resumen.to_excel('resumen_vacunacion.xlsx', index=False)

print("Proceso completado. Resumen guardado en 'resumen_vacunacion.csv' y 'resumen_vacunacion.xlsx'")



Proceso completado. Resumen guardado en 'resumen_vacunacion.csv' y 'resumen_vacunacion.xlsx'
