In [1]:
# Reto | Análisis del Progreso de Vacunación Mundial
# Tecnológico de Monterrey | The Learning Gate


# ---------------------------------------------------
# 1. Extraer la información del archivo
# ---------------------------------------------------
import pandas as pd
import numpy as np

# Cargar el archivo
ruta = 'country_vaccinations.csv'
df = pd.read_csv(ruta)

# Mostrar las primeras filas para inspeccionar
print(df.head())

# ---------------------------------------------------
# 2. Mostrar la estructura y tipos de datos de cada columna
# ---------------------------------------------------
print(df.info())

# Convertir la columna 'date' a tipo datetime
df['date'] = pd.to_datetime(df['date'])

# Verificar nuevamente la estructura
print(df.info())

# ---------------------------------------------------
# 3. Cantidad de vacunas aplicadas de cada compañía
# ---------------------------------------------------
vacunas_por_compania = df.groupby('vaccines')['total_vaccinations'].sum().sort_values(ascending=False)
print(vacunas_por_compania)

# ---------------------------------------------------
# 4. Cantidad de vacunas aplicadas en todo el mundo
# ---------------------------------------------------
total_vacunas_mundo = df['total_vaccinations'].sum()
print("Total de vacunas aplicadas en todo el mundo:", total_vacunas_mundo)

# ---------------------------------------------------
# 5. Promedio de vacunas aplicadas por país
# ---------------------------------------------------
promedio_vacunas_pais = df.groupby('country')['total_vaccinations'].mean()
print(promedio_vacunas_pais)

# ---------------------------------------------------
# 6. Cantidad de vacunas aplicadas el 29/01/2021
# ---------------------------------------------------
vacunas_29_enero = df[df['date'] == '2021-01-29']['daily_vaccinations'].sum()
print("Vacunas aplicadas el 29/01/2021:", vacunas_29_enero)

# ---------------------------------------------------
# 7. Crear DataFrame conDiferencias
# ---------------------------------------------------
conDiferencias = df.copy()
conDiferencias['diferencias'] = conDiferencias['daily_vaccinations'] - conDiferencias['daily_vaccinations_raw']
print(conDiferencias.head())

# ---------------------------------------------------
# 8. Obtener el periodo de tiempo entre la fecha más reciente y la más antigua
# ---------------------------------------------------
fecha_min = df['date'].min()
fecha_max = df['date'].max()
periodo = fecha_max - fecha_min
print("Periodo de tiempo entre fechas:", periodo)

# ---------------------------------------------------
# 9. Crear DataFrame conCantidad
# ---------------------------------------------------
conCantidad = df.copy()
conCantidad['canVac'] = conCantidad['vaccines'].apply(lambda x: len(x.split(',')))
print(conCantidad.head())

# ---------------------------------------------------
# 10. Crear DataFrame antes20
# ---------------------------------------------------
antes20 = df[df['date'] < '2020-12-20']
print(antes20.head())

# ---------------------------------------------------
# 11. Crear DataFrame pfizer
# ---------------------------------------------------
pfizer = df[df['vaccines'].str.contains('Pfizer')]
print(pfizer.head())

# ---------------------------------------------------
# 12. Almacenar DataFrames en archivo Excel
# ---------------------------------------------------
with pd.ExcelWriter('resultadosReto.xlsx') as writer:
    conDiferencias.to_excel(writer, sheet_name='conDiferencias', index=False)
    conCantidad.to_excel(writer, sheet_name='conCantidad', index=False)
    antes20.to_excel(writer, sheet_name='antes20', index=False)
    pfizer.to_excel(writer, sheet_name='pfizer', index=False)

print("Archivo 'resultadosReto.xlsx' creado exitosamente.")


       country iso_code        date  total_vaccinations  people_vaccinated  \
0  Afghanistan      AFG  2021-02-22                 0.0                0.0   
1  Afghanistan      AFG  2021-02-23                 NaN                NaN   
2  Afghanistan      AFG  2021-02-24                 NaN                NaN   
3  Afghanistan      AFG  2021-02-25                 NaN                NaN   
4  Afghanistan      AFG  2021-02-26                 NaN                NaN   

   people_fully_vaccinated  daily_vaccinations_raw  daily_vaccinations  \
0                      NaN                     NaN                 NaN   
1                      NaN                     NaN              1367.0   
2                      NaN                     NaN              1367.0   
3                      NaN                     NaN              1367.0   
4                      NaN                     NaN              1367.0   

   total_vaccinations_per_hundred  people_vaccinated_per_hundred  \
0                 

In [2]:
# Verificar que tienen la misma cantidad de filas
print("Filas en conDiferencias:", len(conDiferencias))
print("Filas en conCantidad:", len(conCantidad))

# Verificar que los índices son iguales
comparar_index = conDiferencias.index.equals(conCantidad.index)
print("¿Los índices son iguales?", comparar_index)

# Verificar que las columnas clave coinciden
coincidencia = (conDiferencias[['country', 'date', 'vaccines']] == conCantidad[['country', 'date', 'vaccines']]).all().all()
print("¿Coinciden las columnas clave?", coincidencia)

# Verificar valores nulos en columnas nuevas
print("Valores nulos en diferencias:", conDiferencias['diferencias'].isnull().sum())
print("Valores nulos en canVac:", conCantidad['canVac'].isnull().sum())
print("Valores únicos en canVac:", conCantidad['canVac'].unique())


Filas en conDiferencias: 86512
Filas en conCantidad: 86512
¿Los índices son iguales? True
¿Coinciden las columnas clave? True
Valores nulos en diferencias: 51150
Valores nulos en canVac: 0
Valores únicos en canVac: [4 3 1 2 6 5 7 9 8]
