# Obtención de dataset
## Propósito: Adaptar un dataset para calcular la esperanza de vida tras COVID-19 en Guerrero de un rango de edades de 0 a 108 años.
Los siguientes datasets contienen la información de defunciones registradas sobre los casos asociados a COVID-19.

Esta información es proporcionada por el Gobierno de México en su página oficial, consultese:
https://www.gob.mx/salud/documentos/datos-abiertos-bases-historicas-direccion-general-de-epidemiologia

Tomamos en cuenta la información de los años cuyos datos son CERRADOS de 2020 a 2023 ya que los años siguientes aún siguen abiertos (no concluidos en su totalidad y ante posibles modificaciones o revisiones).


# CARGAR INFORMACIÓN 
El manejo de información será con la librería "Pandas".
Fuentes de información principales y consultadas unicamente para esta delimitación de información:
- GOB.MX
- Secretaria de Salud de Guerrero
- CONAPO

In [None]:
import pandas as pd

#Estas son las rutas en donde yo las tengo guardadas para consultar.
filepath2020 = '/Users/hectorastudillo/Downloads/dataset_covid/COVID19MEXICO2020.csv'
filepath2021 = '/Users/hectorastudillo/Downloads/dataset_covid/COVID19MEXICO2021.csv'
filepath2022 = '/Users/hectorastudillo/Downloads/dataset_covid/COVID19MEXICO2022.csv'
filepath2023 = '/Users/hectorastudillo/Downloads/dataset_covid/COVID19MEXICO2023.csv'

data2020 = pd.read_csv(filepath2020)
data2021 = pd.read_csv(filepath2021)
data2022 = pd.read_csv(filepath2022)
data2023 = pd.read_csv(filepath2023)

  data2020 = pd.read_csv(filepath2020)
  data2021 = pd.read_csv(filepath2021)
  data2022 = pd.read_csv(filepath2022)


# Exploración de datos
Podemos verificar que nuestra información haya sido correctamente cargada y analizar que columnas contiene cada dataset y ver que proceso de depuración o limpieza de datos podemos hacer con ella, recordemos que nuestro principal objetivo es conocer el número de muertes delimitado para el estado de Guerrero en un rango de edad de 0 a 108 años, entonces veamos que nos puede ser útil.

In [23]:
print('Información de 2021:\n', data2021.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8830345 entries, 0 to 8830344
Data columns (total 40 columns):
 #   Column                 Dtype 
---  ------                 ----- 
 0   FECHA_ACTUALIZACION    object
 1   ID_REGISTRO            object
 2   ORIGEN                 int64 
 3   SECTOR                 int64 
 4   ENTIDAD_UM             int64 
 5   SEXO                   int64 
 6   ENTIDAD_NAC            int64 
 7   ENTIDAD_RES            int64 
 8   MUNICIPIO_RES          int64 
 9   TIPO_PACIENTE          int64 
 10  FECHA_INGRESO          object
 11  FECHA_SINTOMAS         object
 12  FECHA_DEF              object
 13  INTUBADO               int64 
 14  NEUMONIA               int64 
 15  EDAD                   int64 
 16  NACIONALIDAD           int64 
 17  EMBARAZO               int64 
 18  HABLA_LENGUA_INDIG     int64 
 19  INDIGENA               int64 
 20  DIABETES               int64 
 21  EPOC                   int64 
 22  ASMA                   int64 
 23  INMUSUP

# Consideraciones y observaciones
## Veracidad de información
- Consultando una de nuestras fuentes de información que se anexa en referencias bibliográficas se menciona que *La Secretaría de Salud Guerrero (SSG) informó de 4,123 fallecimientos por COVID-19 en el año 2021.*
Este es nuestro valor de referencia para saber si los datos **una vez filtrados** corresponden a dicha información, sin embargo **NO podemos trabajar con información que no aporta valor a nuestro modelo** esto ocurre con la fecha registrada de defunción dentro de cada dataset de 2020 a 2023 pues o no hay fecha de registro de muerte o se asignaron valores que no corresponden a un formato fecha (a un tipo de dato DateTime), entonces estos datos al no aportarnos valor serán omitidos/eliminados sin perder la escencia de que conocemos un aproximado de nuestros datos.

- Como mencionabamos, el tipo de dato para este proceso de manipulación y filtrado es MUY importante, si bien nuestro principal obejtivo son las defunciones por edad en el estado de Guerrero haremos la conversión de manera general por si este dataset se requiere para el calculo de algún otro estado o con otro modelo.
Esto se logrra observar en las columnas que indican ser de entrada FECHA pero tiene un tipo de dato OBJETO como lo es:
    - FECHA_INGRESO
    - FECHA_SINTOMAS
    - FECHA_DEF (el cual es de nuestro principal interés)

Con respecto a la observación de valores que no corresponden a un formato de fecha y/o tienen valores mal registrados, se logró observar tras la exxploración de valores únicos que contiene cada columna con el siguiente código que se muestra a continuación:
Dicho código fue construido con base a Programación 1 (parte 1 )y parte de mis proyectos de repositorio publicados en github, en la sección de AnalisisDatos/Pandas (parte 2), consultese: 
https://github.com/hectoras20/py-proyects

In [24]:
#PARA OBTENER LOS ÚNICOS VALORES
#Parte 1
while True:
    print("0 = Datos del 2020")
    print("1 = Datos del 2021")
    print("2 = Datos del 2022")
    print("3 = Datos del 2023")
    print("[S] Salir")
    opcion = input("Ingrese el número para consultar información de 0 para 2020, 1 para 2021, 2 para 2022 o 3 para 2023, S para Salir:").upper()
    if opcion not in "0,1,2,3,S" or len(opcion) > 1:
        print("No sé qué deseas hacer!\n")
        continue
    else:
        match opcion:
            case "0":
                dataSelected = data2020
                yearSelec = "2020"
                break
            case "1": 
                dataSelected = data2021
                yearSelec = "2021"
                break
            case "2":
                dataSelected = data2022
                yearSelec = "2022"
            case "3":
                dataSelected = data2023
                yearSelec = "2023"
                break
            case "S":
                dataSelected = None
                break

#Parte 2

unique_values = {
    col : dataSelected[col].unique() for col in dataSelected.columns
}
"""
We create a dictionary such that its keys are all the columns called col, then we iterate over each column to obtain its unique values
"For each column into the columns from the dataset, obtain its unique value"

In PANDAS, the notation to specify a column is with [], dataset[column]
"""


print('DATOS SELECCIONADOS DE: ', yearSelec)
for col, values in unique_values.items():
    print(f'Column: {col}')
    print(f'Number of unique values: {len(values)}')
    print(f'Unique values: {values[:10]}') # We obtain the first 10 values
    print('-'*20) 

0 = Datos del 2020
1 = Datos del 2021
2 = Datos del 2022
3 = Datos del 2023
[S] Salir
DATOS SELECCIONADOS DE:  2021
Column: FECHA_ACTUALIZACION
Number of unique values: 1
Unique values: ['2022-08-09']
--------------------
Column: ID_REGISTRO
Number of unique values: 8830345
Unique values: ['z53cb3' 'zze974' 'zz7202' 'z405fd' 'z26b82' 'z23d9d' '1009d6' 'z5c8ce'
 '0c5c89' '17a7b4']
--------------------
Column: ORIGEN
Number of unique values: 2
Unique values: [2 1]
--------------------
Column: SECTOR
Number of unique values: 15
Unique values: [12  6  9  4 10  3  5  8 11  7]
--------------------
Column: ENTIDAD_UM
Number of unique values: 32
Unique values: [ 9 24 16 22 30 14 27  7 15 26]
--------------------
Column: SEXO
Number of unique values: 2
Unique values: [2 1]
--------------------
Column: ENTIDAD_NAC
Number of unique values: 33
Unique values: [ 9 24 16 30 14 27  7 15  2 25]
--------------------
Column: ENTIDAD_RES
Number of unique values: 32
Unique values: [ 9 24 16 22 30 14 27  7 

# Identificación de columnas que aportan información útil para nuestra delimitación y propósito.
Con ello pudimos identificar nuestra columna de principal interés "FECHA_DEF" que contiene las fechas de defunción y que en conjunto con la columna "EDAD" y "ENTIDAD_UM" lograremos deliminar este dataset para nuestro modelo.

# Transformando columna de tipo objeto a fecha
Nota: Este código es de ChatGPT para la conversión de tipo OBJETO a DATETIME:
        # Lista de DataFrames
        dataframes = [data2020, data2021, data2022, data2023]

        Columnas de fechas
        fecha_cols = ['FECHA_ACTUALIZACION', 'FECHA_INGRESO', 'FECHA_SINTOMAS', 'FECHA_DEF']

        for df in dataframes:
            for col in fecha_cols:
                df[col] = pd.to_datetime(df[col], format='%Y-%m-%d', errors='coerce')  # Convierte y deja errores como NaT

**PERO ANTES VERIFIQUEMOS QUE POR LO MENOS NUESTRA COLUMNA DE INTERES (FECHA_DEF) ES DE TIPO OBJETO ANTES DE SU CONVERSIÓN**
En efecto, es de tipo OBJETO, por lo tanto procedemos a la transformación pero unicamente de nuestra columna de interés "FECHA_DEF"

- Una vez verificado...

Toma las fechas que no coinciden con un formato correcto como "9999-99-99" y les asigna el valor de NaT
**Esto libera nuestro dataset de información que no aporta valor a nuestro modelo y solo genera errores**, es quizá información que no logró cargarse dentro de su página oficial, información que no logró cargarse bien desde su registro, en fin.
Esto se logra con el parámetro errors='coerce' dentro del método que hace la conversión (to_datetime)

# ASUMIMOS Sobrevivientes
Para no dejar de lado nuestra información que no tiene registro de defunción o que es un registro inválido, podemos asumir que es un registro de sobrevivencia.

In [25]:
#Verificamos que nuestra columna principal esté realmente en un formato incorrecto...
print(dataSelected['FECHA_DEF'].dtype)
#OBSERVAMOS QUE ES DE TIPO OBJETO, por lo cual procedemos a hacer el cambio.

object


In [26]:
#REALIZAMOS LA CONVERSIÓN A TIPO DATETIME
#Lista de DataFrames
dataframes = [data2020, data2021, data2022, data2023]

fecha_cols = ['FECHA_DEF', 'FECHA_INGRESO','FECHA_SINTOMAS']

for df in dataframes:
    for col in fecha_cols:
        df[col] = pd.to_datetime(df[col], format='%Y-%m-%d', errors='coerce')  # Convierte y deja errores como NaT, 
        
#REVISAMOS QUE ESTÉ EN EL FORMATO CORRECTO DE NUEVO NUESTRA COLUMNA PRINCIPAL DE INTERÉS
print(dataSelected['FECHA_DEF'].dtype)

datetime64[ns]


# Delimitando información de cada dataset
Observemos lo siguiente:
Si realizamos un chequeo de los datos únicos de la columna "FECHA_DEF" para el dataset de 2020 logramos observar que hay datos de 2021 en 2020, esto debido a que en la página en donde se descargaron *el registro del año* comienza en abril de 2020 y termina en abril de 2021... justo cuando dió inicio la pandemia en México y es algo que debemos de deliminar! Pero esto lo haremos más adelante.

# Delimitación por Entidad - GUERRERP
Haremos el filtrado de nuestra información con la que trabajaremos, para este caso queremos simplemente los datos del estado de Guerrero que le corresponde el valor 12 en la columa "ENTIDAD_UM".

Este valor fue obtenido gracias al archivo que funciona como diccionario de todos los datasets "diccionario_datos_abiertos" que viene anexado en: (https://www.gob.mx/salud/documentos/datos-abiertos-bases-historicas-direccion-general-de-epidemiologia).

Daremos tratamiento por si hubo filas repetidas ya que no vamos a revisar fila por fila o algún otra situación que interfiera con nuestros datos, para posteriromente poder hacer una división más exacta de nuestros datos ya que como mencionabamos, habia datos de defunciones de 2021 en 2020 y así en los otros años.

- dataVar2020 = "DATASET DE  CASOS ASOCIADOS A COVID-19 EN GUERRERO 2020"
- dataVar2021 = "DATASET DE  CASOS ASOCIADOS A COVID-19 EN GUERRERO 2021"
- dataVar2022 = "DATASET DE  CASOS ASOCIADOS A COVID-19 EN GUERRERO 2022"
- dataVar2023 = "DATASET DE  CASOS ASOCIADOS A COVID-19 EN GUERRERO 2023"
- dataVarTOTAL = "DATASET DE  CASOS ASOCIADOS A COVID-19 EN GUERRERO de 2020 a 2023"

In [27]:
# 12 es el valor de nuestro interés pues corresponde al estado de GUERRERO
stateKey = int(input('Indique la clave del estado (12 para Guerrero):\n'))
dataVar2020 = data2020.query(f'ENTIDAD_UM == {stateKey}')
dataVar2021 = data2021.query(f'ENTIDAD_UM == {stateKey}')
dataVar2022 = data2022.query(f'ENTIDAD_UM == {stateKey}')
dataVar2023 = data2023.query(f'ENTIDAD_UM == {stateKey}')

#Unimos los datos de Guerrero en un solo DataFrame
dataVarTOTAL = pd.concat([dataVar2020, dataVar2021, dataVar2022, dataVar2023], axis=0, ignore_index=True)
dataVarTOTAL.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 277802 entries, 0 to 277801
Data columns (total 40 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   FECHA_ACTUALIZACION    277802 non-null  object        
 1   ID_REGISTRO            277802 non-null  object        
 2   ORIGEN                 277802 non-null  int64         
 3   SECTOR                 277802 non-null  int64         
 4   ENTIDAD_UM             277802 non-null  int64         
 5   SEXO                   277802 non-null  int64         
 6   ENTIDAD_NAC            277802 non-null  int64         
 7   ENTIDAD_RES            277802 non-null  int64         
 8   MUNICIPIO_RES          277802 non-null  int64         
 9   TIPO_PACIENTE          277802 non-null  int64         
 10  FECHA_INGRESO          277802 non-null  datetime64[ns]
 11  FECHA_SINTOMAS         277802 non-null  datetime64[ns]
 12  FECHA_DEF              8857 non-null    date

In [28]:
# Eliminaremos datos duplicados en caso de que haya.
#dataVarTOTAL.drop_duplicates(inplace=True)
# No hubo

# FILTRADO DE DATOS POR AÑO Y EDAD
Debido a la falta de información y congruencia que suele haber en las páginas, haremos un filtrado por año (2020, 2021, 2022, 2023) y por edad para disponer de la información de manera eficiente ante cualquier caso posible.
- Creamos una columna nueva llamada AÑO_DEF que corresponde unicamente al año de defunción de la persona que, tras el úlitmo código, residen en Guerrero.
- Teniendo 4 nuevos datasets que corresponden a cada año (2020,2021,2022,2023), podemos conocer el rango de edades por medio de describe sobre la columna de "EDAD".

# Filtrado por año
Para ello crearemos una nueva columna sobre nuestro DataFrame que contiene toda la información de 2020 a 2023
La pandemia dió inicio en abril, por lo tanto los años que se consideraron completos van de abril de 2020 a abril de 2021 y asi sucesivamente hasta cerrar datos en abril de 2024.
- Entonces creamos una nueva columna que contiene unicamente el año de defunción, sobre la columna "FECHA_DEF".

In [29]:
dataVarTOTAL['AÑO_DEF'] = dataVarTOTAL['FECHA_DEF'].dt.year

Corroboramos que nuestos datos esten bien y los valores únicos que estan sobre la columna creada "AÑO_DEF" correspondan de 2020 a 2023
- NaN son los datos que mencionamos que NO aportan valor y que asumimos que son las personas que sobrevivieron al no tener una fecha de defunción correcta o que quizá se perdió al momento de hacer pública la información.

In [30]:
#Veamos los años únicos que hay para evitar problemas y quizá buenas prácticas:
años_unicosDEF = dataVarTOTAL['AÑO_DEF'].unique()
print('Registro de años con defunciones: ', años_unicosDEF)

Registro de años con defunciones:  [  nan 2020. 2021. 2022. 2023. 2024.]


Creación de los nuevos datasets que estan delimitados por único año de defunción, aquí corregimos lo que mencionabamos de que hay datos de 2021 en 2020.
Ademas notese que ya estamos quitando indirectamente la información de donde no hay un registro de defunciones entre los datasets, pudo haberse hecho con .dropna() pero ese no es el punto, el punto es obtener la información que aporte a nuestro modelo que de forma indirecta se logró quitando esos casos delimitando nuestros datasets.

In [31]:
df_2020 = dataVarTOTAL[dataVarTOTAL['AÑO_DEF'] == 2020]
df_2021 = dataVarTOTAL[dataVarTOTAL['AÑO_DEF'] == 2021]
df_2022 = dataVarTOTAL[dataVarTOTAL['AÑO_DEF'] == 2022]
df_2023 = dataVarTOTAL[dataVarTOTAL['AÑO_DEF'] == 2023]
#Excluimos el año 2024, ya que para la comparativa tomamos 4 años antes de covid.

# Verificación de nuestros datos
Ahora revisemos que tan mal están nuestros datos, como bien mencionamos para corroborar nuestra información nos basamos en las cifras publicadas por la Secretaria de Salud de Guerrero el cual menciona que hubo un registro de 4,123 muertes en 2021 entonces, veamos que nuestros dataset nos indica un registro de 4,181 muertas aproximadamente, hubo un pequeño exceso en cuanto a las cifras registradas pero damos veracidad a nuestra información con un pequeño margen de error.

In [32]:
# MUERTES POR AÑO
conteo = df_2021['AÑO_DEF'].value_counts()
print(conteo)

AÑO_DEF
2021.0    4181
Name: count, dtype: int64


# Delitación por edad
Nuestra información obtenida a partir de este proceso que estamos realizando de analizar, filtrar y delimitar la información, será comparada con los datos que registra CONAPO, pues INEGI no dispone de esta información específica que necesitamos.
El problema es que CONAPO solo tiene registro de información de edades de 0 a 109 años unicamente, entonces tenemos que deliminar nuestra información de muertes por COVID a este rango.

Observese que nuestro rango de información de muertes por covid que acabamos de delimitar va de 0 a 123 años de edad! Esto lo logramos con el método describe que nos da un resumen estadístico de nuestra información, en este caso aplicado sobre la columna EDAD.

In [55]:
dataVarTOTAL['EDAD'].describe()

count    277802.000000
mean         39.850869
std          17.865710
min           0.000000
25%          27.000000
50%          38.000000
75%          51.000000
max         123.000000
Name: EDAD, dtype: float64

In [38]:
# Simple curiosidad por observar y conocer los datos: 
personas_mayores_100 = dataVarTOTAL[dataVarTOTAL['EDAD'] > 100]
TOTAL_personas_mayores_100 = total_filas = personas_mayores_100.shape[0]
print('Personas asociadas a casos de COVID mayores de 100 años durante 2020-23 en Guerrero: ', TOTAL_personas_mayores_100)

#DE LAS CUALES FALLECIERON...
defunciones100Años = personas_mayores_100['FECHA_DEF'].isna().sum()
print(f'De las cuales fallecieron {defunciones100Años} de ese grupo de personas')

Personas asociadas a casos de COVID mayores de 100 años durante 2020-23 en Guerrero:  74
De las cuales fallecieron 71 de ese grupo de personas


# Muertes por edad
Veamos un vistazo rápido al número de muertes de algunas edades filtradas durante 2021. Hay dos formas de hacerlo, consultarlo directamente desde el dataset que contiene toda la información o hacerlo desde el dataset del año en específico (la de 2021 en df_2021).

In [40]:
data_2021 = df_2021[df_2021['AÑO_DEF'] == 2021]
conteo_edades = data_2021['EDAD'].value_counts()

conteo_edades_ordenado = conteo_edades.sort_values(ascending=False)
print(conteo_edades_ordenado)

EDAD
68     124
67     122
71     117
73     116
69     116
      ... 
104      1
7        1
100      1
15       1
5        1
Name: count, Length: 98, dtype: int64


# Creación de nuestro dataset final
La idea es la siguiente:
Tener un dataset que contenga las siguientes columnas:
- EDAD
- MUERTES 2020
- MUERTES 2021
- MUERTES 2022
- MUERTES 2023

In [50]:
# PARA 2020
# Contar los casos por edad y convertirlo en DataFrame
def_2020 = df_2020['EDAD'].value_counts().reset_index()

# Renombrar columnas
def_2020.columns = ['EDAD', 'MUERTES 2020']

# Ordenar por EDAD en orden ascendente
def_2020 = def_2020.sort_values(by='EDAD', ascending=True)

# Mostrar el DataFrame resultante
print(def_2020)

# PARA 2021
# Contar los casos por edad y convertirlo en DataFrame
def_2021 = df_2021['EDAD'].value_counts().reset_index()

# Renombrar columnas
def_2021.columns = ['EDAD', 'MUERTES 2021']

# Ordenar por EDAD en orden ascendente
def_2021 = def_2021.sort_values(by='EDAD', ascending=True)

# Mostrar el DataFrame resultante
print(def_2021)

# PARA 2022
# Contar los casos por edad y convertirlo en DataFrame
def_2022 = df_2022['EDAD'].value_counts().reset_index()

# Renombrar columnas
def_2022.columns = ['EDAD', 'MUERTES 2022']

# Ordenar por EDAD en orden ascendente
def_2022 = def_2022.sort_values(by='EDAD', ascending=True)

# Mostrar el DataFrame resultante
print(def_2022)


#PARA 2023
# Contar los casos por edad y convertirlo en DataFrame
def_2023 = df_2023['EDAD'].value_counts().reset_index()

# Renombrar columnas
def_2023.columns = ['EDAD', 'MUERTES 2023']

# Ordenar por EDAD en orden ascendente
def_2023 = def_2023.sort_values(by='EDAD', ascending=True)

# Mostrar el DataFrame resultante
print(def_2023)



    EDAD  MUERTES 2020
53     0            18
57     1            15
72     2             4
84     3             2
85     5             2
..   ...           ...
73    96             4
86    97             2
81    98             2
94    99             1
93   100             1

[98 rows x 2 columns]
    EDAD  MUERTES 2021
62     0            14
65     1            13
92     2             1
85     4             2
97     5             1
..   ...           ...
78    97             5
79    98             4
81    99             3
95   100             1
93   104             1

[98 rows x 2 columns]
    EDAD  MUERTES 2022
17     0            15
10     1            17
33     2             9
81     3             2
89     4             1
..   ...           ...
72    96             3
83    97             1
70    98             3
94   101             1
85   104             1

[95 rows x 2 columns]
    EDAD  MUERTES 2023
0      0            10
3      1             8
23     2             4
68     4   

# UNIÓN 
Por último unimos los anteriores dataframes, los ordenamos, analizamos que la edad máxima sobre estos años de 2020 a 2023 fue de 101, entonces necesitamoss trabajar bajo mismas dimensiones! Por lo tanto nuestra información de CONAPO que solo llega hasta 109 años, se delimitará hasta 101 años, para que ambos dataframes estén bajo la misma dimensión y poder operar o hacer calculos sobre ellas, debe de haber un equilibrio.

In [56]:
# Fusionar los DataFrames usando 'outer' para conservar todas las edades
muertesCOVID2020_2023PorEdad = def_2020.merge(def_2021, on='EDAD', how='outer') \
                   .merge(def_2022, on='EDAD', how='outer') \
                   .merge(def_2023, on='EDAD', how='outer')

# Reemplazar NaN por 0 en las columnas de conteo
muertesCOVID2020_2023PorEdad.fillna(0, inplace=True)

# Convertir las columnas de conteo a enteros (opcional, si deseas evitar decimales)
muertesCOVID2020_2023PorEdad.iloc[:, 1:] = muertesCOVID2020_2023PorEdad.iloc[:, 1:].astype(int)

# Mostrar el DataFrame final
print(muertesCOVID2020_2023PorEdad)


     EDAD  MUERTES 2020  MUERTES 2021  MUERTES 2022  MUERTES 2023
0       0          18.0          14.0          15.0          10.0
1       1          15.0          13.0          17.0           8.0
2       2           4.0           1.0           9.0           4.0
3       3           2.0           0.0           2.0           0.0
4       4           0.0           2.0           1.0           1.0
..    ...           ...           ...           ...           ...
97     98           2.0           4.0           3.0           1.0
98     99           1.0           3.0           0.0           0.0
99    100           1.0           1.0           0.0           0.0
100   101           0.0           0.0           1.0           0.0
101   104           0.0           1.0           1.0           0.0

[102 rows x 5 columns]


# Guardamos este dataset en formato excel

In [57]:
ruta_guardado = "/Users/hectorastudillo/Downloads/muertesCOVID2020_2023PorEdad.xlsx"
muertesCOVID2020_2023PorEdad.to_excel(ruta_guardado, index=False)

La información se ve muy clara, los grupos que mayormente fueron vulnerables son claros y muestran el comportamiento que uno esperaria, comprobamos la información con fuentes confiables, estoy satisfecho.