## Modelo de Riesgos Proporcionales para Covid-19 en México (2022)

## Estimadores de Kaplan-Meier

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sn

In [2]:
data = pd.read_csv("COVID19MEXICO2022_muestra.csv")

In [3]:
data.head()

Unnamed: 0,sexo,entidad_res,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,intubado,neumonia,edad,nacionalidad,...,obesidad,renal_cronica,tabaquismo,otro_caso,resultado_lab,toma_muestra_antigeno,resultado_antigeno,clasificacion,migrante,defuncion
0,2,31,2,2022-06-21,2022-06-14,2022-06-30,2,2,82,1,...,2,2,2,1,1,1,1,3,99,1
1,2,15,2,2022-02-02,2022-02-01,2022-02-11,2,2,86,1,...,2,2,2,2,1,1,1,3,99,1
2,2,20,2,2022-02-07,2022-01-31,2022-02-10,2,1,81,1,...,2,2,2,2,1,1,1,3,99,1
3,2,8,2,2022-07-21,2022-07-18,2022-07-22,1,1,65,1,...,2,2,1,2,97,1,1,3,99,1
4,2,16,2,2022-01-29,2022-01-26,2022-01-30,2,1,75,1,...,2,2,2,1,1,1,1,3,99,1


In [4]:
data_mod = data.copy()

drop_cols = ["entidad_res", "toma_muestra_antigeno", "resultado_lab", "clasificacion", "migrante", "embarazo",
             "resultado_antigeno"]

data_mod.drop(columns=drop_cols, inplace=True)

In [5]:
data_mod.head()

Unnamed: 0,sexo,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,intubado,neumonia,edad,nacionalidad,indigena,...,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,defuncion
0,2,2,2022-06-21,2022-06-14,2022-06-30,2,2,82,1,2,...,2,2,1,2,2,2,2,2,1,1
1,2,2,2022-02-02,2022-02-01,2022-02-11,2,2,86,1,2,...,2,2,2,2,2,2,2,2,2,1
2,2,2,2022-02-07,2022-01-31,2022-02-10,2,1,81,1,2,...,2,2,2,2,2,2,2,2,2,1
3,2,2,2022-07-21,2022-07-18,2022-07-22,1,1,65,1,2,...,2,1,2,1,2,2,2,1,2,1
4,2,2,2022-01-29,2022-01-26,2022-01-30,2,1,75,1,2,...,2,2,2,2,2,2,2,2,1,1


In [6]:
data_mod.columns

Index(['sexo', 'tipo_paciente', 'fecha_ingreso', 'fecha_sintomas', 'fecha_def',
       'intubado', 'neumonia', 'edad', 'nacionalidad', 'indigena', 'diabetes',
       'epoc', 'asma', 'inmusupr', 'hipertension', 'otra_com',
       'cardiovascular', 'obesidad', 'renal_cronica', 'tabaquismo',
       'otro_caso', 'defuncion'],
      dtype='object')

In [7]:
# Vemos si hay valores nulos
data_mod.isnull().sum()

sexo                  0
tipo_paciente         0
fecha_ingreso         0
fecha_sintomas        0
fecha_def         10540
intubado              0
neumonia              0
edad                  0
nacionalidad          0
indigena              0
diabetes              0
epoc                  0
asma                  0
inmusupr              0
hipertension          0
otra_com              0
cardiovascular        0
obesidad              0
renal_cronica         0
tabaquismo            0
otro_caso             0
defuncion             0
dtype: int64

In [8]:
# Convertimos a Valores Nulos, cierta códificación.
si_no_vars = ['intubado', 'neumonia', 'nacionalidad', 'indigena', 'diabetes',
       'epoc', 'asma', 'inmusupr', 'hipertension', 'otra_com',
       'cardiovascular', 'obesidad', 'renal_cronica', 'tabaquismo',
       'otro_caso', 'defuncion']

na_code = [97, 98, 99]

for var in si_no_vars:
    data_mod[var] = data_mod[var].replace(na_code, pd.NA)
# Revisamos nuevamente si hay valores nulos
data_mod.isnull().sum()

sexo                  0
tipo_paciente         0
fecha_ingreso         0
fecha_sintomas        0
fecha_def         10540
intubado          10340
neumonia             53
edad                  0
nacionalidad          0
indigena            470
diabetes             54
epoc                 53
asma                 52
inmusupr             49
hipertension         52
otra_com            131
cardiovascular       53
obesidad             49
renal_cronica        55
tabaquismo           54
otro_caso           286
defuncion             0
dtype: int64

In [9]:
data_mod.head()


Unnamed: 0,sexo,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,intubado,neumonia,edad,nacionalidad,indigena,...,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,defuncion
0,2,2,2022-06-21,2022-06-14,2022-06-30,2,2,82,1,2,...,2,2,1,2,2,2,2,2,1,1
1,2,2,2022-02-02,2022-02-01,2022-02-11,2,2,86,1,2,...,2,2,2,2,2,2,2,2,2,1
2,2,2,2022-02-07,2022-01-31,2022-02-10,2,1,81,1,2,...,2,2,2,2,2,2,2,2,2,1
3,2,2,2022-07-21,2022-07-18,2022-07-22,1,1,65,1,2,...,2,1,2,1,2,2,2,1,2,1
4,2,2,2022-01-29,2022-01-26,2022-01-30,2,1,75,1,2,...,2,2,2,2,2,2,2,2,1,1


In [10]:
# Eliminamos la variable entubado dado que tiene casi todos sus valores nulos
data_mod.drop(columns=['intubado', 'nacionalidad', 'indigena'], inplace=True)
# Revisamos nuevamente si hay valores nulos
data_mod.isnull().sum()

sexo                  0
tipo_paciente         0
fecha_ingreso         0
fecha_sintomas        0
fecha_def         10540
neumonia             53
edad                  0
diabetes             54
epoc                 53
asma                 52
inmusupr             49
hipertension         52
otra_com            131
cardiovascular       53
obesidad             49
renal_cronica        55
tabaquismo           54
otro_caso           286
defuncion             0
dtype: int64

In [11]:
# Adaptamos los datos de tiempo para el análisis de supervivencia
data_mod["fin_ano"] = pd.to_datetime("2022-12-31", format="%Y-%m-%d")

In [12]:
data_mod.head()

Unnamed: 0,sexo,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,neumonia,edad,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,defuncion,fin_ano
0,2,2,2022-06-21,2022-06-14,2022-06-30,2,82,2,1,2,2,1,2,2,2,2,2,1,1,2022-12-31
1,2,2,2022-02-02,2022-02-01,2022-02-11,2,86,1,2,2,2,2,2,2,2,2,2,2,1,2022-12-31
2,2,2,2022-02-07,2022-01-31,2022-02-10,1,81,1,2,2,2,2,2,2,2,2,2,2,1,2022-12-31
3,2,2,2022-07-21,2022-07-18,2022-07-22,1,65,1,2,2,1,2,1,2,2,2,1,2,1,2022-12-31
4,2,2,2022-01-29,2022-01-26,2022-01-30,1,75,2,2,2,2,2,2,2,2,2,2,1,1,2022-12-31


In [13]:
# Convertimos las fechas a datetime
data_mod["fecha_sintomas"] = pd.to_datetime(data_mod["fecha_sintomas"], format="%Y-%m-%d")
data_mod["fecha_def"] = pd.to_datetime(data_mod["fecha_def"], format="%Y-%m-%d")

# Creamos la variable de tiempo
data_mod["tiempo"] = pd.NA


# Calculamos el tiempo de supervivencia
for i in range(len(data_mod)):
    if data_mod["defuncion"][i] == 1:
        data_mod.loc[i, "tiempo"] = (data_mod["fecha_def"][i] - data_mod["fecha_sintomas"][i]).days
    else:
        data_mod.loc[i, "tiempo"] = (data_mod["fin_ano"][i] - data_mod["fecha_sintomas"][i]).days

data_mod.head()

Unnamed: 0,sexo,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,neumonia,edad,diabetes,epoc,asma,...,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,defuncion,fin_ano,tiempo
0,2,2,2022-06-21,2022-06-14,2022-06-30,2,82,2,1,2,...,1,2,2,2,2,2,1,1,2022-12-31,16
1,2,2,2022-02-02,2022-02-01,2022-02-11,2,86,1,2,2,...,2,2,2,2,2,2,2,1,2022-12-31,10
2,2,2,2022-02-07,2022-01-31,2022-02-10,1,81,1,2,2,...,2,2,2,2,2,2,2,1,2022-12-31,10
3,2,2,2022-07-21,2022-07-18,2022-07-22,1,65,1,2,2,...,2,1,2,2,2,1,2,1,2022-12-31,4
4,2,2,2022-01-29,2022-01-26,2022-01-30,1,75,2,2,2,...,2,2,2,2,2,2,1,1,2022-12-31,4


In [14]:
data_mod.tail()

Unnamed: 0,sexo,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,neumonia,edad,diabetes,epoc,asma,...,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,defuncion,fin_ano,tiempo
12643,1,1,2022-01-06,2022-01-05,NaT,2.0,70,2,2,2,...,1,2.0,1,2,2,2,2.0,0,2022-12-31,360
12644,2,1,2022-01-17,2022-01-13,NaT,2.0,50,1,2,2,...,2,2.0,2,2,2,2,1.0,0,2022-12-31,352
12645,1,1,2022-07-26,2022-07-23,NaT,,40,2,2,2,...,2,,2,2,2,2,,0,2022-12-31,161
12646,2,1,2022-06-14,2022-06-13,NaT,2.0,29,2,2,2,...,2,2.0,2,2,2,2,2.0,0,2022-12-31,201
12647,1,1,2022-11-28,2022-11-26,NaT,2.0,17,2,2,2,...,2,2.0,2,2,2,2,2.0,0,2022-12-31,35


In [15]:
# Eliminamos los pacientes con fecha de sintomas dentro de las 3 ultimas semanas del año.
data_mod = data_mod[data_mod["fecha_sintomas"] < "2022-12-10"]

data_mod.head()

Unnamed: 0,sexo,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,neumonia,edad,diabetes,epoc,asma,...,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,defuncion,fin_ano,tiempo
0,2,2,2022-06-21,2022-06-14,2022-06-30,2,82,2,1,2,...,1,2,2,2,2,2,1,1,2022-12-31,16
1,2,2,2022-02-02,2022-02-01,2022-02-11,2,86,1,2,2,...,2,2,2,2,2,2,2,1,2022-12-31,10
2,2,2,2022-02-07,2022-01-31,2022-02-10,1,81,1,2,2,...,2,2,2,2,2,2,2,1,2022-12-31,10
3,2,2,2022-07-21,2022-07-18,2022-07-22,1,65,1,2,2,...,2,1,2,2,2,1,2,1,2022-12-31,4
4,2,2,2022-01-29,2022-01-26,2022-01-30,1,75,2,2,2,...,2,2,2,2,2,2,1,1,2022-12-31,4


In [16]:
# Hacemos un Kaplan-Meier
# Definimos el evento y el tiempo
data_mod["event"] = data_mod["defuncion"] == 1
data_mod["tiempo"] = data_mod["tiempo"].astype("float16")

data_mod.to_csv("COVID19MEXICO2022_muestra_clean.csv", index=False)