In [3]:
import pandas as pd

In [4]:
data = pd.read_csv("COVID19MEXICO.csv")
data

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,RESULTADO_PCR,RESULTADO_PCR_COINFECCION,TOMA_MUESTRA_ANTIGENO,RESULTADO_ANTIGENO,CLASIFICACION_FINAL_COVID,CLASIFICACION_FINAL_FLU,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2025-08-26,167f1a,1,12,1,2,1,1,3,1,...,997,997,2,97,6,6,99,México,97,97
1,2025-08-26,g5075fe,1,6,9,1,29,9,5,2,...,5,5,2,97,7,7,99,México,97,2
2,2025-08-26,gd25b0d,1,8,9,2,9,9,7,1,...,997,997,2,97,6,6,99,México,97,97
3,2025-08-26,gb733da,1,6,8,2,8,8,37,1,...,997,997,2,97,6,6,99,México,97,97
4,2025-08-26,g9ff7b3,1,4,32,1,32,32,17,2,...,5,5,2,97,7,7,99,México,97,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106402,2025-08-26,g7985aa,1,6,25,1,25,25,6,1,...,997,997,2,97,6,6,99,México,97,97
106403,2025-08-26,g8f2675,1,4,4,2,4,4,2,1,...,997,997,2,97,6,6,99,México,97,97
106404,2025-08-26,g688361,1,4,12,2,12,12,1,2,...,999,999,2,97,6,6,99,México,97,2
106405,2025-08-26,gb35fa3,1,4,4,1,4,4,2,1,...,997,997,2,97,6,6,99,México,97,97


# Variables relevantes a usar del dataset

En el contexto de la base de datos de la Secretaría de Salud de México, los códigos de valor son:

1: Sí


2: No


97, 98, 99: Desconocido o no aplica

En base a esto se utilizarán las siguientes variables categóricas para determinar si el paciente tiene una enfermedad respiratoria o no, teniendo los valores mencionados anteriormente:


- Edad:    Numero de la edad del paciente


- INTUBADO:	Paciente que fue o no intubado.


- NEUMONIA:	Paciente que presentó o no diagnóstico de neumonía.


- DIABETES:	Paciente con un diagnóstico previo de diabetes.


- EPOC:	Paciente con un diagnóstico previo de enfermedad pulmonar obstructiva crónica.


- ASMA:	Paciente con un diagnóstico previo de asma.


- INMUSUPR:	Paciente con un diagnóstico previo de inmunosupresión.


- HIPERTENSION:	Paciente con un diagnóstico previo de hipertensión.


- CARDIOVASCULAR:	Paciente con un diagnóstico previo de enfermedad cardiovascular.


- OBESIDAD:	Paciente con un diagnóstico previo de obesidad.


- RENAL_CRONICA:	Paciente con un diagnóstico previo de enfermedad renal crónica.


- TABAQUISMO:	Paciente con un diagnóstico previo de tabaquismo.


- OTRO_CASO:	Indica si el paciente tuvo contacto con otro caso confirmado de COVID-19.


- UCI:     Indica si el paciente requirió o no ser ingresado en una Unidad de Cuidados Intensivos

- FECHA_DEF: Contiene la fecha del fallecimiento del paciente en caso de tener 999/99 o algo parecido no ha muerto

- CLASIFICACION_FINAL_COVID: Identifica si el paciente es un caso de COVID-19, de acuerdo a los siguientes valores
    - (1, 2 ó 3): Caso confirmado
    - (7): Caso negativo
    - (4, 5 ó 6): Sin información (sin muestra o muestra inválida)

- CLASIFICACION_FINAL_FLU: Identifica si el paciente es un caso de Influenza, de acuerdo a los siguientes valores
    - (3): Caso confirmado
    - (7): Caso negativo
    - (4, 5 ó 6): Sin información (sin muestra o muestra inválida)

In [5]:
# Seleccionando las columnas de interes
data = data[[
    "EDAD",
    "INTUBADO",
    "NEUMONIA",
    "DIABETES",
    "EPOC",
    "ASMA",
    "INMUSUPR",
    "HIPERTENSION",
    "CARDIOVASCULAR",
    "OBESIDAD",
    "RENAL_CRONICA",
    "TABAQUISMO",
    "OTRO_CASO",
    "UCI",
    "FECHA_DEF",
    "CLASIFICACION_FINAL_COVID",
    "CLASIFICACION_FINAL_FLU"
]]

data

Unnamed: 0,EDAD,INTUBADO,NEUMONIA,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,UCI,FECHA_DEF,CLASIFICACION_FINAL_COVID,CLASIFICACION_FINAL_FLU
0,8,97,2,2,2,2,2,2,2,2,2,2,2,97,9999-99-99,6,6
1,86,2,2,2,2,2,2,2,2,2,2,2,2,2,9999-99-99,7,7
2,75,97,2,2,2,2,2,1,2,2,2,2,2,97,9999-99-99,6,6
3,18,97,2,2,2,1,2,2,2,2,2,2,2,97,9999-99-99,6,6
4,24,2,2,2,2,1,2,2,2,2,2,2,2,2,9999-99-99,7,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
106402,28,97,2,2,2,2,2,2,2,2,2,2,1,97,9999-99-99,6,6
106403,27,97,2,2,2,2,2,2,2,2,2,2,1,97,9999-99-99,6,6
106404,1,2,2,2,2,2,2,2,2,2,2,2,2,2,9999-99-99,6,6
106405,27,97,2,2,2,2,2,2,2,2,2,2,1,97,9999-99-99,6,6


In [6]:
# Filtrar quitando los registros con '9999-99-99'
datos_fallecimientos = data[data["FECHA_DEF"] != "9999-99-99"]

# Ahora sí puedes revisar
print(datos_fallecimientos["FECHA_DEF"].unique())

['2025-01-31' '2025-01-10' '2025-01-03' '2025-01-16' '2025-02-02'
 '2025-01-02' '2025-01-04' '2025-01-06' '2025-01-22' '2025-01-08'
 '2025-01-07' '2025-01-27' '2025-01-05' '2025-02-06' '2025-01-09'
 '2025-01-11' '2025-01-17' '2025-01-24' '2025-01-21' '2025-01-14'
 '2025-01-12' '2025-02-10' '2025-01-18' '2025-01-13' '2025-01-23'
 '2025-01-20' '2025-01-19' '2025-01-15' '2025-02-17' '2025-02-12'
 '2025-02-14' '2025-02-23' '2025-01-26' '2025-01-29' '2025-02-20'
 '2025-01-25' '2025-03-03' '2025-01-30' '2025-02-08' '2025-03-04'
 '2025-01-28' '2025-02-04' '2025-03-05' '2025-02-01' '2025-03-14'
 '2025-02-05' '2025-03-01' '2025-02-03' '2025-02-15' '2025-03-24'
 '2025-03-02' '2025-02-28' '2025-02-07' '2025-02-18' '2025-02-09'
 '2025-03-21' '2025-02-24' '2025-02-19' '2025-02-16' '2025-02-11'
 '2025-03-30' '2025-02-25' '2025-02-13' '2025-02-21' '2025-03-18'
 '2025-03-09' '2025-02-26' '2025-03-20' '2025-03-19' '2025-02-27'
 '2025-03-07' '2025-03-13' '2025-03-06' '2025-03-15' '2025-04-08'
 '2025-02-



A continuación se muestran las posibilidades de cada síntoma (Variable aleatoria) y como se obtienen de la base de datos: 

|Código en Red | Nombre variable | Columna(s) del dataset a usar| Opciones
|---|---|---|---|
| AM | Adulto mayor   | Edad           | Si (Edad>=65), No (Edad<65), Sin info(e.o.c)|
| I  | Intubado       | INTUBADO       | Si(1), No (2), Sin info(e.o.c) |
| D  | Diabetes       | DIABETES       | Si(1), No (2), Sin info(e.o.c) |
| E  | EPOC           | EPOC           | Si(1), No (2), Sin info(e.o.c) |
| A  | Asma           | ASMA           | Si(1), No (2), Sin info(e.o.c) |
| IN | Inmunosupresión| INMUSUPR       | Si(1), No (2), Sin info(e.o.c) |
| H  | Hipertensión   | HIPERTENSION   | Si(1), No (2), Sin info(e.o.c) |
| C  | Enf. Cardivascular | CARDIOVASCULAR | Si(1), No (2), Sin info(e.o.c) |
| O  | Obesidad       | OBESIDAD       | Si(1), No (2), Sin info(e.o.c) |
| R  | Enf. renal crónica  | RENAL_CRONICA  | Si(1), No (2), Sin info(e.o.c) |
| T  | Tabaquismo     | TABAQUISMO     | Si(1), No (2), Sin info(e.o.c) |
| OC | Contacto con Covid-19      | OTRO_CASO      | Si(1), No (2), Sin info(e.o.c) |
| U  | En Unidad de Cuidados Intensivos            | UCI            | Si(1), No (2), Sin info(e.o.c) |
| P  | Resultado de prueba a COVID o Influenza | CLASIFICACION_FINAL_COVID, CLASIFICACION_FINAL_FLU | Si(1, 2, 3), No(7), Sin info(e.o.c)


Para la realización de la red bayesiana se asumirá independencia entre los síntomas, a pesar de no ser siempre así en el mundo real, esto facilitarán los cálculos de la red bayesiana. Además de que se asumirá el resultado de la prueba de COVID o Influenza como verdadera, a pesar de que esto no siempre es así, para poder modelar y obtener las tablas de probabilidad de la red bayesiana, ya que no es posible obtener información de si realmente una persona tuvo covid o no.

A continación se muestra la red bayesiana:

![Red Bayesiana](red1.png)

Para calcular las probabilidades necesarias se hará mediante frecuencias y total posibles combinaciones de diagnósticos que dan pie a la enfermedad.


Para cada síntoma se calculará la tabla con: 

$$P(sintoma) = \frac{ \text{n° personas con sintoma}}{\text{n° total de personas}}$$

Ahora para calcular cada posibilidad en $P(positivo | sintomas)$

Sea $e$ el conjunto del estado de síntomas, $e = \{U = u, R = r, C = c, H = h, I = In, AM = a, OC = oc, E = e, D = d, T = t\}$

$$P(positivo | e) = \frac{\text{n° de personas que dieron positivo y tienen el conjunto específico de síntomas } e}{\text{n° de personas con el conjunto específico de síntomas } e}$$

## Predecir un diagnóstico

Una vez construida y entrenada, la red se convierte en la herramienta de diagnóstico, llega un caso nuevo con el estado: 

$e = \{U = u, R = r, C = c, H = h, I = In, AM = a, OC = oc, E = e, D = d, T = t\}$

Se evaluará la probabilidad en $P(covid | u, r, c, h, In, a, oc, e, d, t)$, caso del cuál ya se tiene registrado en el entrenamiento de la red. 