# Análsis de la base de datos Casos positivos de COVID-19 en Colombia


## Introducción

Durante el año 2020 y a nivel mundial se desencadenó una pandemia ocasionada por el coronavirus SARS-CoV-2, más conocida como COVID-19. Esta enfermedad infecciosa se caracteriza principalmente por síntomas respiratorios que inician de forma leve, con tos y fiebra, y pueden alcanzar graves complicaciones e incluso la muerte, especialmente en mayores y personas con condiciones médicas preexistentes.

Colombia no estuvo excento de este acontecimiento, ya que, así como en muchos otros países, este hecho generó grandes impactos en la salud pública, la economía y la sociedad en general. A lo largo de este proyecto se analizará la información que contiene la base de datos sobre casos confirmados de COVID-19 en Colombia, suministrada por el Instituto Nacional de Salud  en la página https://www.datos.gov.co. Cada fila representa un caso confirmado de COVID-19. Las columnas contienen información relevante sobre cada caso, como la fecha de diagnóstico, la edad, el sexo, la ubicación, entre otros.

Gracias a lo anterior, se podrá comprender mejor la evolución de la pandemia en Colombia, identificando áreas geográficas con alta incidencia, examinar la distribución demográfica de los casos y proporcionar información útil para la prevención y toma de decisiones en salud pública.

Para desarrollar los objetivos propuestos, se implementará análisis exploratorio de los datos (EDA) incluyendo visualización y análisis descriptivo para resumir las principales características de los casos de COVID-19. Además, se aplicará redes neuronales con el fin de encontrar patrones que permitan conocer que características aumentan la probabilidad de fallecimiento al momento de tener un caso confirmado de COVID-19 en Colombia.

En conclusión, el análisis de esta base de datos permitirá obtener información valiosa sobre la situación del COVID-19 en Colombia, buscando contribuir a la formulación de estrategias efectivas de prevención y control de la enfermedad.





## Librerías

In [1]:
import pandas as pd # Lectura de la base de datos y trabajo con fechas
import numpy as np  # Preparación y procesamiento de los datos
import keras # Construcción del modelo
from tensorflow.keras import layers, models # Creación de las capas del modelo
from sklearn.model_selection import train_test_split # Preparación de los datos para la aplicación del modelo
from tensorflow.keras import layers, models

## Análsis Descriptivo de la base de datos



### 1. Lectura

In [2]:
data = pd.read_csv('/content/sample_data/Casos_positivos_de_COVID-19_en_Colombia._20240517.csv')
data = pd.DataFrame(data)
data.head()

Unnamed: 0,fecha reporte web,ID de caso,Fecha de notificación,Código DIVIPOLA departamento,Nombre departamento,Código DIVIPOLA municipio,Nombre municipio,Edad,Unidad de medida de edad,Sexo,...,Código ISO del país,Nombre del país,Recuperado,Fecha de inicio de síntomas,Fecha de muerte,Fecha de diagnóstico,Tipo de recuperación,Fecha de recuperación,Pertenencia étnica,Nombre del grupo étnico
0,2020-12-24 00:00:00,1556979,2020-12-22 00:00:00,76,VALLE,76001,CALI,67.0,1.0,F,...,,,Recuperado,2020-12-21 00:00:00,,2020-12-23 00:00:00,Tiempo,2021-01-04 00:00:00,6.0,
1,2020-12-24 00:00:00,1556980,2020-12-19 00:00:00,76,VALLE,76001,CALI,66.0,1.0,F,...,,,Recuperado,2020-12-07 00:00:00,,2020-12-23 00:00:00,Tiempo,2020-12-25 00:00:00,6.0,
2,2020-12-24 00:00:00,1556981,2020-12-19 00:00:00,76,VALLE,76001,CALI,68.0,1.0,F,...,,,Recuperado,2020-12-18 00:00:00,,2020-12-22 00:00:00,Tiempo,2021-01-01 00:00:00,6.0,
3,2020-12-24 00:00:00,1556982,2020-12-22 00:00:00,76,VALLE,76001,CALI,74.0,1.0,F,...,,,Fallecido,2020-12-17 00:00:00,2020-12-30 00:00:00,2020-12-23 00:00:00,,,6.0,
4,2020-12-24 00:00:00,1556983,2020-12-22 00:00:00,76,VALLE,76001,CALI,65.0,1.0,F,...,,,Recuperado,2020-12-21 00:00:00,,2020-12-23 00:00:00,Tiempo,2021-01-04 00:00:00,6.0,


In [3]:
# Copia de la base de datos para recuperar
data_prueba = data

### 2. Tamaño

In [4]:
data_prueba.shape

(102423, 23)

Se observar que la base de datos cuenta con 102423 filas que corresponden a cada uno de los pacientes atendidos y registrados por el Instituto nacional de salud. Además, cuenta con 23 variables que corresponden a características de estos pacientes. A continuación se hace una breve descripción de estas características.

### 3. Contextualización de las variables

* **fecha reporte web :** Fecha de publicación en sitio web.
* **ID de caso :** Identificador del caso.
* **Fecha de notificación :** Fecha de notificación a SIVIGILA.
* **Código DIVIPOLA departamento :** Código estándar del departamento.
* **Nombre departamento :** Nombre del departamento.
* **Código DIVIPOLA municipio :** Código estántar del municipio.
* **Nombre municipio :** Nombre del municipio.
* **Edad :** Edad que tenían las personas al momento de tomarle los datos.
* **Unidad de medida de edad :** 1- Años, 2-Meses, 3-Días.
* **Sexo **
* **Tipo de contagio :** Relacionado importado en estudio comunitario.
* **Ubicación del caso :** -Corresponde a muertes no relacionadas con COVID-19, aún si eran casos activos -Hay pacientes recuperados para COVID-19, que pueden permanecer en hospitalización por otras comorbilidades.
* **Estado :** -Corresponde a muertes no relacionadas con COVID-19, aún si eran casos activos -Hay pacientes recuperados para COVID-19, que pueden permanecer en hospitalización por otras comorbilidades.
* **Código ISO del país :**
* **Nombre del país **
* **Recuperado :** Recuperado Fallecido N/A (Vacío). N/A se refiere a los fallecidos no COVID. Pueden haber casos recuperados con ubicación Hospital u Hospital UCI, ya que permanecen en hospitalización por causas diferentes. Los casos con información en blanco en esta columna corrsponde a los casos activos.
* **Fecha de inicio de síntomas :** Fecha de inicio de síntomas.
* **Fecha de muerte :**
* **Fecha de diagnóstico :** Fecha de confirmación po laboratorio.
* **Fecha de recuperación **
* **Tipo de recuperación :** Se refiere a la variable de tipo de recuperación que tiene dos opciones: PCR y tiempo. PCR indica que la persona se encuentra recuperada por segunda muestra, en donde dio negativo para el virus; mientras qye tiempo significa que son personas que cumplieron 30 días posteriores al inicio de síntomas o toma de muestras que no tienen síntomas, que no tengan más de 70 años ni que estén hospitalizados.
* **Pertenencia étnica :** 1-Indígena 2-ROM 3-Raizal 4-Palenquero 5-Negro 6-Otro. Esta variable se actualizará cada semana. ADVERTENCIA DE RESPONSABILIDAD: La variable etnia depende totalmente de tres cosas: - El correcto diligenciamiento de la variable Etnia por los profesionales de salud que notifican en más de 10.000 instituciones de salud en todos los municipios y departamentos. - Del autorreconocimiento de la persona cuando se le pregunta por esta variable. - Del listado censal que haga y mantenga actualizado cada departamento. No depende del Instituto Nacional de Salud, y por lo tanto, es responsabilidad de las autoridades de cada municipio, departamento y distrito de Colombia; la calidad y consistencia de dicha variable
* **Nombre del grupo étnico :** La variable etnia depende totalmente de tres cosas: - El correcto diligenciamiento de la variable Etnia por los profesionales de salud que notifican en más de 10.000 instituciones de salud en todos los municipios y departamentos. - Del autorreconocimiento de la persona cuando se le pregunta por esta variable. - Del listado censal que haga y mantenga actualizado cada departamento. No depende del Instituto Nacional de Salud, y por lo tanto, es responsabilidad de las autoridades de cada municipio, departamento y distrito de Colombia; la calidad y consistencia de dicha variable


### 4. Transformación de los datos

In [5]:
# Descripción estadística de los datos
data_prueba.describe()

Unnamed: 0,ID de caso,Código DIVIPOLA departamento,Código DIVIPOLA municipio,Edad,Unidad de medida de edad,Código ISO del país,Pertenencia étnica
count,102423.0,102423.0,102423.0,102422.0,102422.0,71.0,102422.0
mean,907538.3,1211.06561,29663.385441,40.007362,1.003896,556.197183,5.870087
std,547635.1,5535.987373,26425.848463,18.013055,0.068133,289.022373,0.684792
min,13274.0,5.0,5001.0,1.0,1.0,51.0,1.0
25%,431023.5,11.0,11001.0,27.0,1.0,222.0,6.0
50%,877400.0,18.0,13001.0,37.0,1.0,604.0,6.0
75%,1378568.0,68.0,52356.0,52.0,1.0,840.0,6.0
max,4908199.0,47001.0,99773.0,107.0,3.0,840.0,6.0


Se observa que algunas de las variables son tomadas como numéricas continuas, cuando en realidad son categóricas e incluso corresponden a identificaciones, por lo que se procederá a realizar los respectivos cambios para analizar las estadísticas descriptivas de manera apropiada.

#### **Tipos de datos en la base**

In [6]:
# Mostrando el tipo de datos presnetes en la base de datos
data_prueba.dtypes

fecha reporte web                object
ID de caso                        int64
Fecha de notificación            object
Código DIVIPOLA departamento      int64
Nombre departamento              object
Código DIVIPOLA municipio         int64
Nombre municipio                 object
Edad                            float64
Unidad de medida de edad        float64
Sexo                             object
Tipo de contagio                 object
Ubicación del caso               object
Estado                           object
Código ISO del país             float64
Nombre del país                  object
Recuperado                       object
Fecha de inicio de síntomas      object
Fecha de muerte                  object
Fecha de diagnóstico             object
Tipo de recuperación             object
Fecha de recuperación            object
Pertenencia étnica              float64
Nombre del grupo étnico          object
dtype: object

#### **Transformaciones**

In [7]:
# Convirtiendo las fechas en formato date
date_actual = pd.Timestamp.now()
data_prueba['Fecha de diagnóstico'] = pd.to_datetime(data_prueba['Fecha de diagnóstico'])
data_prueba['Fecha de recuperación'] = pd.to_datetime(data_prueba['Fecha de recuperación'])
data_prueba['Fecha de muerte'] = pd.to_datetime(data_prueba['Fecha de muerte'])

In [8]:
# Transformando la variable Recuperado
data_prueba['Recuperado'] = np.where(data_prueba['Recuperado'].isna(), 'Activo', data_prueba['Recuperado'])
data_prueba['Recuperado'] = np.where(data_prueba['Recuperado'] == 'fallecido', 'Fallecido', data_prueba['Recuperado'])

In [9]:
# Convirtiendo las variables categóricas
data_prueba['Código DIVIPOLA departamento'] = data_prueba['Código DIVIPOLA departamento'].astype('category')
data_prueba['Nombre departamento'] =data_prueba['Nombre departamento'].astype('category')
data_prueba['Nombre municipio'] = data_prueba['Nombre municipio'].astype('category')
data_prueba['Recuperado'] = data_prueba['Recuperado'].astype('category')
data_prueba['Sexo'] = data_prueba['Sexo'].astype('category')
data_prueba['Tipo de recuperación'] = data_prueba['Tipo de recuperación'].astype('category')
data_prueba['Pertenencia étnica'] = data_prueba['Pertenencia étnica'].astype('category')
data_prueba['Tipo de contagio'] = data_prueba['Tipo de contagio'].astype('category')
data_prueba['Ubicación del caso'] = data_prueba['Ubicación del caso'].astype('category')
data_prueba['Estado'] = data_prueba['Estado'].astype('category')
data_prueba['Nombre del grupo étnico'] = data_prueba['Nombre del grupo étnico'].astype('category')

In [10]:
# Comprobando que se volvieron variables categóricas
data_prueba.dtypes

fecha reporte web                       object
ID de caso                               int64
Fecha de notificación                   object
Código DIVIPOLA departamento          category
Nombre departamento                   category
Código DIVIPOLA municipio                int64
Nombre municipio                      category
Edad                                   float64
Unidad de medida de edad               float64
Sexo                                  category
Tipo de contagio                      category
Ubicación del caso                    category
Estado                                category
Código ISO del país                    float64
Nombre del país                         object
Recuperado                            category
Fecha de inicio de síntomas             object
Fecha de muerte                 datetime64[ns]
Fecha de diagnóstico            datetime64[ns]
Tipo de recuperación                  category
Fecha de recuperación           datetime64[ns]
Pertenencia é

#### **Creación de la variable Dias_de_recuperación**

In [11]:
# Creando la variable Dias a recuperar
data_prueba['Dias_a_recuperar'] = np.where(data_prueba['Recuperado'] == 'Recuperado', (data_prueba['Fecha de recuperación'] - data_prueba['Fecha de diagnóstico']).dt.days,
                                          np.where(data_prueba['Recuperado'] == 'Activo', (date_actual - data_prueba['Fecha de diagnóstico']).dt.days,
                                                    np.where(data_prueba['Recuperado'] == 'Fallecido', (data_prueba['Fecha de muerte'] - data_prueba['Fecha de diagnóstico']).dt.days, 0)))



### 5. Análisis Estadístico

#### **Variables Numéricas**

In [12]:
data_prueba[['Edad', 'Dias_a_recuperar']].describe()

Unnamed: 0,Edad,Dias_a_recuperar
count,102422.0,102294.0
mean,40.007362,26.982247
std,18.013055,95.703608
min,1.0,-99.0
25%,27.0,8.0
50%,37.0,13.0
75%,52.0,18.0
max,107.0,1470.0


Teniendo en cuenta la información de la tabla se observa que:

* En la variable Edad no se tiene datos faltantes, sin embargo en la variable días a recuperar si, ya que su cuenta es de 147786 y el total de registros en la tabla es de 147938, por lo tanto esta variable tiene 152 datos faltantes.

* Dentro de los registros la media de edad de los pacientes está en 39 años y los días de recuperación en 27 días, aproximadamente un mes.

* El hecho de que la variable dias a recuperar contenga valores negativos puede ser indicio de que los datos fueron mal digitados, o algún paciente fue diagnosticado con la enfermedad después de haber fallecido.

#### **Variables Categóricas**

In [13]:
data_prueba.describe(include='category')

Unnamed: 0,Código DIVIPOLA departamento,Nombre departamento,Nombre municipio,Sexo,Tipo de contagio,Ubicación del caso,Estado,Recuperado,Tipo de recuperación,Pertenencia étnica,Nombre del grupo étnico
count,102423,102423,102423,102422,102422,101850,101850,102423,99091,102422.0,1800
unique,36,36,897,2,3,3,3,3,2,5.0,49
top,11,BOGOTA,BOGOTA,F,Comunitaria,Casa,Leve,Recuperado,Tiempo,6.0,Por definir
freq,28092,28092,28092,51613,78208,98973,98973,99091,77531,96431.0,749


Teniendo en cuenta la tabla anterior, se puede observar que:

* Existen 36 diferentes departamentos que han tenido casos registrados por el Instituto Nacional de Salud. Aunque en Colombia solo existen 32 departamentos, los otros 4 pueden ser las ciudades grandes como Bogotá que, en este caso, es el más repetido.

* Dentro de la base se encuentran más mujeres que hombres, sin embargo l aproporción es casi la misma ya que hay aproximadamente un 50.1% de mujeres.

* La mayoría de casos tuvieron un tipo de contagio comunitario, además, su estado es leve y lograron recuperarse.

* El tipo de recuperación más común fue el tiempo.

* La mayoría de pacientes registrados no tienen definida su pertenencia étnica, además dentro de los registros no se encuentra ningún paciente que pertenezca a la etnia Palenquera, que en este caso es la codificada con el valor 4.

## Base de datos para el modelo

### **Eliminación de las variables**

A continuación se procede a eliminar las variables que se consideran innecesarias dentro de los datos ya que no aportan información o muestran información que ya se tiene dentro de otras variables.

In [14]:
data_prueba_final = data_prueba.drop(['fecha reporte web',
                                      'ID de caso',
                                      'Fecha de notificación',
                                      'Código DIVIPOLA departamento',
                                      'Código DIVIPOLA municipio',
                                      'Nombre municipio',
                                      'Unidad de medida de edad',
                                      'Código ISO del país',
                                      'Nombre del país',
                                      'Fecha de muerte',
                                      'Fecha de recuperación',
                                      'Fecha de diagnóstico',
                                      'Nombre del grupo étnico',
                                      'Fecha de inicio de síntomas'], axis = 1)
data_prueba_final.head()

Unnamed: 0,Nombre departamento,Edad,Sexo,Tipo de contagio,Ubicación del caso,Estado,Recuperado,Tipo de recuperación,Pertenencia étnica,Dias_a_recuperar
0,VALLE,67.0,F,Comunitaria,Casa,Leve,Recuperado,Tiempo,6.0,12.0
1,VALLE,66.0,F,Comunitaria,Casa,Leve,Recuperado,Tiempo,6.0,2.0
2,VALLE,68.0,F,Comunitaria,Casa,Leve,Recuperado,Tiempo,6.0,10.0
3,VALLE,74.0,F,Comunitaria,Fallecido,Fallecido,Fallecido,,6.0,7.0
4,VALLE,65.0,F,Comunitaria,Casa,Leve,Recuperado,Tiempo,6.0,12.0


In [15]:
data_prueba_final.columns

Index(['Nombre departamento', 'Edad', 'Sexo', 'Tipo de contagio',
       'Ubicación del caso', 'Estado', 'Recuperado', 'Tipo de recuperación',
       'Pertenencia étnica', 'Dias_a_recuperar'],
      dtype='object')

### **Renombrando las variables**

In [16]:
# Change the name of variables
data_prueba_final = data_prueba_final.rename(columns={'Nombre departamento': 'Departamento',
                                                       'Edad': 'Edad',
                                                       'Sexo': 'Sexo',
                                                       'Tipo de contagio': 'Tipo_de_contagio',
                                                       'Ubicación del caso': 'Ubicacion_del_caso',
                                                       'Estado': 'Estado',
                                                       'Recuperado': 'Recuperado',
                                                       'Fecha de inicio de síntomas': 'Fecha_inicio_sintomas',
                                                       'Tipo de recuperación' : 'Tipo_de_recuperacion',
                                                       'Pertenencia étnica': 'Etnia',
                                                       'Dias_a_recuperar': 'Dias_de_recuperacion'})
data_prueba_final.head()

Unnamed: 0,Departamento,Edad,Sexo,Tipo_de_contagio,Ubicacion_del_caso,Estado,Recuperado,Tipo_de_recuperacion,Etnia,Dias_de_recuperacion
0,VALLE,67.0,F,Comunitaria,Casa,Leve,Recuperado,Tiempo,6.0,12.0
1,VALLE,66.0,F,Comunitaria,Casa,Leve,Recuperado,Tiempo,6.0,2.0
2,VALLE,68.0,F,Comunitaria,Casa,Leve,Recuperado,Tiempo,6.0,10.0
3,VALLE,74.0,F,Comunitaria,Fallecido,Fallecido,Fallecido,,6.0,7.0
4,VALLE,65.0,F,Comunitaria,Casa,Leve,Recuperado,Tiempo,6.0,12.0


In [17]:
data_prueba_final.shape

(102423, 10)

### **Codificación de variables**

A continuación mediante la técnica One-hot-encoding, la cual busca representar las variables categóricas utilizando vectores binarios de 0 y 1, se crea una variable para cada categoría y se asigna 1 a la característica correspondiente a la categoría presente en cada observación mientras que a las demás características se les asigna 0.

In [18]:
data_prueba_final['Recuperado'] = np.where(data_prueba_final['Recuperado'] == 'Recuperado', 1, 0)
data_prueba_final['Sexo'] = np.where(data_prueba_final['Sexo'] == 'F', 1, 0)
data_prueba_final = pd.get_dummies(data_prueba_final, columns=['Departamento'], dummy_na=True)
data_prueba_final = pd.get_dummies(data_prueba_final, columns=['Tipo_de_contagio'], dummy_na=True)
data_prueba_final = pd.get_dummies(data_prueba_final, columns=['Ubicacion_del_caso'], dummy_na=True)
data_prueba_final = pd.get_dummies(data_prueba_final, columns=['Estado'], dummy_na=True)
data_prueba_final = pd.get_dummies(data_prueba_final, columns=['Tipo_de_recuperacion'], dummy_na=True)
col_departamento = data_prueba_final.columns[data_prueba_final.columns.str.startswith('Departamento')]
data_prueba_final.dropna()
data_prueba_final.head()

Unnamed: 0,Edad,Sexo,Recuperado,Etnia,Dias_de_recuperacion,Departamento_AMAZONAS,Departamento_ANTIOQUIA,Departamento_ARAUCA,Departamento_ATLANTICO,Departamento_BARRANQUILLA,...,Ubicacion_del_caso_Fallecido,Ubicacion_del_caso_casa,Ubicacion_del_caso_nan,Estado_Fallecido,Estado_Leve,Estado_leve,Estado_nan,Tipo_de_recuperacion_PCR,Tipo_de_recuperacion_Tiempo,Tipo_de_recuperacion_nan
0,67.0,1,1,6.0,12.0,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
1,66.0,1,1,6.0,2.0,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
2,68.0,1,1,6.0,10.0,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
3,74.0,1,0,6.0,7.0,False,False,False,False,False,...,True,False,False,True,False,False,False,False,False,True
4,65.0,1,1,6.0,12.0,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False


In [19]:
# Asignación de 0 para False y 1 para True
col_departamento = data_prueba_final.columns[data_prueba_final.columns.str.startswith('Departamento')]
col_tipo = data_prueba_final.columns[data_prueba_final.columns.str.startswith('Tipo')]
col_ubicacion = data_prueba_final.columns[data_prueba_final.columns.str.startswith('Ubicacion')]
col_estado = data_prueba_final.columns[data_prueba_final.columns.str.startswith('Estado')]

data_prueba_final[col_departamento] = np.where(data_prueba_final[col_departamento] == True, 1, 0)
data_prueba_final[col_tipo] = np.where(data_prueba_final[col_tipo] == True, 1, 0)
data_prueba_final[col_ubicacion] = np.where(data_prueba_final[col_ubicacion] == True, 1, 0)
data_prueba_final[col_estado] = np.where(data_prueba_final[col_estado] == True, 1, 0)

data_prueba_final.head()

Unnamed: 0,Edad,Sexo,Recuperado,Etnia,Dias_de_recuperacion,Departamento_AMAZONAS,Departamento_ANTIOQUIA,Departamento_ARAUCA,Departamento_ATLANTICO,Departamento_BARRANQUILLA,...,Ubicacion_del_caso_Fallecido,Ubicacion_del_caso_casa,Ubicacion_del_caso_nan,Estado_Fallecido,Estado_Leve,Estado_leve,Estado_nan,Tipo_de_recuperacion_PCR,Tipo_de_recuperacion_Tiempo,Tipo_de_recuperacion_nan
0,67.0,1,1,6.0,12.0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,1,0
1,66.0,1,1,6.0,2.0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,1,0
2,68.0,1,1,6.0,10.0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,1,0
3,74.0,1,0,6.0,7.0,0,0,0,0,0,...,1,0,0,1,0,0,0,0,0,1
4,65.0,1,1,6.0,12.0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,1,0


## Modelo

### **Datos de Entrenamiento y Prueba**

In [20]:
data_prueba_final = data_prueba_final.astype(np.float32)
data_prueba_final = data_prueba_final.dropna(how='any')
X, y = data_prueba_final.drop('Recuperado', axis=1), data_prueba_final['Recuperado']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print(f'El tamaño de los datos de entrenamiento es: {X_train.shape}')
print(f'El tamaño de los datos de prueba es: {X_test.shape}')
print(f'El tamaño de las etiquetas de entrenamiento es: {y_train.shape}')
print(f'El tamaño de las etiquetas de prueba es: {y_test.shape}')

El tamaño de los datos de entrenamiento es: (81835, 56)
El tamaño de los datos de prueba es: (20459, 56)
El tamaño de las etiquetas de entrenamiento es: (81835,)
El tamaño de las etiquetas de prueba es: (20459,)


### **Creación de etiquetas**

In [21]:
# Creando las etiquetas para entrenamiento y prueba
y_train_categorical = keras.utils.to_categorical(y_train)
y_test_categorical = keras.utils.to_categorical(y_test)

### **Creación del modelo**

Para abordar este problema se creará un MLP, es decir un Perceptrón Multicapa ya que esta red permite observar patrones no lineales entre los datos de entrada y salida. Además, al tener múltiples capas se adapta con facilidad al tipo de problema que se busca resolver.

El modelo está compuesto por:

* **La capa de entrada** con 56 neuronas que corresponde a cada una de las variables dentro de la base de datos.

* **Una capa oculta** con 32 neuronas que están densamente conectadas, lo que significa que cada una de estas neuronas toma las salidas de las 56 neuronas en la capa anterior como entradas, aplica la **función de activación relu** a la suma ponderada de estas entradas, y luego pasa el resultado a todas las neuronas en la capa siguiente.

* **Una capa de salida** con 2 neuronas que tienen **función de activación sigmoid** y que muestran la probabilidad de pertenencia a cada una de las categorías, en este caso la probabilidad de recuperar o fallecer al contraer COVID-19.

In [22]:
model = keras.models.Sequential()

# Añadir una capa de entrada
model.add(layers.Input(shape=(56,)))

# Agregando capas ocultas densamente conectadas
model.add(layers.Dense(32, activation='relu'))
model.add(layers.Dense(2, activation='sigmoid'))

### **Compilación**

En este caso, la **función de pérdida** como la medida que compara los valores reales con los predichos por el modelo durante el entrenamiento será categorical_crossentropy ya que, el problema presentado es de clasificación binaria (Recuperado o Fallecido), además, con el fin de minimizar dicha función se utilizará el **optimizador adam** y para evaluar el rendimiento del modelo durante su entrenamiento se mostrará el **accuracy** o precisión ya que su interpretación es intuitiva y también es fácil de compara en el caso de que sea requerido.



In [23]:
model.compile(optimizer= 'adam',
             loss='categorical_crossentropy',
             metrics = ['accuracy'])

### **Entrenamiento**

Durante este proceso, el MLP se encarga de **ajustar los pesos** de conexión entre las neuronas utilizando el **algoritmo de optimización adam** con el fin de minimizar la función de pérdida mencionada anteriormente.

In [24]:
history = model.fit(X_train, y_train_categorical, epochs=10,
                    batch_size=32,
                    validation_data=(X_test, y_test_categorical))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


### **Evaluación**

In [25]:
loss, accuracy = model.evaluate(X_test, y_test_categorical)



## Conclusiones

### Resumen de los hallazgos
### Implicaciones de los resultados en el campo de estudio
### Sugerencias para investigaciones futuras