**IMT2200 - Introducción a Ciencia de Datos**  
**Pontificia Universidad Católica de Chile**  
**Instituto de Ingeniería Matemática y Computacional**
**2025 - Segundo Semestre**

**Profesor:** Rodrigo A. Carrasco 

---

# 🩺 **Enfermedades respiratorias en urgencias: pre y post COVID-19**

---

###  **Integrantes**
- Santiago Gonzáles  
- Fernanda Le Roy  
- Joab Vivanco  

---

📅 **Fecha de entrega inicial:** 21 de octubre de 2025  


---


## Contexto y motivación

La pandemia de **COVID-19** produjo un cambio radical en los patrones de consulta por enfermedades respiratorias en los servicios de urgencia.  
Antes del 2020, la frecuencia con la que se presentaban virus respiratorios como **influenza**, **virus sincicial** y **adenovirus** determinaba los flujos de pacientes.  

Sin embargo, tras las medidas de confinamiento, el uso de mascarillas y el cambio en conductas sociales, se observaron variaciones en la **incidencia y distribución** de estas patologías.

La motivación de este proyecto es analizar si, efectivamente, la pandemia **alteró la cantidad de atenciones por enfermedades respiratorias en urgencias** y si estas modificaciones se han mantenido en los años posteriores al confinamiento.  

El problema es relevante porque los servicios de urgencia deben **planificar sus recursos humanos y materiales** de acuerdo con la demanda, y comprender estas tendencias puede facilitar la preparación frente a **futuras crisis sanitarias**.

La **audiencia objetivo** de este análisis son principalmente las **autoridades de salud pública** (Ministerio de Salud, Servicios de Salud regionales) y los **equipos de gestión hospitalaria**, quienes requieren información basada en datos para optimizar políticas de prevención, campañas de vacunación y asignación de recursos.


## Objetivos y preguntas de investigación

### Objetivo general

Analizar la **evolución de las consultas por enfermedades respiratorias en servicios de urgencia en Chile**, comparando el periodo previo y posterior a la pandemia de COVID-19, para identificar **tendencias y cambios significativos**.

---

### Objetivos específicos

- Describir la **incidencia de patologías respiratorias** atendidas en urgencias en la última década.  
- Comparar la **distribución temporal** de estas consultas antes y después de la pandemia.  
- Identificar **diferencias en prevalencia** según grupo etario, región y nivel de gravedad.  
- Explorar qué patologías han experimentado **mayores variaciones en frecuencia** tras el COVID-19.  
- Generar evidencia que pueda ser utilizada para la **planificación de servicios de salud**.

---

### Pregunta principal

> **¿Se ha observado un aumento de las enfermedades respiratorias que motivan consultas en urgencias tras la pandemia, en comparación con el periodo previo al COVID-19?**

---

### Preguntas secundarias

1. ¿Cómo influye el **tipo de patología** en la clasificación del nivel de urgencia (leve, moderado, grave)?  
2. ¿Existen **regiones o comunas** con una mayor incidencia de enfermedades respiratorias?  
3. ¿Qué **patologías respiratorias** han sido más prevalentes en la última década y cómo ha cambiado su distribución a lo largo de los años?  
4. ¿Cuál es la **relación entre los rangos etarios** y la prevalencia de enfermedades respiratorias, y qué patologías son más comunes en cada grupo de edad?  

---

📌 En conjunto, estas preguntas abordan las dimensiones **clínica, geográfica, temporal y poblacional** del fenómeno estudiado, aportando una visión integral que permitirá responder la pregunta de investigación principal.


---

🧭 En las siguientes secciones se presentan los datos utilizados, el proceso de limpieza y un análisis exploratorio que busca responder las preguntas planteadas.

## Descripción de los datos

Los datos utilizados provienen de la **Plataforma de Datos Abiertos del Gobierno de Chile**, específicamente del conjunto **“Atenciones de urgencia por causas respiratorias”**  
(https://datos.gob.cl/dataset/atenciones-de-urgencia-causas-respiratorias).

El registro se realiza **semanalmente** e incluye información sobre las atenciones por enfermedades respiratorias en establecimientos de salud de todo el país, principalmente del **sector público**.

Cada fila del dataset representa un **establecimiento en una semana específica**, e incluye tanto variables **administrativas** como **epidemiológicas**.

---

###  Variables principales

- **EstablecimientoCodigo:** Identificador único del establecimiento.  
- **RegionGlosa / ComunaGlosa:** Región y comuna donde se ubica el establecimiento.  
- **Causa:** Tipo de enfermedad respiratoria (ej. influenza, virus sincicial, adenovirus).  
- **Anio / SemanaEstadistica:** Año y semana epidemiológica del registro.  
- **NumTotal:** Número total de consultas por causas respiratorias.  
- **NumMenor1Anio, Num1a4Anios, Num5a14Anios, Num15a64Anios, Num65Mas:** Distribución de consultas por grupo etario.  
- **NivelAtencion / TipoEstablecimiento / NivelComplejidad:** Clasificación administrativa y operativa del centro de salud.

---

 En términos generales, el dataset contiene **múltiples años (2013 en adelante)** y permite analizar la **evolución temporal, distribución geográfica y diferencias por edad o tipo de patología** en las consultas de urgencia respiratoria en Chile.

Antes de realizar el análisis exploratorio, es necesario definir la estrategia de procesamiento que seguiremos con los datos.

###  Estrategia de procesamiento: ELT vs ETL

Existen dos enfoques comunes para trabajar con datos:

- **ETL (Extract → Transform → Load):**  
 
- **ELT (Extract → Load → Transform):**  
 

### En este proyecto utilizaremos ELT

Optamos por **ELT** porque:

- El dataset es **público, estructurado y grande**, con posibles ajustes menores (nulos, formato de texto, nombres).  
- Nos permite **mantener una copia cruda** en la carpeta `/data/raw/` y trabajar las transformaciones directamente en el notebook.  
- Facilita la **reproducibilidad y trazabilidad** del proceso, mostrando cada paso de limpieza dentro del análisis.

---

##  Limpieza y preparación de los datos

In [2]:
# librerías usadas
import pandas as pd
import numpy as np
import matplotlib as plt

In [None]:
# Identificar columnas con valores faltantes (df.isna().sum())

In [None]:
# Eliminar o imputar los NaN según criterio 

In [None]:
# Homogeneizar nombres de regiones y comunas o lo que dijo el Santi tmb que algunas aparecían con mayúscula y otras no

In [None]:
# Guardar el dataset limpiado

## Análisis exploratorio de datos (EDA)

En esta etapa se realizará un análisis de los datos para poder responder las **preguntas de investigación secundarias y la pregunta principal** de nuestro proyecto.

---

### **1. Influencia del tipo de patología en el nivel de urgencia**

**Objetivo:** Analizar cómo el tipo de patología respiratoria se relaciona con la clasificación del nivel de urgencia (leve, moderado, grave).

In [None]:
# cosas que debemos hacer para poder responder esta pregunta
# 1. Seleccionar las columnas relevantes: `Causa` y `TipoUrgencia`.

In [None]:
# Agrupar los datos por tipo de patología y nivel de urgencia.

In [None]:
# contar cuántas atenciones corresponden a cada combinación (leve, moderado, grave)

In [None]:
# Calcular porcentajes o proporciones dentro de cada patología

In [None]:
# Visualizar los resultados en un gráfico de barras o dispersión.

In [None]:
# con esto interpretamos los datos y respondemos la primera pregunta secundaria

### **2. Incidencia geográfica de enfermedades respiratorias**

**Objetivo:** Identificar si existen regiones o comunas con una mayor incidencia de enfermedades respiratorias.


In [4]:
# cosas que debemos hacer para poder resolver esta pregunta
# Seleccionar las columnas `RegionGlosa`, `ComunaGlosa`, `NumTotal`.  
# Agrupar los datos por región y calculamos el total de consultas respiratorias por año.  
# Calcular la tasa de incidencia relativa leí q es algo q se hace con respecto a poblaciones o cosas así.  
# Generar un mapa o gráfico de con la distribución regional (de esos que le gustan al profe los geo no se qué)
# con esto interpretamos los datos y respondemos la segunda pregunta secundaria  

###  **3. Evolución temporal de las patologías respiratorias**

**Objetivo:** Analizar cómo han cambiado las patologías respiratorias a lo largo del tiempo, especialmente antes y después del COVID-19.

In [None]:
# cosas que debemos hacer para poder resolver esta pregunta
# Seleccionar las columnas `Anio`, `SemanaEstadistica`, `Causa`, `NumTotal`.  
# Calculamos el número total de consultas por año y por tipo de patología.  
# Generar una nueva columna “Periodo” (Pre-COVID / Post-COVID).  
# Graficamos las tendencias temporales antes y después del 2020 
#  Comparamos los valores entre ambos periodos, aqui podemos usar cosas de estadisticas, media, moda mediana, desviacion estandar, etc para comparar 
# con esto interpretamos los datos y respondemos la tercera pregunta secundaria  

### **4. Relación entre grupos etarios y prevalencia**

**Objetivo:** Explorar qué patologías afectan con mayor frecuencia a cada grupo etario.


In [6]:
# cosas que debemos hacer para poder resolver esta pregunta
# Seleccionar las columnas con distribución por edad:  `NumMenor1Anio`, `Num1a4Anios`, `Num5a14Anios`, `Num15a64Anios`, `Num65Mas`.  
# Sumar los valores por año o por tipo de patología (es una idea ahi el q haga esta pregunta decide bien) 
# Visualizar la distribución por grupo etario y tipo de causa (gráfico de barras o apilado el profe es más fan del apilado).  
# con esto interpretamos los datos y respondemos la cuarta pregunta secundaria  

## **5. Integración de resultados y pregunta principal**

**Objetivo:** Responder a la pregunta central del proyecto:  
> **¿Se ha observado un aumento de las enfermedades respiratorias que motivan consultas en urgencias tras la pandemia, en comparación con el periodo previo al COVID-19?**

In [7]:
# aquí me cuesta pensar como podríamos integrar lo que obtengamos de cada pregunta
# asi que ayudenme 