**IMT2200 - Introducción a Ciencia de Datos**  
**Pontificia Universidad Católica de Chile**  
**Instituto de Ingeniería Matemática y Computacional**
**2025 - Segundo Semestre**

**Profesor:** Rodrigo A. Carrasco 

---

# 🩺 **Enfermedades respiratorias en urgencias: pre y post COVID-19**

---

###  **Integrantes**
- Santiago González  
- Fernanda Le Roy  
- Joab Vivanco  

---

📅 **Fecha de entrega inicial:** 21 de octubre de 2025  


---


## Contexto y motivación

La pandemia de **COVID-19** produjo un cambio radical en los patrones de consulta por enfermedades respiratorias en los servicios de urgencia.  
Antes del 2020, la frecuencia con la que se presentaban virus respiratorios como **influenza**, **virus sincicial** y **adenovirus** determinaba los flujos de pacientes.  

Sin embargo, tras las medidas de confinamiento, el uso de mascarillas y el cambio en conductas sociales, se observaron variaciones en la **incidencia y distribución** de estas patologías.

La motivación de este proyecto es analizar si, efectivamente, la pandemia **alteró la cantidad de atenciones por enfermedades respiratorias en urgencias** y si estas modificaciones se han mantenido en los años posteriores al confinamiento.  

El problema es relevante porque los servicios de urgencia deben **planificar sus recursos humanos y materiales** de acuerdo con la demanda, y comprender estas tendencias puede facilitar la preparación frente a **futuras crisis sanitarias**.

La **audiencia objetivo** de este análisis son principalmente las **autoridades de salud pública** (Ministerio de Salud, Servicios de Salud regionales) y los **equipos de gestión hospitalaria**, quienes requieren información basada en datos para optimizar políticas de prevención, campañas de vacunación y asignación de recursos.


## Objetivos y preguntas de investigación

### Objetivo general

Analizar la **evolución de las consultas por enfermedades respiratorias en servicios de urgencia en Chile**, comparando el periodo previo y posterior a la pandemia de COVID-19, para identificar **tendencias y cambios significativos**.

---

### Objetivos específicos

- Describir la **incidencia de patologías respiratorias** atendidas en urgencias en la última década.  
- Comparar la **distribución temporal** de estas consultas antes y después de la pandemia.  
- Identificar **diferencias en prevalencia** según grupo etario, región y nivel de gravedad.  
- Explorar qué patologías han experimentado **mayores variaciones en frecuencia** tras el COVID-19.  
- Generar evidencia que pueda ser utilizada para la **planificación de servicios de salud**.

---

### Pregunta principal

> **¿Se ha observado un aumento de las enfermedades respiratorias que motivan consultas en urgencias tras la pandemia, en comparación con el periodo previo al COVID-19?**

---

### Preguntas secundarias

1. ¿Cómo influye el **tipo de patología** en la clasificación del nivel de urgencia (leve, moderado, grave)?  
2. ¿Existen **regiones o comunas** con una mayor incidencia de enfermedades respiratorias?  
3. ¿Qué **patologías respiratorias** han sido más prevalentes en la última década y cómo ha cambiado su distribución a lo largo de los años?  
4. ¿Cuál es la **relación entre los rangos etarios** y la prevalencia de enfermedades respiratorias, y qué patologías son más comunes en cada grupo de edad?  

---

📌 En conjunto, estas preguntas abordan las dimensiones **clínica, geográfica, temporal y poblacional** del fenómeno estudiado, aportando una visión integral que permitirá responder la pregunta de investigación principal.


---

🧭 En las siguientes secciones se presentan los datos utilizados, el proceso de limpieza y un análisis exploratorio que busca responder las preguntas planteadas.

## Descripción de los datos

Los datos utilizados provienen de la **Plataforma de Datos Abiertos del Gobierno de Chile**, específicamente del conjunto **“Atenciones de urgencia por causas respiratorias”**  
(https://datos.gob.cl/dataset/atenciones-de-urgencia-causas-respiratorias).

El registro se realiza **semanalmente** e incluye información sobre las atenciones por enfermedades respiratorias en establecimientos de salud de todo el país, principalmente del **sector público**.

Cada fila del dataset representa un **establecimiento en una semana específica**, e incluye tanto variables **administrativas** como **epidemiológicas**.

---

###  Variables principales

- **EstablecimientoCodigo:** Identificador único del establecimiento.  
- **RegionGlosa / ComunaGlosa:** Región y comuna donde se ubica el establecimiento.  
- **Causa:** Tipo de enfermedad respiratoria (ej. influenza, virus sincicial, adenovirus).  
- **Anio / SemanaEstadistica:** Año y semana epidemiológica del registro.  
- **NumTotal:** Número total de consultas por causas respiratorias.  
- **NumMenor1Anio, Num1a4Anios, Num5a14Anios, Num15a64Anios, Num65Mas:** Distribución de consultas por grupo etario.  
- **NivelAtencion / TipoEstablecimiento / NivelComplejidad:** Clasificación administrativa y operativa del centro de salud.

---

 En términos generales, el dataset contiene **múltiples años (2013 en adelante)** y permite analizar la **evolución temporal, distribución geográfica y diferencias por edad o tipo de patología** en las consultas de urgencia respiratoria en Chile.

Antes de realizar el análisis exploratorio, es necesario definir la estrategia de procesamiento que seguiremos con los datos.

###  Estrategia de procesamiento: ELT vs ETL

Existen dos enfoques comunes para trabajar con datos:

- **ETL (Extract → Transform → Load):**  
 
- **ELT (Extract → Load → Transform):**  
 

### En este proyecto utilizaremos ELT

Optamos por **ELT** porque:

- El dataset es **público, estructurado y grande**, con posibles ajustes menores (nulos, formato de texto, nombres).  
- Nos permite **mantener una copia cruda** en la carpeta `/data/raw/` y trabajar las transformaciones directamente en el notebook.  
- Facilita la **reproducibilidad y trazabilidad** del proceso, mostrando cada paso de limpieza dentro del análisis.

---

##  Limpieza y preparación de los datos

In [1]:
# librerías usadas
import pandas as pd
import numpy as np
import matplotlib as plt
import pyarrow.parquet as pq

In [2]:
data = pq.read_table("../data/atenciones_respiratorias.parquet")

data = data.to_pandas()
data

Unnamed: 0,EstablecimientoCodigo,EstablecimientoGlosa,RegionCodigo,RegionGlosa,ComunaCodigo,ComunaGlosa,ServicioSaludCodigo,ServicioSaludGlosa,TipoEstablecimiento,DependenciaAdministrativa,...,Anio,SemanaEstadistica,OrdenCausa,Causa,NumTotal,NumMenor1Anio,Num1a4Anios,Num5a14Anios,Num15a64Anios,Num65oMas
0,105805,SAR Tierras Blancas,4,Región De Coquimbo,4102,Coquimbo,5,Servicio de Salud Coquimbo,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2015,29,4,IRA Alta (J00-J06),216,13,24,43,109,27
1,116101,Hospital de Teno,7,Región Del Maule,7308,Teno,16,Servicio de Salud Del Maule,Hospital,Servicio de Salud,...,2016,30,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,3,0,0,0,2,1
2,200759,SUR Morza,7,Región Del Maule,7308,Teno,16,Servicio de Salud Del Maule,Servicio de Urgencia Rural (SUR),Municipal,...,2024,3,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,0,0,0,0,0,0
3,109805,SAR La Pincoya,13,Región Metropolitana de Santiago,13107,Huechuraba,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2025,36,4,IRA Alta (J00-J06),180,4,30,38,99,9
4,109809,SAR Conchalí,13,Región Metropolitana de Santiago,13104,Conchalí,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2020,24,8,Crisis obstructiva bronquial (J40-J46),0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3267875,122100,Hospital Clínico Regional (Valdivia),14,Región De Los Ríos,14101,Valdivia,22,Servicio de Salud Los Rios,Hospital,Servicio de Salud,...,2014,14,8,Crisis obstructiva bronquial (J40-J46),81,8,23,9,25,16
3267876,200753,SUR Cariquima,1,Región De Tarapacá,1403,Colchane,2,Servicio de Salud Tarapacá,Servicio de Urgencia Rural (SUR),Municipal,...,2024,9,34,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",0,0,0,0,0,0
3267877,109802,SAPU Lucas Sierra,13,Región Metropolitana de Santiago,13104,Conchalí,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia (SAPU),Municipal,...,2022,39,5,Influenza (J09-J11),6,0,0,3,3,0
3267878,124810,SAR Puerto Varas,10,Región De Los Lagos,10109,Puerto Varas,24,Servicio de Salud Del Reloncaví,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2022,50,7,Bronquitis/bronquiolitis aguda (J20-J21),61,6,16,16,15,8


In [3]:
# Identificar columnas con valores faltantes (df.isna().sum())
data.isnull().sum()

EstablecimientoCodigo        17714
EstablecimientoGlosa         17714
RegionCodigo                 17714
RegionGlosa                  17714
ComunaCodigo                 17714
ComunaGlosa                  17714
ServicioSaludCodigo          17714
ServicioSaludGlosa           17714
TipoEstablecimiento          17714
DependenciaAdministrativa    17714
NivelAtencion                17714
TipoUrgencia                 17714
Latitud                      17714
Longitud                     17714
NivelComplejidad             17714
Anio                             0
SemanaEstadistica                0
OrdenCausa                       0
Causa                            0
NumTotal                         0
NumMenor1Anio                    0
Num1a4Anios                      0
Num5a14Anios                     0
Num15a64Anios                    0
Num65oMas                        0
dtype: int64

In [4]:
# Eliminar o imputar los NaN según criterio 
data_limpio = data.dropna()
data_limpio

Unnamed: 0,EstablecimientoCodigo,EstablecimientoGlosa,RegionCodigo,RegionGlosa,ComunaCodigo,ComunaGlosa,ServicioSaludCodigo,ServicioSaludGlosa,TipoEstablecimiento,DependenciaAdministrativa,...,Anio,SemanaEstadistica,OrdenCausa,Causa,NumTotal,NumMenor1Anio,Num1a4Anios,Num5a14Anios,Num15a64Anios,Num65oMas
0,105805,SAR Tierras Blancas,4,Región De Coquimbo,4102,Coquimbo,5,Servicio de Salud Coquimbo,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2015,29,4,IRA Alta (J00-J06),216,13,24,43,109,27
1,116101,Hospital de Teno,7,Región Del Maule,7308,Teno,16,Servicio de Salud Del Maule,Hospital,Servicio de Salud,...,2016,30,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,3,0,0,0,2,1
2,200759,SUR Morza,7,Región Del Maule,7308,Teno,16,Servicio de Salud Del Maule,Servicio de Urgencia Rural (SUR),Municipal,...,2024,3,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,0,0,0,0,0,0
3,109805,SAR La Pincoya,13,Región Metropolitana de Santiago,13107,Huechuraba,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2025,36,4,IRA Alta (J00-J06),180,4,30,38,99,9
4,109809,SAR Conchalí,13,Región Metropolitana de Santiago,13104,Conchalí,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2020,24,8,Crisis obstructiva bronquial (J40-J46),0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3267875,122100,Hospital Clínico Regional (Valdivia),14,Región De Los Ríos,14101,Valdivia,22,Servicio de Salud Los Rios,Hospital,Servicio de Salud,...,2014,14,8,Crisis obstructiva bronquial (J40-J46),81,8,23,9,25,16
3267876,200753,SUR Cariquima,1,Región De Tarapacá,1403,Colchane,2,Servicio de Salud Tarapacá,Servicio de Urgencia Rural (SUR),Municipal,...,2024,9,34,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",0,0,0,0,0,0
3267877,109802,SAPU Lucas Sierra,13,Región Metropolitana de Santiago,13104,Conchalí,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia (SAPU),Municipal,...,2022,39,5,Influenza (J09-J11),6,0,0,3,3,0
3267878,124810,SAR Puerto Varas,10,Región De Los Lagos,10109,Puerto Varas,24,Servicio de Salud Del Reloncaví,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2022,50,7,Bronquitis/bronquiolitis aguda (J20-J21),61,6,16,16,15,8


In [5]:
# Homogeneizar nombres de regiones y comunas o lo que dijo el Santi tmb que algunas aparecían con mayúscula y otras no
data_causas = data_limpio.drop_duplicates(subset= ["Causa"])
lista_causas = data_causas["Causa"].tolist()
print(lista_causas)

['IRA Alta (J00-J06)', 'HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO', 'Crisis obstructiva bronquial (J40-J46)', 'Otra causa respiratoria (J22, J30-J39, J47, J60-J98)', 'Neumonía (J12-J18)', 'Covid-19, Virus no identificado U07.2', 'Bronquitis/bronquiolitis aguda (J20-J21)', 'HOSPITALIZACIONES COVID-19, VIRUS NO IDENTIFICADO U07.2', 'TOTAL CAUSAS SISTEMA RESPIRATORIO', 'HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO U07.1', 'Influenza (J09-J11)', 'Covid-19, Virus identificado U07.1']


In [6]:
data_causa0 = data_limpio[data_limpio["Causa"]==lista_causas[0]]#"IRA Alta (j00-j06)"
data_causa1 = data_limpio[data_limpio["Causa"]==lista_causas[1]] #muy general "Hospitalizaciones por causas sistema respiratorio"
data_causa2 = data_limpio[data_limpio["Causa"]==lista_causas[2]]#"Crisis obstructuva bronquial (j40-j46)"
data_causa3 = data_limpio[data_limpio["Causa"]==lista_causas[3]]#"Otra causa respiratoria (j22,j30-j39,j47,j60-j98)"
data_causas4 =  data_limpio[data_limpio["Causa"]==lista_causas[4]]#"Neumonia (j12-j18)"
data_casuas5 =  data_limpio[data_limpio["Causa"]==lista_causas[5]]#"Covid-19, Virus no identificado U07.2"
data_causas6 =  data_limpio[data_limpio["Causa"]==lista_causas[6]]#"Bronquitis/bronquiolitis aguda (j20-j21)"
data_causas7 =  data_limpio[data_limpio["Causa"]==lista_causas[7]]#"HOSPITALIZACIONES COVID-19, VIRUS NO IDENTIFICADO U07.2"
total_causas =  data_limpio[data_limpio["Causa"]==lista_causas[8]]#"TOTAL CAUSAS SISTEMA RESPIRATORIO"
data_causas9 =  data_limpio[data_limpio["Causa"]==lista_causas[9]]#"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO U07.1"
data_causas10 =  data_limpio[data_limpio["Causa"]==lista_causas[10]]#"Influenza (j09-j11)"
data_causas11 =  data_limpio[data_limpio["Causa"]==lista_causas[11]]#"Covid-19, virus identificado U07.1"

In [7]:
data_listo = data_limpio[data_limpio["Causa"] != lista_causas[8]]
data_listo["Causa"]

0                                         IRA Alta (J00-J06)
1          HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO
2          HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO
3                                         IRA Alta (J00-J06)
4                     Crisis obstructiva bronquial (J40-J46)
                                 ...                        
3267875               Crisis obstructiva bronquial (J40-J46)
3267876    HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...
3267877                                  Influenza (J09-J11)
3267878             Bronquitis/bronquiolitis aguda (J20-J21)
3267879             Bronquitis/bronquiolitis aguda (J20-J21)
Name: Causa, Length: 2932824, dtype: object

In [8]:
data_limpio["Causa"]

0                                         IRA Alta (J00-J06)
1          HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO
2          HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO
3                                         IRA Alta (J00-J06)
4                     Crisis obstructiva bronquial (J40-J46)
                                 ...                        
3267875               Crisis obstructiva bronquial (J40-J46)
3267876    HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...
3267877                                  Influenza (J09-J11)
3267878             Bronquitis/bronquiolitis aguda (J20-J21)
3267879             Bronquitis/bronquiolitis aguda (J20-J21)
Name: Causa, Length: 3250166, dtype: object

In [9]:
df_hospitalizaciones = pd.concat([data_causa1,data_causas7,data_causas9])
df_hospitalizaciones

Unnamed: 0,EstablecimientoCodigo,EstablecimientoGlosa,RegionCodigo,RegionGlosa,ComunaCodigo,ComunaGlosa,ServicioSaludCodigo,ServicioSaludGlosa,TipoEstablecimiento,DependenciaAdministrativa,...,Anio,SemanaEstadistica,OrdenCausa,Causa,NumTotal,NumMenor1Anio,Num1a4Anios,Num5a14Anios,Num15a64Anios,Num65oMas
1,116101,Hospital de Teno,7,Región Del Maule,7308,Teno,16,Servicio de Salud Del Maule,Hospital,Servicio de Salud,...,2016,30,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,3,0,0,0,2,1
2,200759,SUR Morza,7,Región Del Maule,7308,Teno,16,Servicio de Salud Del Maule,Servicio de Urgencia Rural (SUR),Municipal,...,2024,3,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,0,0,0,0,0,0
9,124380,Centro de Salud Familiar Río Negro Hornopirén,10,Región De Los Lagos,10403,Hualaihué,24,Servicio de Salud Del Reloncaví,Centro de Salud Familiar (CESFAM),Servicio de Salud,...,2015,14,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,0,0,0,0,0,0
21,200745,SUR Isabel Jiménez,8,Región Del Bíobío,8207,Tirúa,28,Servicio de Salud Arauco,Servicio de Urgencia Rural (SUR),Municipal,...,2018,4,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,0,0,0,0,0,0
60,109104,Hospital de Til Til,13,Región Metropolitana de Santiago,13303,Tiltil,9,Servicio de Salud Metropolitano Norte,Hospital,Servicio de Salud,...,2017,44,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3267781,200740,SUR La Higuera,4,Región De Coquimbo,4104,La Higuera,5,Servicio de Salud Coquimbo,Servicio de Urgencia Rural (SUR),Municipal,...,2022,31,34,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",0,0,0,0,0,0
3267796,200734,SUR Dalcahue,10,Región De Los Lagos,10205,Dalcahue,33,Servicio de Salud Chiloé,Servicio de Urgencia Rural (SUR),Municipal,...,2022,7,34,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",0,0,0,0,0,0
3267828,129100,Hospital Dr. Mauricio Heyermann (Angol),9,Región De La Araucanía,9201,Angol,29,Servicio de Salud Araucanía Norte,Hospital,Servicio de Salud,...,2025,40,34,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",0,0,0,0,0,0
3267871,200150,SAR Víctor Manuel Fernández,8,Región Del Bíobío,8101,Concepción,18,Servicio de Salud Concepción,Servicio de Atención Primaria de Urgencia de A...,Servicio de Salud,...,2020,8,34,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",0,0,0,0,0,0


In [10]:
df_contagios = pd.concat([data_causa0,data_causa2,data_causa3,data_causas4,data_casuas5,data_causas6,data_causas10,data_causas11])
df_contagios

Unnamed: 0,EstablecimientoCodigo,EstablecimientoGlosa,RegionCodigo,RegionGlosa,ComunaCodigo,ComunaGlosa,ServicioSaludCodigo,ServicioSaludGlosa,TipoEstablecimiento,DependenciaAdministrativa,...,Anio,SemanaEstadistica,OrdenCausa,Causa,NumTotal,NumMenor1Anio,Num1a4Anios,Num5a14Anios,Num15a64Anios,Num65oMas
0,105805,SAR Tierras Blancas,4,Región De Coquimbo,4102,Coquimbo,5,Servicio de Salud Coquimbo,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2015,29,4,IRA Alta (J00-J06),216,13,24,43,109,27
3,109805,SAR La Pincoya,13,Región Metropolitana de Santiago,13107,Huechuraba,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2025,36,4,IRA Alta (J00-J06),180,4,30,38,99,9
8,109824,SAPU Presidente Salvador Allende Gossens,13,Región Metropolitana de Santiago,13125,Quilicura,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia (SAPU),Municipal,...,2020,28,4,IRA Alta (J00-J06),19,1,4,1,13,0
12,115114,Hospital de Litueche,6,Región Del Libertador Gral. B. O'Higgins,6203,Litueche,15,Servicio de Salud Del Libertador B.O'Higgins,Hospital,Servicio de Salud,...,2016,10,4,IRA Alta (J00-J06),12,0,2,3,7,0
13,122101,Hospital de Corral,14,Región De Los Ríos,14102,Corral,22,Servicio de Salud Los Rios,Hospital,Servicio de Salud,...,2018,33,4,IRA Alta (J00-J06),30,4,2,7,15,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3267803,124810,SAR Puerto Varas,10,Región De Los Lagos,10109,Puerto Varas,24,Servicio de Salud Del Reloncaví,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2022,25,11,"Covid-19, Virus identificado U07.1",34,0,1,5,28,0
3267827,122802,SAPU Gil de Castro,14,Región De Los Ríos,14101,Valdivia,22,Servicio de Salud Los Rios,Servicio de Atención Primaria de Urgencia (SAPU),Municipal,...,2021,10,11,"Covid-19, Virus identificado U07.1",0,0,0,0,0,0
3267834,200096,SAPU Huara,1,Región De Tarapacá,1404,Huara,2,Servicio de Salud Tarapacá,Servicio de Atención Primaria de Urgencia (SAPU),Municipal,...,2022,45,11,"Covid-19, Virus identificado U07.1",0,0,0,0,0,0
3267835,200776,SAPU Maule,7,Región Del Maule,7105,Maule,16,Servicio de Salud Del Maule,Servicio de Atención Primaria de Urgencia (SAPU),Municipal,...,2021,48,11,"Covid-19, Virus identificado U07.1",3,0,0,0,2,1


In [11]:
# Guardar el dataset limpiado
data_limpio

Unnamed: 0,EstablecimientoCodigo,EstablecimientoGlosa,RegionCodigo,RegionGlosa,ComunaCodigo,ComunaGlosa,ServicioSaludCodigo,ServicioSaludGlosa,TipoEstablecimiento,DependenciaAdministrativa,...,Anio,SemanaEstadistica,OrdenCausa,Causa,NumTotal,NumMenor1Anio,Num1a4Anios,Num5a14Anios,Num15a64Anios,Num65oMas
0,105805,SAR Tierras Blancas,4,Región De Coquimbo,4102,Coquimbo,5,Servicio de Salud Coquimbo,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2015,29,4,IRA Alta (J00-J06),216,13,24,43,109,27
1,116101,Hospital de Teno,7,Región Del Maule,7308,Teno,16,Servicio de Salud Del Maule,Hospital,Servicio de Salud,...,2016,30,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,3,0,0,0,2,1
2,200759,SUR Morza,7,Región Del Maule,7308,Teno,16,Servicio de Salud Del Maule,Servicio de Urgencia Rural (SUR),Municipal,...,2024,3,32,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,0,0,0,0,0,0
3,109805,SAR La Pincoya,13,Región Metropolitana de Santiago,13107,Huechuraba,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2025,36,4,IRA Alta (J00-J06),180,4,30,38,99,9
4,109809,SAR Conchalí,13,Región Metropolitana de Santiago,13104,Conchalí,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2020,24,8,Crisis obstructiva bronquial (J40-J46),0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3267875,122100,Hospital Clínico Regional (Valdivia),14,Región De Los Ríos,14101,Valdivia,22,Servicio de Salud Los Rios,Hospital,Servicio de Salud,...,2014,14,8,Crisis obstructiva bronquial (J40-J46),81,8,23,9,25,16
3267876,200753,SUR Cariquima,1,Región De Tarapacá,1403,Colchane,2,Servicio de Salud Tarapacá,Servicio de Urgencia Rural (SUR),Municipal,...,2024,9,34,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",0,0,0,0,0,0
3267877,109802,SAPU Lucas Sierra,13,Región Metropolitana de Santiago,13104,Conchalí,9,Servicio de Salud Metropolitano Norte,Servicio de Atención Primaria de Urgencia (SAPU),Municipal,...,2022,39,5,Influenza (J09-J11),6,0,0,3,3,0
3267878,124810,SAR Puerto Varas,10,Región De Los Lagos,10109,Puerto Varas,24,Servicio de Salud Del Reloncaví,Servicio de Atención Primaria de Urgencia de A...,Municipal,...,2022,50,7,Bronquitis/bronquiolitis aguda (J20-J21),61,6,16,16,15,8


In [12]:
data_causas7["Anio"].value_counts()#hospitalizacion

Anio
2024    31845
2023    31716
2022    31530
2021    31400
2025    25146
2020    24738
Name: count, dtype: int64

In [13]:
data_casuas5["Anio"].value_counts()#contagio

Anio
2024    31845
2023    31716
2022    31530
2021    31400
2020    26143
2025    25146
2019      570
Name: count, dtype: int64

## Análisis exploratorio de datos (EDA)

En esta etapa se realizará un análisis de los datos para poder responder las **preguntas de investigación secundarias y la pregunta principal** de nuestro proyecto.

---

### **1. Influencia del tipo de patología en el nivel de urgencia**

**Objetivo:** Analizar cómo el tipo de patología respiratoria se relaciona con la clasificación del nivel de urgencia (leve, moderado, grave).

In [40]:
# cosas que debemos hacer para poder responder esta pregunta
# 1. Seleccionar las columnas relevantes: `Causa` y `TipoUrgencia`.
relacion_huc = df_hospitalizaciones[["Causa","TipoUrgencia","NivelComplejidad","Anio"]]
#relacion_h.drop_duplicates(subset=["Causa"],inplace=True)
relacion_huc


Unnamed: 0,Causa,TipoUrgencia,NivelComplejidad,Anio
1,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,Urgencia Hospitalaria (UEH),Baja Complejidad,2016
2,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,Urgencia Ambulatoria (SUR),Baja Complejidad,2024
9,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,Urgencia ambulatoria,Baja Complejidad,2015
21,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,Urgencia Ambulatoria (SUR),Baja Complejidad,2018
60,HOSPITALIZACIONES POR CAUSAS SISTEMA RESPIRATORIO,Urgencia Hospitalaria (UEH),Baja Complejidad,2017
...,...,...,...,...
3267781,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",Urgencia Ambulatoria (SUR),Baja Complejidad,2022
3267796,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",Urgencia Ambulatoria (SUR),Baja Complejidad,2022
3267828,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",Urgencia Hospitalaria (UEH),Alta Complejidad,2025
3267871,"HOSPITALIZACIONES COVID-19, VIRUS IDENTIFICADO...",Urgencia ambulatoria (SAR),Baja Complejidad,2020


In [41]:
relacion_cuc = df_contagios[["Causa","TipoUrgencia","NivelComplejidad","Anio"]]
#relacion_cu.drop_duplicates(subset="Causa",inplace=True)
relacion_cuc

Unnamed: 0,Causa,TipoUrgencia,NivelComplejidad,Anio
0,IRA Alta (J00-J06),Urgencia ambulatoria (SAR),Baja Complejidad,2015
3,IRA Alta (J00-J06),Urgencia ambulatoria (SAR),Baja Complejidad,2025
8,IRA Alta (J00-J06),Urgencia Ambulatoria (SAPU),Baja Complejidad,2020
12,IRA Alta (J00-J06),Urgencia Hospitalaria (UEH),Baja Complejidad,2016
13,IRA Alta (J00-J06),Urgencia Hospitalaria (UEH),Baja Complejidad,2018
...,...,...,...,...
3267803,"Covid-19, Virus identificado U07.1",Urgencia ambulatoria (SAR),Baja Complejidad,2022
3267827,"Covid-19, Virus identificado U07.1",Urgencia Ambulatoria (SAPU),Baja Complejidad,2021
3267834,"Covid-19, Virus identificado U07.1",Urgencia Ambulatoria (SAPU),Baja Complejidad,2022
3267835,"Covid-19, Virus identificado U07.1",Urgencia Ambulatoria (SAPU),Baja Complejidad,2021


In [42]:
# Agrupar los datos por tipo de patología y nivel de urgencia.
SAR = data_limpio[data_limpio["TipoUrgencia"]=="Urgencia ambulatoria (SAR)"]
UEH = data_limpio[data_limpio["TipoUrgencia"]=="Urgencia Hospitalaria (UEH)"]
SUR = data_limpio[data_limpio["TipoUrgencia"]=="Urgencia Ambulatoria (SUR)"]
SAPU = data_limpio[data_limpio["TipoUrgencia"]=="Urgencia Ambulatoria (SAPU)"]

recordatorio: crear df causa(contagio o hospitalizacion)-nivel complejidad-año

In [43]:
# contar cuántas atenciones corresponden a cada combinación (leve, moderado, grave)

In [44]:
# Calcular porcentajes o proporciones dentro de cada patología

In [45]:
# Visualizar los resultados en un gráfico de barras o dispersión.

In [46]:
# con esto interpretamos los datos y respondemos la primera pregunta secundaria

### **2. Incidencia geográfica de enfermedades respiratorias**

**Objetivo:** Identificar si existen regiones o comunas con una mayor incidencia de enfermedades respiratorias.


In [47]:
# cosas que debemos hacer para poder resolver esta pregunta
# Seleccionar las columnas `RegionGlosa`, `ComunaGlosa`, `NumTotal`.  
# Agrupar los datos por región y calculamos el total de consultas respiratorias por año.  
# Calcular la tasa de incidencia relativa leí q es algo q se hace con respecto a poblaciones o cosas así.  
# Generar un mapa o gráfico de con la distribución regional (de esos que le gustan al profe los geo no se qué)
# con esto interpretamos los datos y respondemos la segunda pregunta secundaria  

###  **3. Evolución temporal de las patologías respiratorias**

**Objetivo:** Analizar cómo han cambiado las patologías respiratorias a lo largo del tiempo, especialmente antes y después del COVID-19.

In [48]:
# cosas que debemos hacer para poder resolver esta pregunta
# Seleccionar las columnas `Anio`, `SemanaEstadistica`, `Causa`, `NumTotal`.  
# Calculamos el número total de consultas por año y por tipo de patología.  
# Generar una nueva columna “Periodo” (Pre-COVID / Post-COVID).  
# Graficamos las tendencias temporales antes y después del 2020 
#  Comparamos los valores entre ambos periodos, aqui podemos usar cosas de estadisticas, media, moda mediana, desviacion estandar, etc para comparar 
# con esto interpretamos los datos y respondemos la tercera pregunta secundaria  

### **4. Relación entre grupos etarios y prevalencia**

**Objetivo:** Explorar qué patologías afectan con mayor frecuencia a cada grupo etario.


In [49]:
# cosas que debemos hacer para poder resolver esta pregunta
# Seleccionar las columnas con distribución por edad:  `NumMenor1Anio`, `Num1a4Anios`, `Num5a14Anios`, `Num15a64Anios`, `Num65Mas`.  
# Sumar los valores por año o por tipo de patología (es una idea ahi el q haga esta pregunta decide bien) 
# Visualizar la distribución por grupo etario y tipo de causa (gráfico de barras o apilado el profe es más fan del apilado).  
# con esto interpretamos los datos y respondemos la cuarta pregunta secundaria  

## **5. Integración de resultados y pregunta principal**

**Objetivo:** Responder a la pregunta central del proyecto:  
> **¿Se ha observado un aumento de las enfermedades respiratorias que motivan consultas en urgencias tras la pandemia, en comparación con el periodo previo al COVID-19?**

In [50]:
# aquí me cuesta pensar como podríamos integrar lo que obtengamos de cada pregunta
# asi que ayudenme 