# Actividad Práctica: Análisis Demográfico con Datos Abiertos del MINSAL

Utilizaremos la base de datos de Egresos Hospitalarios del Departamento de Estadísticas e Información de Salud (DEIS) del Ministerio de Salud de Chile. El dataset contiene información sobre egresos hospitalarios en todo el país, incluyendo variables demográficas, clínicas y administrativas. El objetivo de este taller es trabajar con datos abiertos y aplicar técnicas de análisis exploratorio para comprender la información contenida en el dataset.

Al finalizar este taller, los y las estudiantes serán capaces de:
* Cargar y explorar bases de datos extensas utilizando pandas, identificando su estructura y calidad.
* Aplicar técnicas de filtrado, agrupación y transformación de datos para generar variables e indicadores.
* Calcular estadísticas descriptivas y proporciones a partir de variables categóricas y numéricas.
* Visualizar información mediante gráficos para facilitar la interpretación.
* Analizar relaciones entre variables demográficas y clínicas en un contexto de salud pública real.


##  1. Bases de datos abiertos: MINSAL
### 1.1. Introducción a los datos abiertos

Los datos abiertos son conjuntos de datos que están disponibles para el público de forma gratuita y sin restricciones. Estos datos pueden ser utilizados, modificados y compartidos por cualquier persona, lo que fomenta la transparencia, la innovación y la colaboración en diversas áreas, incluyendo la salud pública. En este taller, utilizaremos datos abiertos del Ministerio de Salud de Chile para realizar un análisis demográfico y clínico de los egresos hospitalarios en el país. 

### 1.2. Egresos Hospitalarios

Los egresos hospitalarios son registros de pacientes que han sido dados de alta de un hospital después de recibir atención médica. Estos datos son fundamentales para comprender la carga de enfermedades, la utilización de servicios de salud y la calidad de la atención médica en un país. El Ministerio de Salud de Chile publica regularmente datos sobre egresos hospitalarios, que incluyen información demográfica, diagnósticos, procedimientos y otros aspectos relevantes.

Estos se encuentran disponibles en el sitio web del [Departamento de Estadísticas e Información de Salud](https://deis.minsal.cl/). En particular utilizaremos la base "Egresos Hospitalarios por Comuna de Residencia (disociados) Año 2024". 

Para acceder a los datos, pueden navegar a la sección de "Datos Abiertos" en el sitio web del MINSAL y buscar la base de datos correspondiente. Una vez que encuentren la base de datos, se descargara en formato zip.


![](/Users/carlos/Documents/github/Diplomado_iHealth/img/base_egresos.png)




## 1.3 Carga de datos

Google Colab funciona en un ambiente de nube basado en linux, por lo que podemos utilizar de manera directa commandos de linux para descargar y descomprimir archivos. En este caso, utilizaremos el comando `!wget` para descargar el archivo zip y luego lo descomprimiremos utilizando el comando `!unzip`.

In [None]:
!wget https://repositoriodeis.minsal.cl/DatosAbiertos/EGRESOS/EGRESOS_2024.zip 
!unzip EGRESOS_2024.zip

Se recomienda descargar el dataset en su computador para visualizar el archivo `Diccionario BD egresos hospitalario.xlsx` y conocer la estructura de la base de datos. 

Las variables que se encuentran en el diccionario son las siguientes:


<center>

| Nombre   Variable                | Descripción                                                                      |
|----------------------------------|----------------------------------------------------------------------------------|
| PERTENENCIA_ESTABLECIMIENTO_SALU | Tipo de pertenencia (Perteneciente o   No perteneciente al SNSS)                 |
| SEXO                             | Código del sexo   biologico del paciente                                         |
| GRUPO_EDAD                       | Grupo de edad del   paciente al momento de su ingreso                            |
| ETNIA                            | Se identifica o no   con una etnia                                               |
| GLOSA_PAIS_ORIGEN                | Indica si es chileno   o extranjero                                              |
| COMUNA_RESIDENCIA                | Código comuna de   residencia del paciente                                       |
| GLOSA_COMUNA_RESIDENCIA          | Nombre de la comuna   de residencia                                              |
| REGION_RESIDENCIA                | Código región de   residencia del paciente                                       |
| GLOSA_REGION_RESIDENCIA          | Nombre de la región   de residencia                                              |
| PREVISION                        | Código de previsión   de salud del paciente al momento del ingreso               |
| GLOSA_PREVISION                  | Glosa previsión de   salud del paciente al momento del ingreso                   |
| ANO_EGRESO                       | Año del egreso                                                                   |
| DIAG1                            | Código CIE-10 del   diagnostico principal                                        |
| DIAG2                            | Código CIE-10 de la   causa externa                                              |
| DIAS_ESTAD                       | Días de estada total                                                             |
| CONDICION_EGRESO                 | Código   de la condición al egreso del paciente          1=Vivo      2=Fallecido |

</center>


## 2. Trabajando con datos

### 2.1 Carga de librerías

#### **Ejercicio 1** 

Cargue las librerías necesarias para trabajar con el dataset en cuando a archivos csv y visualización. 

In [None]:
# <CODE>


#### **Ejercicio 2** 
Una vez que haya cargado las librerías, cargue el dataset `Egresos Hospitalarios por Comuna de Residencia (disociados) Año 2024` en un dataframe llamado `egresos`. HINT:  Este tipo de archivos puede utilizar distintos separadores (,, ;, |) y codificaciones de texto (encoding). Si al leer el archivo obtienes errores o caracteres extraños, investiga cuál es el separador y el encoding correcto para poder cargarlo adecuadamente. 




In [None]:
# <CODE>


#### **Ejercicio 3** 
Realize un analisis exploratorio de los datos. Identique las cantidad de filas y columnas, el nombre de las columnas, los tipos de datos y la cantidad de valores nulos.

In [None]:
# <CODE> Cantidad de filas y columnas


In [None]:
# <CODE> Nombres de las columnas


In [None]:
# <CODE> TIpos de dato por columna


In [None]:
# <CODE> Cantidad de valores nulos


#### **Ejercicio 4** 

Obtenga los valores únicos de las siguientes variables (HINT: use values_counts):
- `SEXO`
- `GRUPO_EDAD`
- `ETNIA`
- `CONDICION_EGRESO`
- `GLOSA_PREVISION`
- `DIAS_ESTAD`

Responda a las siguientes preguntas:
* ¿Cuántos valores únicos tiene cada variable?
* ¿Es necesario realizar algún tipo de limpieza o transformación en los datos? ¿Por qué?


In [None]:
# <CODE> SEXO


In [None]:
# <CODE> GRUPO_EDAD


In [None]:
# <CODE> ETNIA


In [None]:
# <CODE> CONDICION_EGRESO


In [None]:
# <CODE> GLOSA_PREVISION


In [None]:
# <CODE> DIAS_ESTAD


### 2.2 Manipulación de datos

#### **Ejercicio 5** 

Debido a que la variable `SEXO` tiene valores categóricos mediante texto, es recomendable transformarla a valores numéricos. Para ello, utilice la función `replace` para reemplazar los valores y elimine los valores nulos (`*`). 



In [None]:
# <CODE>


#### **Ejercicio 6** 

Ahora que las variables de interés están correctamente estructuradas, es momento de comenzar la exploración de la información que nos proporcionan. Para ello, se generará un gráfico comparativo que muestre la distribución de la condición de egreso según el sexo de los pacientes (hombres y mujeres).

In [None]:
# <CODE>


#### **Ejercicio 7** 

Ahora se busca evaluar la proporción de condición de egreso según el grupo etario. Para ello, genere un gráfico que muestre, para cada grupo etario, la distribución proporcional de las distintas condiciones de egreso. Responda:

* ¿Cúal es el grupo etario con mayor proporción de egresos fallecidos?
* ¿Cúal es el grupo etario con mayor proporción de egresos vivos?

Asegurese que el grafico muestre el orden correcto de los grupos etarios. 


In [None]:
# Calcular proporción de fallecidos por grupo etario
proporcion_fallecidos = egresos.groupby('GRUPO_EDAD')['CONDICION_EGRESO'].apply(lambda x: (x == 2).mean())

# ordenar columnas
orden = ['menor a 7 días','7 A 27 DIAS', '28 DIAS A 2 MES','2 MESES A MENOS DE 1 AÑO', 
         '1 A 4 AÑOS','5 A 9 AÑOS', '10 A 14 AÑOS', '15 A 19 AÑOS','20 A 24 AÑOS', '25 A 29 AÑOS',
        '30 A 34 AÑOS', '35 A 39 AÑOS', '40 A 44 AÑOS',
       '45 A 49 AÑOS', '50 A 54 AÑOS', '55 A 59 AÑOS',
       '60 A 64 AÑOS', '65 A 69 AÑOS',  '70 A 74 AÑOS',
       '75 A 79 AÑOS', '80 A 84 AÑOS', '85 A MAS']

proporcion_fallecidos = proporcion_fallecidos.reindex(orden)
# Graficar
proporcion_fallecidos.plot(kind='bar', figsize=(10, 5), color='tomato')

plt.title('Proporción de fallecidos por grupo etario')
plt.xlabel('Grupo etario')
plt.ylabel('Proporción de fallecidos')
plt.ylim(0, 0.15)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

#### **Ejercicio 8** 

De igual manera realize un gráfico que muestre la proporción de condición de egreso según la previsión de salud. Responda:
* ¿Cúal es la previsión de salud con mayor proporción de egresos fallecidos?
* ¿Cúal es la previsión de salud con mayor proporción de egresos vivos?


In [None]:
# <CODE>


#### **Ejercicio 9** 

Ahora se busca evaluar la cantidad de días segun la región de residencia.  Para ello, genere un gráfico que muestre, para cada región, la cantidad de días promedio de estadía en el hospital. Responda:
* ¿Cúal es la región con mayor cantidad de días promedio de estadía?
* ¿Cúal es la región con menor cantidad de días promedio de estadía?
* ¿Cúal es la región con mayor cantidad de egresos?
* ¿Cúal es la región con menor cantidad de egresos?
* ¿Existen datos nulos?



In [None]:
# <CODE>


#### **Ejercicio 10** 

Utilizando el diagnostico principal (DIAG1), calcule los 10 diagnósticos más frecuentes para egresos de tipo 1.
* ¿Cúal es el diagnóstico más frecuente?
* ¿Cúal es el diagnóstico menos frecuente?

In [None]:
# <CODE> Top 10 diagnosticos


In [None]:
# <CODE> Diagnostico menos frecuentes


#### **Ejercicio 11** 

Utilizando el diagnostico principal (DIAG1), calcule los 10 diagnósticos más frecuentes para egresos de tipo 2.
* ¿Cúal es el diagnóstico más frecuente?
* ¿Cúal es el diagnóstico menos frecuente?


In [None]:
# <CODE> Top 10 diagnosticos


In [None]:
# <CODE> Diagnostico menos frecuente
