<a href="https://colab.research.google.com/github/rlagosb/taller_eiv/blob/main/3_Ejercicio_Cubo_multidimensional_(R).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio: creación de un cubo
En este ejercicio vamos a armar una tabla de datos multidimensional para el análisis de las brechas de consultas de especialidad médica (CNE). Para ello haremos lo siguiente:

1. Generar un modelo estrella con las métricas y dimensiones de análisis

2. Generar tablas fact y dimensiones

3. Exportar a excel

 # Configurar área de trabajo

In [None]:
#borrar objetos previos
rm(list=ls())
#borrar figuras (si hay)
while(!dev.cur())dev.off()
cat("\014")

# Para manipulación de bases de datos. Si no existe, la instalamos
if(!require(dplyr)){install.packages("dplyr")}
# Para importar/exportar bases de datos. Si no existe, la instalamos
if(!require(rio)){install.packages("rio")}
# Para exportar archivos en formato parquet
if(!require(arrow)){install.packages("arrow")}
if(!require(nanoparquet)){install.packages("nanoparquet")}

# definir carpetas de trabajo
datos_normalizados <- 'https://github.com/rlagosb/taller_eiv/raw/refs/heads/main/datos_normalizados/'
datos_cubos <- './content/cubos/'

if (!dir.exists(datos_cubos)){dir.create(datos_cubos, recursive = TRUE)}

# cargar datos (concatenamos con paste0 la ubicación de github con el nombre de cada archivo *.parquet a trabajar)
centros <- rio::import(paste0(datos_normalizados, "Centros.parquet"))
especialidades <- rio::import(paste0(datos_normalizados, "Especialidades.parquet"))
demanda <- rio::import(paste0(datos_normalizados, "Demanda.parquet"))
produccion <- rio::import(paste0(datos_normalizados, "Produccion.parquet"))



Loading required package: dplyr


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union


Loading required package: rio

“there is no package called ‘rio’”
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘R.oo’, ‘R.methodsS3’, ‘writexl’, ‘R.utils’


Loading required package: arrow

“there is no package called ‘arrow’”
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependency ‘assertthat’


Loading required package: nanoparquet

“there is no package called ‘nanoparquet’”
Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



# Crear tabla FACT
Construiremos una tabla con los campos:

- Centro_cod: código del centro de salud
- Especialidad_cod: código de la especialidad médica (prestación)
- Mes: mes del año 2021
- CNE_solicitadas: solicitudes de interconsultas recibidas por establecimiento, especialidad y mes
- CNE_producidas: consultas nuevas de especialidad producidas por establecimientos, especialidad y mes



In [None]:
# Examinemos los campos que tienen las tablas de demanda y producción
# Con el cruce de estas tablas podemos obtener las métricas fundamentales para el análisis
#Tres primeros valores de la base demanda
demanda %>% head(3)

cat("\n\n") #saltos de línea

#Tres primeros valores de la base producción
produccion %>% head(3)

Unnamed: 0_level_0,Especialidad,Centro_destino,Año,Mes,Interconsultas,__index_level_0__
Unnamed: 0_level_1,<chr>,<dbl>,<int>,<int>,<dbl>,<dbl>
1,07-053,114101,2021,1,822,0
2,07-053,114101,2021,3,748,1
3,07-044,114101,2021,1,673,2






Unnamed: 0_level_0,Año,Mes,Centro,Nuevas,Controles,Codigo
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,2021,1,114101,33,192,07-047
2,2021,1,114101,239,325,07-030
3,2021,1,114101,8,82,07-039


In [None]:
# 1. Seleccionar y renombrar columnas de la tabla demanda
dda <- demanda %>%
  dplyr::select(Centro_destino, Especialidad, Mes, Interconsultas) %>%  # Seleccionar columnas relevantes
  dplyr::rename(
    Centro_cod = Centro_destino,       # Renombrar 'Centro_destino' a 'Centro_cod'
    Especialidad_cod = Especialidad,   # Renombrar 'Especialidad' a 'Especialidad_cod'
    CNE_solicitadas = Interconsultas    # Renombrar 'Interconsultas' a 'CNE_solicitadas'
  )

# 2. Seleccionar y renombrar columnas de la tabla produccion
prod <- produccion %>%
  dplyr::select(Centro, Codigo, Mes, Nuevas) %>%  # Seleccionar columnas relevantes
  dplyr::rename(
    Centro_cod = Centro,              # Renombrar 'Centro' a 'Centro_cod'
    Especialidad_cod = Codigo,        # Renombrar 'Codigo' a 'Especialidad_cod'
    CNE_producidas = Nuevas            # Renombrar 'Nuevas' a 'CNE_producidas'
  )

# 3. Realizar una unión completa (outer join) entre demanda y produccion
fact <- dda %>%
  dplyr::full_join(prod, by = c("Centro_cod", "Especialidad_cod", "Mes"))  # Unir por las columnas especificadas

# 4. Reemplazar valores NA por 0 en las columnas 'CNE_solicitadas' y 'CNE_producidas'
# Utilizamos la función 'coalesce' para reemplazar NAs con 0
fact <- fact %>%
  dplyr::mutate(
    CNE_solicitadas = coalesce(CNE_solicitadas, 0),   # Reemplazar NA en 'CNE_solicitadas' por 0
    CNE_producidas = coalesce(CNE_producidas, 0)    # Reemplazar NA en 'CNE_producidas' por 0
  )

# 5. Convertir las columnas 'CNE_solicitadas' y 'CNE_producidas' a enteros
fact <- fact %>%
  dplyr::mutate(
    CNE_solicitadas = as.integer(CNE_solicitadas),   # Convertir a entero
    CNE_producidas = as.integer(CNE_producidas)      # Convertir a entero
  )

# Mostrar la estructura de la tabla resultante
str(fact)

'data.frame':	2080 obs. of  5 variables:
 $ Centro_cod      : num  114101 114101 114101 114101 114101 ...
 $ Especialidad_cod: chr  "07-053" "07-053" "07-044" "07-053" ...
 $ Mes             : num  1 3 1 2 9 5 2 3 8 6 ...
 $ CNE_solicitadas : int  822 748 673 655 654 631 629 625 623 600 ...
 $ CNE_producidas  : int  640 668 578 542 615 898 601 768 681 595 ...


## 🏁 Discusión
1. ¿Cuáles son las métricas que registra esta tabla?
1. ¿Cuáles son los hechos que registra esta tabla? ¿Cuántos exiten?
2. ¿Cuál es el nivel de detalle con que se describen los hechos (granularidad)?
1. ¿A partir de esta tabla es posible consultar los hechos a nivel diario? ¿Trimestral? ¿Anual?

# Dimensión Periodo
Aunque nuestro análisis sólo considera un año, podríamos querer analizar los datos a nivel trimestral o anual. Construiremos una tabla con los campos

- Mes: llave primaria
- Trimestre
- Año

**⚠** Si trabajáramos con múltiples años necesitaríamos definir otra llave primaria para esta dimensión

In [None]:
# Creamos un dataframe vacío para agregar los campos
dim_periodo <- cbind.data.frame(
  Mes =         1:12,               # Números del 1 al 12 para los meses
  Año =         2021,               # Año constante 2021
  Trimestre =   rep(1:4, each = 3)  # Asignar trimestre
) %>%
  dplyr::arrange(Mes)  # Ordenar por Mes para mantener el orden cronológico

dim_periodo

Mes,Año,Trimestre
<int>,<dbl>,<int>
1,2021,1
2,2021,1
3,2021,1
4,2021,2
5,2021,2
6,2021,2
7,2021,3
8,2021,3
9,2021,3
10,2021,4


# Dimensión Especialidad
Crearemos una tabla con los siguientes campos:

- Especialidad_cod: código de la especialidad (llave primaria)
- Especialidad: nombre de la especialidad
- Alto_riesgo: especialidad con mayor mortalidad para tiempos de espera extensos según Martínez et al ([2019](https://doi.org/10.1186/s12889-019-6526-6))
- REM: si se incluye en reportes estadísticos mensuales


In [None]:
# Examinemos la tabla especialidades para identificar los campos existentes y los que faltan
set.seed(123)#para reproducibilidad
especialidades[sample(nrow(especialidades),5),] #tomamos 5 observaciones al azar

Unnamed: 0_level_0,Codigo,Nombre,Nombre_prog,Codigo_prog,Codigo_rem
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<dbl>,<dbl>
31,07-031,MEDICINA INTENSIVA ADULTO,MEDICINA INTENSIVA ADULTO,7030999,
51,07-051,REUMATOLOGÍA,REUMATOLOGÍA,7021230,7021230.0
14,07-014,ENDOCRINOLOGÍA ADULTO,ENDOCRINOLOGÍA ADULTO,7020600,7020600.0
42,07-042,NEUROLOGÍA PEDIÁTRICA,NEUROLOGÍA PEDIÁTRICA,7022134,7022134.0
50,07-050,RADIOTERAPIA ONCOLÓGICA,RADIOTERAPIA ONCOLÓGICA,7030502,7030500.0


In [None]:
# Generemos la dimensión especialidad con una función especial

# 1. Seleccionar y renombrar columnas de la tabla especialidades
esp <- especialidades %>%
  dplyr::select(Codigo, Nombre, Codigo_rem) %>%  # Seleccionar columnas relevantes
  dplyr::rename(
    Especialidad_cod = Codigo,        # Renombrar 'Codigo' a 'Especialidad_cod'
    Especialidad = Nombre             # Renombrar 'Nombre' a 'Especialidad'
  )

# 2. Generar el campo Especialidad_REM
esp <- esp %>%
  dplyr::mutate(
    Especialidad_REM = ifelse(!is.na(Codigo_rem), "Si", "No")  # Asignar 'Si' si Codigo_rem no es NA, de lo contrario 'No'
  ) %>%
  dplyr::select(-Codigo_rem)  # Eliminar la columna 'Codigo_rem'

 # Identificamos las especialidades de alto riesgo: CARDIOLOGIA, CIRUGIA CARDIOVASCULAR, GASTROENTEROLOGIA ADULTO, NEFROLOGIA ADULTO, NEUROLOGIA ADULTO, UROLOGIA
  alto_riesgo <- c('07-003', '07-006', '07-018', '07-037', '07-041', '07-054')  # Lista de códigos de alto riesgo

  dim_especialidad <- esp %>%
    dplyr::mutate(
      Riesgo_mortalidad = ifelse(Especialidad_cod %in% alto_riesgo, "Si", "No")  # Asignar 'Si' si el código está en alto_riesgo, de lo contrario 'No'
    )

# Veamos el resultado
dplyr::glimpse(dim_especialidad)
set.seed(123)#para reproducibilidad
especialidades[sample(nrow(especialidades),5),] #tomamos 5 observaciones al azar

Rows: 68
Columns: 4
$ Especialidad_cod  [3m[90m<chr>[39m[23m "07-001", "07-002", "07-003", "07-004", "07-005", "0…
$ Especialidad      [3m[90m<chr>[39m[23m "ANATOMÍA PATOLÓGICA", "ANESTESIOLOGÍA", "CARDIOLOGÍ…
$ Especialidad_REM  [3m[90m<chr>[39m[23m "No", "Si", "Si", "Si", "Si", "Si", "Si", "Si", "Si"…
$ Riesgo_mortalidad [3m[90m<chr>[39m[23m "No", "No", "Si", "No", "No", "Si", "No", "No", "No"…


Unnamed: 0_level_0,Codigo,Nombre,Nombre_prog,Codigo_prog,Codigo_rem
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<dbl>,<dbl>
31,07-031,MEDICINA INTENSIVA ADULTO,MEDICINA INTENSIVA ADULTO,7030999,
51,07-051,REUMATOLOGÍA,REUMATOLOGÍA,7021230,7021230.0
14,07-014,ENDOCRINOLOGÍA ADULTO,ENDOCRINOLOGÍA ADULTO,7020600,7020600.0
42,07-042,NEUROLOGÍA PEDIÁTRICA,NEUROLOGÍA PEDIÁTRICA,7022134,7022134.0
50,07-050,RADIOTERAPIA ONCOLÓGICA,RADIOTERAPIA ONCOLÓGICA,7030502,7030500.0


## 🏁 Discusión
1. ¿Qué diferencia a esta tabla de la tabla normalizada *Especialidades*?
2. ¿Cuál es el propósito de cada una?

# 🍎 Desafío: Crear Dimensión Establecimiento
Cree un dataframe `dim_centro` con los siguientes campos:

- Centro_cod: código DEIS del centro (llave primaria)
- Centro: nombre del centro de salud
- Complejidad: nivel de complejidad del centro
- Servicio: Servicio de Salud del cual depende

In [None]:
dim_centro <- centros %>%
  dplyr::select(Codigo, Nombre, Dependencia, `Nivel de Complejidad`) %>%  # Seleccionar columnas relevantes. Ojo que para columnas que contienen espacios o parten con caracteres especiales, dplyr requirere el tilde inverso para llamarlos y manipularlos
  dplyr::rename(
    Centro_cod    = Codigo,
    Centro        = Nombre,
    Complejidad   = "Nivel de Complejidad",
    Servicio      = Dependencia
  )
#Miramos el resultado
dim_centro

Unnamed: 0_level_0,Centro_cod,Centro,Servicio,Complejidad
Unnamed: 0_level_1,<dbl>,<chr>,<chr>,<chr>
1,126704,Hospital Comunitario Cristina Calderón de Puerto Williams,Servicio de Salud Magallanes,Baja Complejidad
2,126204,Hospital Naval (Puerto Williams),SEREMI De Magallanes y la Antártica Chilena,Mediana Complejidad
3,126412,Posta de Salud Rural Cameron,Servicio de Salud Magallanes,Baja Complejidad
4,126414,Posta de Salud Rural Agua Fresca,Servicio de Salud Magallanes,Baja Complejidad
5,126102,Hospital Dr. Marco Antonio Chamorro ( Porvenir),Servicio de Salud Magallanes,Baja Complejidad
6,201364,UNO SALUD DENTAL LOS ÁNGELES 2,SEREMI Del Biobío,Mediana Complejidad
7,200311,Centro Comunitario de Salud Familiar Dr. Juan Damianovic,Servicio de Salud Magallanes,Baja Complejidad
8,200710,Complejo Miraflores (Salud Mental),Servicio de Salud Magallanes,Mediana Complejidad
9,126606,COSAM Punta Arenas,Servicio de Salud Magallanes,Mediana Complejidad
10,126801,SAR Dr. Juan Damianovic,Servicio de Salud Magallanes,Mediana Complejidad


# Cubo
Generamos una tabla multidimensional uniendo la tabla Fact con las dimensiones utilizando las llaves.

In [None]:
cubo <- fact %>%
  dplyr::left_join(dim_especialidad, by = "Especialidad_cod") %>%  # Unir con dim_especialidad en 'Especialidad_cod'
  dplyr::left_join(dim_centro, by = "Centro_cod") %>%              # Unir con dim_centro en 'Centro_cod'
  dplyr::left_join(dim_periodo, by = "Mes")                        # Unir con dim_periodo en 'Mes'

set.seed(2125)
cubo %>%
  sample_n(5, replace = TRUE)

Centro_cod,Especialidad_cod,Mes,CNE_solicitadas,CNE_producidas,Especialidad,Especialidad_REM,Riesgo_mortalidad,Centro,Servicio,Complejidad,Año,Trimestre
<dbl>,<chr>,<dbl>,<int>,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<int>
114101,07-013,4,0,25,DIABETOLOGÍA,Si,No,"Complejo Hospitalario Dr. Sótero del Río (Santiago, Puente Alto)",Servicio de Salud Metropolitano Sur Oriente,Alta Complejidad,2021,2
114105,07-014,12,49,40,ENDOCRINOLOGÍA ADULTO,Si,No,Hospital Clínico Metropolitano La Florida Dra. Eloísa Díaz Insunza,Servicio de Salud Metropolitano Sur Oriente,Alta Complejidad,2021,4
114101,07-048,4,45,27,PSIQUIATRÍA ADULTO,Si,No,"Complejo Hospitalario Dr. Sótero del Río (Santiago, Puente Alto)",Servicio de Salud Metropolitano Sur Oriente,Alta Complejidad,2021,2
200282,07-051,11,2,0,REUMATOLOGÍA,Si,No,Centro de Referencia de Salud Hospital Provincia Cordillera,Servicio de Salud Metropolitano Sur Oriente,Mediana Complejidad,2021,4
114105,07-049,6,42,16,PSIQUIATRÍA PEDIÁTRICA Y DE LA ADOLESCENCIA,Si,No,Hospital Clínico Metropolitano La Florida Dra. Eloísa Díaz Insunza,Servicio de Salud Metropolitano Sur Oriente,Alta Complejidad,2021,2


In [None]:
# Exportamos a la carpeta con los cubos
 cubo%>%
  rio::export(paste0(datos_cubos, 'Cubo_brechas_CNE.xlsx'), rowNames = FALSE)

## 🏁 Discusión
1. ¿Qué campos tienen redundancias? (¿Cuál forma normal no se cumple?)
3. ¿Cuál es el propósito de introducir esta redundancia?
4. ¿Existe el riesgo que se produzan inconsistencias en los nombres de los centros o especialidades?
1. ¿Qué cambios tendría que hacer a esta tabla si tuviera:
  - Datos del 2021 al 2024?
  - Datos de más establecimientos?