<img src=".\images\Logo.png" width=150 align="left" /> <img src=".\images\Logo2.jpg" width=450 align="right" />


# <center><font color= #1e8449 > <b>CU25_Modelo de gestión de Lista de Espera Quirúrgica</font></center>

<font color='steelblue'><b>Citizenlab Data Science Methodology > II - Data Processing Domain </font>
***
> # <font color='steelblue'> <b>06.- Data Adequacy</font>

<font color='steelblue'>Data Adequacy is the process to adapt basic and fundamental aspects of the raw data (File Format, Data Separator, Feature Names, Tidy Data, etcetera).</font>

## <font color='steelblue'>Tasks</font>

<font color='steelblue'><b>File format</b>	
- Verify/Obtain Tabular CSV (row x column) if is appropriate 
- Change Data Separator Character in CSV files to “,”	
- Verify decimal point in numeric data is “.”

<font color='steelblue'><b>Feature Names	
- Verify names are Simple, Usable and Recognizable</b>	
- Rename Target column name=”Target” and always will be the last column	
- Verify column names are the first row of csv file	
- Remove spaces  others characters in the column names	
    
<font color='steelblue'><b>Data Types</b>
- Verify data types	
- Change data types	
- Verify that object type is changed	
    
<font color='steelblue'><b>Tidy Data</b>		
- Verify each variable forms a column 
- Verify each observation forms a row	
- Verify each type of observational unit forms a table	

## Consideraciones casos CitizenLab programados en R

* La mayoría de las tareas de este proceso se han realizado en los notebooks del proceso 05 Data Collection porque eran necesarias para las tareas ETL. En esos casos, en este notebook se referencia al notebook del proceso 05 correspondiente
* Por tanto en los notebooks de este proceso de manera general se incluyen las comprobaciones necesarias, y comentarios si procede
* Las tareas del proceso se van a aplicar solo a los archivos que forman parte del despliegue, ya que hay muchos archivos intermedios que no procede pasar por este proceso
* El nombre de archivo del notebook hace referencia al nombre de archivo del proceso 05 al que se aplica este proceso, por eso pueden no ser correlativa la numeración
* Las comprobaciones se van a realizar teniendo en cuenta que el lenguaje utilizado en el despliegue de este caso es R

## <font color='green'>File</font>

- <font color='steelblue'> <b>Input File: CU_25_05_07_03_lista_espera_completo</font>
- <font color='steelblue'> <b>Output File: No aplica</font>


## <font color='green'>Settings</font>

### Encoding

Con la siguiente expresión se evitan problemas con el encoding al ejecutar el notebook. Es posible que deba ser eliminada o adaptada a la máquina en la que se ejecute el código.

In [30]:
Sys.setlocale(category = "LC_ALL", locale = "es_ES.UTF-8")

### Libraries to use

In [31]:

library(readr)
library(dplyr)
library(sf)
library(tidyr)
library(stringr)
library(tools)

### Paths

In [32]:
iPath <- "Data/Input/"
oPath <- "Data/Output/"

## <font color='green'>Data Load</font>

<font color='tomato'><b> OPCION A:</b> Seleccionar fichero en ventana para mayor comodidad</font> 

Data load using the {tcltk} package. Ucomment the line if using this option

In [33]:
# file_data <- tcltk::tk_choose.files(multi = FALSE)

<font color='tomato'><b> OPCION B:</b> Especificar el nombre de archivo</font>



In [34]:
iFile <- "CU_25_05_07_03_lista_espera_completo.csv"
file_data <- paste0(iPath, iFile)

if(file.exists(file_data)){
    cat("Se leerán datos del archivo: ", file_data)
} else{
    warning("Cuidado: el archivo no existe.")
}


Se leerán datos del archivo:  Data/Input/CU_25_05_07_03_lista_espera_completo.csv

## <font color='green'>Task</font>

### File format


In [35]:
file_format <- file_ext(file_data)
  
  if (file_format == "csv") {
    print("El fichero tiene el formato adecuado.")
  } else {
    warning("Cuidado: el archivo no tiene un formato válido.")
  }

[1] "El fichero tiene el formato adecuado."


#### Verify/Obtain Tabular CSV (row x column) if is appropriate

In [36]:
data <- read.csv(file_data)
    
    # Verify if the data is appropriate and obtain its dimensions
    if (!is.null(dim(data))) {
      cat("\nEl archivo contiene una representación tabular.")
      
      # Print the dimensions (rows x columns)
      cat("\nNúmero de filas: ", dim(data)[1])
      cat("\nNúmero de columnas: ", dim(data)[2])
      
    } else {
      warning("Cuidado: el archivo no contiene una representación tabular.")
    }


El archivo contiene una representación tabular.
Número de filas:  55680
Número de columnas:  48

<font color=' #2874a6 '><b>Remarks</b></font>

- Se ha verificado que el CSV carga las filas y columnas sin errores


<font color=' #2874a6 '><b>CODE</b></font>

#### Data file to dataframe

Usar la función adecuada según el formato de entrada (xlsx, csv, json, ...)

In [37]:
head(data)


Unnamed: 0_level_0,Hospital,Especialidad,total_pacientes,media_tiempo_dias,ano,semana,CODCNH,id_area,nombre_area,cmunicipio,⋯,t7_1,t8_1,t9_1,t10_1,t11_1,t12_1,capacidad,pacientes,consultas,hospitalizaciones
Unnamed: 0_level_1,<chr>,<chr>,<int>,<dbl>,<int>,<int>,<int>,<int>,<chr>,<int>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<int>,<int>,<int>,<int>
1,HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,439.0,56.29,2022,44,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1392,717.0,8.0
2,HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,437.0,55.13,2022,43,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1465,703.0,3.0
3,HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,429.0,53.99,2022,42,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1373,684.0,12.0
4,HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,419.0,56.29,2022,41,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1593,686.0,3.0
5,HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,418.0,55.82,2022,40,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1478,682.0,17.0
6,HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,,,2022,39,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1374,,


Estructura de  los datos:

In [38]:
data |> glimpse()

Rows: 55,680
Columns: 48
$ Hospital          [3m[90m<chr>[39m[23m "HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA A…
$ Especialidad      [3m[90m<chr>[39m[23m "Angiología y Cirugía Vascular", "Angiología y Cirug…
$ total_pacientes   [3m[90m<int>[39m[23m 439, 437, 429, 419, 418, NA, 408, 399, 396, 393, 378…
$ media_tiempo_dias [3m[90m<dbl>[39m[23m 56.29, 55.13, 53.99, 56.29, 55.82, NA, 57.45, 57.61,…
$ ano               [3m[90m<int>[39m[23m 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022…
$ semana            [3m[90m<int>[39m[23m 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32, …
$ CODCNH            [3m[90m<int>[39m[23m 280148, 280148, 280148, 280148, 280148, 280148, 2801…
$ id_area           [3m[90m<int>[39m[23m 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5…
$ nombre_area       [3m[90m<chr>[39m[23m "Norte", "Norte", "Norte", "Norte", "Norte", "Norte"…
$ cmunicipio        [3m[90m<int>[39m[23m 280796, 280796, 280796, 280796, 280796,

Muestra de los primeros datos:

In [39]:
data |> slice_head(n = 5)

Hospital,Especialidad,total_pacientes,media_tiempo_dias,ano,semana,CODCNH,id_area,nombre_area,cmunicipio,⋯,t7_1,t8_1,t9_1,t10_1,t11_1,t12_1,capacidad,pacientes,consultas,hospitalizaciones
<chr>,<chr>,<int>,<dbl>,<int>,<int>,<int>,<int>,<chr>,<int>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<int>,<int>,<int>,<int>
HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,439,56.29,2022,44,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1392,717,8
HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,437,55.13,2022,43,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1465,703,3
HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,429,53.99,2022,42,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1373,684,12
HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,419,56.29,2022,41,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1593,686,3
HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,418,55.82,2022,40,280148,5,Norte,280796,⋯,0.06406634,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1478,682,17


<font color=' #2874a6 '><b>Remarks</b></font>

- Se ha comprobado que el separador es "," ya que es la opción por defecto de `read.csv()`

#### Verify decimal point in numeric data is “.”

<font color=' #2874a6 '><b>Remarks</b></font>

- Se ha comprobado que el símbolo decimal es "." ya que es la opción por defecto de `read.csv()`

### Feature Names


#### Verify names are Simple, Usable and Recognizable 

<font color=' #2874a6 '><b>Remarks</b></font>

- Se ha comprobado que los nombres de columnas son simples, usables y reconocibles


<font color=' #2874a6 '><b>CODE</b></font>

<font color='tomato'>Visualizo el nombre de las columnas (características)</font>

In [40]:
colnames(data)

#### Rename Target column name=”Target” and always will be the last column 

<font color=' #2874a6 '><b>Remarks</b></font>

- La columna a predecir o estimar sería media_tiempo_dias


<font color=' #2874a6 '><b>CODE</b></font>

In [41]:
data <- data[, c(names(data)[names(data) != "media_tiempo_dias"], "media_tiempo_dias")]
names(data)[names(data) == "media_tiempo_dias"] <- "Target"

#### Verify column names are the first row of csv file 

<font color=' #2874a6 '><b>Remarks</b></font>

- Se ha comprobado que la primera fila del archivo son los nombres de columna, ya que es la opción por defecto de `read.csv()`

#### Remove spaces and others characters in the column names 

<font color=' #2874a6 '><b>Remarks</b></font>

- Se ha comprobado que los nombres de columna solo tienen caracteres ascii y no tienen espacios

<font color=' #2874a6 '><b>CODE</b></font>

<font color='tomato'>Visualizo el nombre de las columnas (características)</font>

In [42]:
# Columns names
colnames(data)

<font color='tomato'>Cambio espacio por '_' en nombres</font> (si procede)

In [43]:
# colnames(data) <- str_replace_all(colnames(data), " ", "_")

### Data Types


#### Verify data types 

<font color=' #2874a6 '><b>Remarks</b></font>

- Se ha comprobado el tipo de datos adecuados al importar los datos con `read.csv()`


<font color=' #2874a6 '><b>CODE</b></font>

<font color='tomato'>Visualizo el tipo de las columnas (características)</font>

In [44]:
sapply(data, class)
glimpse(data)

Rows: 55,680
Columns: 48
$ Hospital          [3m[90m<chr>[39m[23m "HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA A…
$ Especialidad      [3m[90m<chr>[39m[23m "Angiología y Cirugía Vascular", "Angiología y Cirug…
$ total_pacientes   [3m[90m<int>[39m[23m 439, 437, 429, 419, 418, NA, 408, 399, 396, 393, 378…
$ ano               [3m[90m<int>[39m[23m 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022…
$ semana            [3m[90m<int>[39m[23m 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32, …
$ CODCNH            [3m[90m<int>[39m[23m 280148, 280148, 280148, 280148, 280148, 280148, 2801…
$ id_area           [3m[90m<int>[39m[23m 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5…
$ nombre_area       [3m[90m<chr>[39m[23m "Norte", "Norte", "Norte", "Norte", "Norte", "Norte"…
$ cmunicipio        [3m[90m<int>[39m[23m 280796, 280796, 280796, 280796, 280796, 280796, 2807…
$ Municipio         [3m[90m<chr>[39m[23m "Madrid", "Madrid", "Madrid", "Madrid",

#### Change data types 

<font color=' #2874a6 '><b>Remarks</b></font>

- No aplica

<font color=' #2874a6 '><b>CODE</b></font>

In [45]:
# Changing column types
# data$xx <- as.xx(data$xx)

#### Verify that object type is changed 

<font color=' #2874a6 '><b>Remarks</b></font>

- No aplica


<font color=' #2874a6 '><b>CODE</b></font>

In [46]:
sapply(data, class)
glimpse(data)

Rows: 55,680
Columns: 48
$ Hospital          [3m[90m<chr>[39m[23m "HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA A…
$ Especialidad      [3m[90m<chr>[39m[23m "Angiología y Cirugía Vascular", "Angiología y Cirug…
$ total_pacientes   [3m[90m<int>[39m[23m 439, 437, 429, 419, 418, NA, 408, 399, 396, 393, 378…
$ ano               [3m[90m<int>[39m[23m 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022…
$ semana            [3m[90m<int>[39m[23m 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32, …
$ CODCNH            [3m[90m<int>[39m[23m 280148, 280148, 280148, 280148, 280148, 280148, 2801…
$ id_area           [3m[90m<int>[39m[23m 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5…
$ nombre_area       [3m[90m<chr>[39m[23m "Norte", "Norte", "Norte", "Norte", "Norte", "Norte"…
$ cmunicipio        [3m[90m<int>[39m[23m 280796, 280796, 280796, 280796, 280796, 280796, 2807…
$ Municipio         [3m[90m<chr>[39m[23m "Madrid", "Madrid", "Madrid", "Madrid",

### Tidy Data


#### Verify each variable forms a column 

<font color=' #2874a6 '><b>Remarks</b></font>

- Se ha comprobado que cada columna se refiere a una variable


<font color=' #2874a6 '><b>CODE</b></font>

In [47]:
# 
ncol(data)
glimpse(data)

Rows: 55,680
Columns: 48
$ Hospital          [3m[90m<chr>[39m[23m "HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA A…
$ Especialidad      [3m[90m<chr>[39m[23m "Angiología y Cirugía Vascular", "Angiología y Cirug…
$ total_pacientes   [3m[90m<int>[39m[23m 439, 437, 429, 419, 418, NA, 408, 399, 396, 393, 378…
$ ano               [3m[90m<int>[39m[23m 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022, 2022…
$ semana            [3m[90m<int>[39m[23m 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34, 33, 32, …
$ CODCNH            [3m[90m<int>[39m[23m 280148, 280148, 280148, 280148, 280148, 280148, 2801…
$ id_area           [3m[90m<int>[39m[23m 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5…
$ nombre_area       [3m[90m<chr>[39m[23m "Norte", "Norte", "Norte", "Norte", "Norte", "Norte"…
$ cmunicipio        [3m[90m<int>[39m[23m 280796, 280796, 280796, 280796, 280796, 280796, 2807…
$ Municipio         [3m[90m<chr>[39m[23m "Madrid", "Madrid", "Madrid", "Madrid",

#### Verify each observation forms a row 

<font color=' #2874a6 '><b>Remarks</b></font>

- Se ha comprobado que cada fila se refiere a una observación


<font color=' #2874a6 '><b>CODE</b></font>

In [48]:
# 
nrow(data)
head(data, 1)

Unnamed: 0_level_0,Hospital,Especialidad,total_pacientes,ano,semana,CODCNH,id_area,nombre_area,cmunicipio,Municipio,⋯,t8_1,t9_1,t10_1,t11_1,t12_1,capacidad,pacientes,consultas,hospitalizaciones,Target
Unnamed: 0_level_1,<chr>,<chr>,<int>,<int>,<int>,<int>,<int>,<chr>,<int>,<chr>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<int>,<int>,<int>,<int>,<dbl>
1,HOSPITAL CENTRAL DE LA CRUZ ROJA SAN JOSE Y SANTA ADELA,Angiología y Cirugía Vascular,439,2022,44,280148,5,Norte,280796,Madrid,⋯,0.05318346,0.4872258,0.1032815,0.5420084,0.6035461,14,1392,717,8,56.29


#### Verify each type of observational unit forms a table 

<font color=' #2874a6 '><b>Remarks</b></font>

- No aplica


<font color=' #2874a6 '><b>CODE</b></font>

In [49]:
# 


### Additional Actions not Initially Contemplated

No aplica

## <font color='green'>Data Save</font>



<font color='tomato'> Identificamos los datos a guardar</font>

In [50]:
data_to_save <- data


<font color='tomato'>Estructura de nombre de archivos:</font>

* Código del caso de uso, por ejemplo "CU_04"
* Número del proceso que lo genera, por ejemplo "_06".
* Resto del nombre del archivo de entrada
* Extensión del archivo

Ejemplo: "CU_04_06_01_01_zonasgeo.json, primer fichero que se genera en la tarea 01 del proceso 05 (Data Collection) para el caso de uso 04 (vacunas) y que se ha transformado en el proceso 06

Importante mantener los guiones bajos antes de proceso, tarea, archivo y nombre

### Proceso 6

In [51]:
caso <- "CU_25"
proceso <- '_6'
tarea <- "_01"
archivo <- "_lista_espera_completo_target"
proper <- "_v_01"
extension <- ".csv"

<font color='tomato'><b> OPCION A:</b> Uso del paquete "tcltk" para mayor comodidad</font>

* Buscar carpeta, escribir nombre de archivo SIN extensión (se especifica en el código)
* Especificar sufijo2 si es necesario
* Cambiar datos por datos_xx si es necesario

In [52]:
# file_save <- paste0(caso, proceso, tarea, tcltk::tkgetSaveFile(), proper, extension) 
# path_out <- paste0(oPath, file_save)
# write_csv(data_to_save_xxxxx, path_out)

# cat('File saved as: ')
# path_out

<font color='tomato'><b> OPCION B:</b> Especificar el nombre de archivo</font>

- Los ficheros de salida del proceso van siempre a Data/Output/.  

In [53]:
file_save <- paste0(caso, proceso, tarea, archivo, proper, extension) 
path_out <- paste0(oPath, file_save)
write_csv(data_to_save, path_out)

cat('File saved as: ')
path_out

File saved as: 

#### Copia del fichero a Input

Si el archivo se va a usar en otros notebooks, copiar a la carpeta Input

In [54]:
path_in <- paste0(iPath, file_save)
file.copy(path_out, path_in, overwrite = TRUE)

## <font color='#2874a6'>REPORT</font>

A continuación se realizará un informe de las acciones realizadas

## <font color=' #2874a6 '>Main Actions Carried Out</font>

Ejemplos
- Se han comprobado todas las tareas de Data Adecuacy
- No se ha tenido que realizar ninguna acción adicional

## <font color=' #2874a6 '>Main Conclusions</font>

- Los datos ya se habían tratado en el proceso 05 para poder hacer las tareas de ETL y no ha sido necesaria ninguna modificación

## <font color='RED'>CODE TO DEPLOY (PILOT)</font>

A continuación se incluirá el código que deba ser llevado a despliegue para producción, dado que se entiende efectúa operaciones necesarias sobre los datos en la ejecución del prototipo

<font color=' red '><b>Description</b></font>

- No hay nada que desplegar en el piloto, ya que estos datos son estáticos o en todo caso cambian con muy poca frecuencia, altamente improbable durante el proyecto.


<font color=' red '><b>CODE</b></font>

In [None]:
# incluir código