<a href="https://colab.research.google.com/github/SantiagoBarraganPaipilla/SantiagoBarraganPaipilla/blob/main/Preparaci%C3%B3n_de_datos_en_R_PUJ.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Preparación de datos en R
## Probabilidad y estadística inferencial - Pontificia Universidad Javeriana
### Santiago Barragan Paipilla <br> Facultad de ingeniería

# Variables estadísticas

Una variable estadística es cualquier característica de interés para la investigación cuyo valor puede cambiar de un objeto a otro en la población.

De acuerdo con la medición que realizan, las variables se clasifican en cuantitativas y cualitativas.

1. **Variables cuantitativas:** También conocidas como variables *escalares*, las variables cuantitativas son las que toman como argumento cantidades numéricas (poseen unidades de medida). Son variables matemáticas.
    + Variables discretas: Presentan separaciones o interrupciones en la escala de valores que pueden tomar. Dichas separaciones indican la ausencia de valores que la variable puede asumir.
    * *Ejemplos:* número de hijos, nota de un parcial, dinero.
    + Variables continuas: Pueden tomar cualquier valor dentro de un intervalo o una unión de intervalos de números reales. Solamente están limitadas por la precisión del aparato (o unidad) medidor.
    * *Ejemplos:* temperatura, distancia, tiempo.

2. **Variables cualitativas** También llamadas categóricas. Las variables cualitativas son las que expresan cualidades, características o modalidad. Cada modalidad se llama atributo o categoría y la medición consiste en clasificar el objeto en su correspondiente categoría.
Se llaman dicotómicas cuando solo pueden tomar dos posibles valores y politómicas cuando tienen 3 o más categorías.

  Nota: Las categorías son de tipo clasificatorio y *no es posible* realizar operaciones entre ellas, ni siquiera cuando los atributos son codificados para facilitar la manipulación de los datos.
    * Variables nominales: Los atributos de la variable NO pueden ser sometidos a un criterio de orden objetivo y estándar.
    * *Ejemplos:* color del pelo, medio de transporte, carrera que se estudia, género, estado civil.
    * Variables ordinales: Las categorías de la variable pueden ordenarse de acuerdo con una escala objetiva.
    * *Ejemplos:* estrato socioeconómico, nivel académico, clasificación de triage en urgencias.

**tidyverse** es el paquete de R más utilizado y más eficiente para manipulación de datos. Vamos a instalarlo y a cargarlo en la sesión.

In [None]:
install.packages("tidyverse")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘textshaping’, ‘conflicted’, ‘jsonlite’, ‘ragg’, ‘stringr’


“installation of package ‘textshaping’ had non-zero exit status”
“installation of package ‘ragg’ had non-zero exit status”
“installation of package ‘tidyverse’ had non-zero exit status”


In [None]:
library(tidyverse)

“running command 'timedatectl' had status 1”
── [1mAttaching packages[22m ─────────────────────────────────────── tidyverse 1.3.1 ──

[32m✔[39m [34mggplot2[39m 3.4.1     [32m✔[39m [34mpurrr  [39m 1.0.1
[32m✔[39m [34mtibble [39m 3.2.1     [32m✔[39m [34mdplyr  [39m 1.1.1
[32m✔[39m [34mtidyr  [39m 1.3.0     [32m✔[39m [34mstringr[39m 1.5.0
[32m✔[39m [34mreadr  [39m 2.1.4     [32m✔[39m [34mforcats[39m 1.0.0

── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()



#### Lectura de datos

In [None]:
# https://drive.google.com/file/d/1WzOZNbNjUpdwWHDYD4ExAsJC5tCjS8C_/view?usp=sharing
system("gdown --id 1WzOZNbNjUpdwWHDYD4ExAsJC5tCjS8C_")

In [None]:
COVID_19 <- read.csv("COVID19_Colombia_Clase.csv", sep = ";")

A continuación, vamos a explorar cómo está leyendo R las columnas del conjunto de datos. Usamos la función glimpse de tidyverse.

In [None]:
COVID_19 %>% glimpse()

Rows: 1,000,000
Columns: 13
$ FECHA_DE_INICIO_DE_SINTOMAS [3m[90m<chr>[39m[23m NA, "2021-05-26", "2020-12-27", "2020-12-2…
$ FECHA_DIAGNOSTICO           [3m[90m<chr>[39m[23m "2021-04-08", "2021-05-29", "2021-01-06", …
$ MES                         [3m[90m<chr>[39m[23m "abril", "mayo", "enero", "diciembre", "ju…
$ ANO                         [3m[90m<int>[39m[23m 2021, 2021, 2021, 2020, 2021, 2021, 2021, …
$ DIAS                        [3m[90m<int>[39m[23m NA, 3, 10, 5, 2, 2, 8, 5, 1, 6, 7, 2, NA, …
$ CIUDAD                      [3m[90m<chr>[39m[23m "Sin dato", "Bogota", "Bogota", "Bogota", …
$ LOCALIDAD_ASIS              [3m[90m<chr>[39m[23m "Sin dato", "Usaquen", "Suba", "Los Martir…
$ EDAD                        [3m[90m<int>[39m[23m 26, 33, 15, 41, 17, 34, 57, 1, 22, 6, 25, …
$ SEXO                        [3m[90m<chr>[39m[23m "F", "M", "M", "F", "M", "F", "M", "F", "M…
$ FUENTE_O_TIPO_DE_CONTAGIO   [3m[90m<chr>[39m[23m "En estudio", "En estudio"

Note que no ejecutamos la función en la forma usual: **glimpse(COVID_19)** sino que usamos el operador *Pipe*: **COVID19 %>% glimpse()**.

El resultado es el mismo, pero la notación con **%>%** es más eficiente a la hora de manipular datos en R.

Analizando la salida de glimpse tenemos que las variables *AÑO*, *DIAS*, y *EDAD* están siendo interpretadas por R como numéricas (*int*) mientras que todas las demás son interpretadas como palabras (*chr*).

En la base, las variables *MES*, *CIUDAD*, *LOCALIDAD_ASIS*, *SEXO*, *FUENTE_O_TIPO_DE_CONTAGIO*, *UBICACION*, *ESTADO* y *SINTOMAS* son categóricas/cualitativas y, por tanto, R debe interpretarlas como factores y no como caracteres. Así, que debemos modificar su tipología.

Además, las variables *FECHA_INICIO_DE_SINTOMAS* y *FECHA_DIAGNOSTICO* al ser fechas no serán empleadas en nuestro posterior análisis descriptivo y, por tanto, vamos a retirarlas de la base de datos.

Ambos procedimientos los hacemos simultáneamente con las funciones *select* y *mutate* de **tidyverse**. (Note aquí la utilidad del operador %>% para encadenar instrucciones).

In [None]:
COVID <- COVID_19 %>%
  select(-c(1,2)) %>%
    mutate_if(is.character, as.factor)

Inspeccionemos de nuevo la tipología de los datos

In [None]:
COVID %>% glimpse()

Rows: 1,000,000
Columns: 11
$ MES                       [3m[90m<fct>[39m[23m abril, mayo, enero, diciembre, junio, mayo, …
$ ANO                       [3m[90m<int>[39m[23m 2021, 2021, 2021, 2020, 2021, 2021, 2021, 20…
$ DIAS                      [3m[90m<int>[39m[23m NA, 3, 10, 5, 2, 2, 8, 5, 1, 6, 7, 2, NA, 13…
$ CIUDAD                    [3m[90m<fct>[39m[23m Sin dato, Bogota, Bogota, Bogota, Bogota, Bo…
$ LOCALIDAD_ASIS            [3m[90m<fct>[39m[23m Sin dato, Usaquen, Suba, Los Martires, Teusa…
$ EDAD                      [3m[90m<int>[39m[23m 26, 33, 15, 41, 17, 34, 57, 1, 22, 6, 25, 14…
$ SEXO                      [3m[90m<fct>[39m[23m F, M, M, F, M, F, M, F, M, M, M, F, F, M, F,…
$ FUENTE_O_TIPO_DE_CONTAGIO [3m[90m<fct>[39m[23m En estudio, En estudio, Relacionado, En estu…
$ UBICACION                 [3m[90m<fct>[39m[23m Casa, Casa, Casa, Casa, Casa, Casa, Casa, Ca…
$ ESTADO                    [3m[90m<fct>[39m[23m Recuperado, Recuperado, Recu

¡Perfecto!

### Conteos

Con las funciones *distinct* y *count* podemos establecer, respectivamente, cuáles son los niveles/categorías de una variable cualitativa y cuántos registros hay en cada uno. Veamos:

In [None]:
COVID %>% distinct(UBICACION)

UBICACION
<fct>
Casa
Fallecido
Fallecido (No aplica)
Hospital
Hospital UCI


In [None]:
COVID %>% count(UBICACION)

UBICACION,n
<fct>,<int>
Casa,977656
Fallecido,19103
Fallecido (No aplica),2965
Hospital,135
Hospital UCI,141


Es decir, en la base de datos hay 135 personas reportadas en el hospital al momento de hacer la medición y 19103 que aparecen registradas como fallecidas.

### Filtros

Vamos ahora a filtrar la base de datos en dos bases separadas: una para las personas que presentaron síntomas y otra para los pacientes asintomáticos.

Para ello usaremos la función *filter* de **tidyverse** y la variable *SINTOMAS* de la base.

In [None]:
COVID_ASIN <- COVID %>% filter(SINTOMAS == "NO")
COVID_CON <- COVID %>% filter(SINTOMAS == "SI")