# Práctica: Visualización de datos ausentes

Usaremos la librería `naniar` para la visualización de datos ausentes. En esta práctica:

1. Nos familiarizaremos con el conjunto de datos `jovenes.rdata`, que también utilizaremos en la práctica de imputación. 
2. Aprenderemos a:
    
    * Obtener una **visión general de las ausencias en los datos**. 
    * Buscar, de forma visual, **patrones en las ausencias en los datos**: grupos de variables con ausencias simultáneas, diferencias en las ausencias en distintos grupos de la muestra, etc.

In [None]:
# install.packages('naniar')

library(naniar)

## Los datos: respuestas cuestionario jóvenes

Para realizar esta práctica se usará el fichero de datos `jovenes.rdata`, que contiene las respuestas de más de 600 jóvenes de Gijón al cuestionario `cuestionario.pdf`.

In [None]:
load("jovenes.rdata")  # carga los datos en formato .rdata
ls()                   # para comprobar el nombre del objeto cargado 

In [None]:
head(data)
dim(data) # dimensión del dataframe

**Nota**: la función `vis_dat` de la librería `visdat` puede ser interesante para componernos una primera "imagen" del conjunto de datos con el que vamos a trabajar: 

In [None]:
library(visdat)

vis_dat(data)

## Mapa de calor de ausencias

La función `vis_miss` proporciona una visualización específica de la cantidad de datos faltantes. Es un mapa de calor donde cada fila es una observación y cada columna una variable. Las celdas coloreadas en negro representan registros ausentes.
¿Qué se observa?

In [None]:
options(repr.plot.width=12, repr.plot.height=8) # para cambiar el tamaño de gráfico :D
vis_miss(data)

## Ranking de columnas según las ausencias

La función `gg_miss_var` proporciona un "diagrama de barras" con el número de datos ausentes por cada variable. Además, este diagrama de barras aparece ordenado de manera que en la parte superior aparecen las variables con mayor cantidad de ausencia:

In [None]:
options(repr.plot.width=10, repr.plot.height=6) # para cambiar el tamaño de gráfico :D
gg_miss_var(data)

En ocasiones, puede ser preferible observar el número de ausencias de cada variable en términos relativos en lugar de en términos absolutos. Para ello, podemos utilizar el argumento `show_pct`:

In [None]:
gg_miss_var(data, show_pct = TRUE)  # eje x en %

Esta función también puede ayudar a visualizar diferencias en las ausencias entre grupos dentro de la muestra: permite hacer una división por niveles de otra variable del conjunto de datos. 

In [None]:
gg_miss_var(data, facet = P2)  # para dividir en función de los valores de P2.

## Ausencias por registro (filas)

`gg_miss_case` proporciona de nuevo un diagrama de barras, pero esta vez para ilustrar el número de ausencias en cada fila del conjunto de datos. Es decir, se pueden ver cuántas preguntas han dejado sin responder cada encuestado.  

Esta información también puede obtenerse en una tabla con la función `miss_case_table`.

In [None]:
gg_miss_case(data)
miss_case_table(data)

## Interacciones entre variables

Para comprobar si las ausencias se producen repetidamente en un grupo de variables de forma silmultánea, es posible utilizar la función `gg_miss_upset`. Por defecto pinta la combinación de 5 variables que presentan mayor número de ausencias de forma simultánea:

In [None]:
options(repr.plot.width=10, repr.plot.height=5)
gg_miss_upset(data)

Si se quiere aumentar el número de combinaciones se debe utilizar el argumento `nsets`:

In [None]:
gg_miss_upset(data, nsets = 10)

## Ausencias agrupadas

La función `gg_miss_fct` pinta un mapa de calor para mostrar ausencias en función de los niveles de una variable categórica. Puede servir de ayuda si con la división en `gg_miss_var` tenemos alguna sospecha de que haya diferencias en las ausencias en grupos del conjunto.

In [None]:
options(repr.plot.width=10, repr.plot.height=7)
gg_miss_fct(data, fct = P2)

## Ausencias y ggplot

Los gráficos de `ggplot2` ignoran las ausencias en los datos. La librería `naniar` proporciona una función que se puede incorporar como una "capa" más en los gráficos de `ggplot2`: la función `geom_miss_point`.  

In [None]:
ggplot(data, aes(x = P12, y = P1)) + geom_point() + geom_miss_point()  # eje x: horas de ocio, eje y: edad