# Tratamiento de datos ausentes

La existencia de datos ausentes, también conocidos como missing values y representados habitualmente como NA en R, es una casuística habitual en muchas bases de datos. La mayoría de las veces se deben a problemas durante la recopilación de datos, por ejemplo, la incapacidad para obtener una cierta medida o respuesta, o fallos en la transcripción.

En los casos como el nuestro, al leer datos de una fuente externa, un archivo CSV, los datos ausentes pueden aparecer como comillas vacías, estar representadas por un cierto valor clave o, sencillamente, estar ausentes. En el Lenguaje R las funciones como read.table() permiten indicar qué casos han de ser interpretados como valores ausentes y, en consecuencia, aparecer como NA en el data frame.

Tratar con datasets en los que existen datos ausentes puede generar diversos problemas. Por dicha razón en este paso debemos determinar el trato que se le debe dar, a fin de evitar los inconvenientes en el desarrollo del análisis y las conclusiones que generemos


## Problemática 

La presencia de datos ausentes dificulta la mayoría de operaciones matemáticas y de análisis. Se pueden encontrar problemas como:

-  Suma de NA a cualquier número
-  ¿Es NA menor o mayor que un cierto valor? 
- ¿Cómo se calcula la media de una lista de valores en los que aparece NA? 

en consecuencia, el resultado de todos ellos es también un  NA.

El siguiente ejercicio genera un conjunto de valores que, hipotéticamente, se han
obtenido de una encuesta. Cinco de los encuestados no han respondido, por lo que el valor asociado es NA. 



In [1]:
# Ejercicio : Algunas operaciones con datos ausentes

# Número de horas trabajadas semanalmente en una encuesta 
valores <- as.integer(runif(50,1,10)) 
valores
indices <- as.integer(runif(5,1,50)) # Sin respuesta 5 casos
indices
valores[indices] <- NA 
valores

In [2]:
valores > 5 # Los valores NA no pueden ser comparados

In [3]:
valores + 10 # Ni se puede operar con ellos

In [4]:
mean(valores)

## Detectar existencia de valores ausentes 

Antes de operar con un conjunto de datos, por tanto, deberíamos verificar si existen
valores ausentes y, en caso afirmativo, planificar cómo se abordár  su tratamiento. Con este fin podemos usar funciones como 
is.na() y na.fail(), entre otras.

Sint´axis 5.1 is.na(objeto)
Devuelve TRUE si el objeto es un valor ausente o FALSE en caso contrario. Si el objeto es compuesto, como un vector, una matriz o data frame, la comprobación se efect´ua elemento a elemento.

Sint´axis 5.2 na.fail(objeto)
En caso de que el objeto facilitado como argumento contenga alg´un valor
ausente, esta funci´on genera un error y detiene la ejecuci´on del gui´on o programa.

En caso de que solamente queramos saber si un objeto contiene valores ausentes o
no, sin obtener un vector l´ogico para cada elemento, podemos combinar la salida de is.na() mediante la funci´on any(), tal y como se muestra en el siguente ejercicio:

In [5]:
# Ejercicio 5.2 Detectar la presencia de valores nulos antes de operar 
is.na(valores) 

In [6]:
any(is.na(valores))

In [7]:
na.fail(valores)

ERROR: Error in na.fail.default(valores): missing values in object


# Eliminar datos ausentes 
Dependiendo de cómo vayamos a operar sobre los datos, es posible que antes de trabajar con ellos prefiramos eliminar los datos ausentes para evitar problemas como los antes expuestos. Con este fin recurriremos a la función na.omit(): 

Sintáxis 5.3 na.omit(objeto) 
Eliminará del objeto entregado como argumento cualquier dato ausente que exista, devolviendo un objeto del mismo tipo sin dichos valores. Los indices que ocupaban los datos ausentes se facilitan en un atributo asociado al objeto y llamado na.action.

Otra posibilidad consiste en utilizar la función complete.cases(). Esta resulta
especialmente útil al trabajar con data frames, ya que verifica que ninguna de las columnas de cada fila contenga valores ausentes. El valor devuelto es un vector de lógicos, con TRUE en las filas completas (sin valores ausentes) y FALSE en las demás. Dicho vector puede ser utiliza para seleccionar las filas que interesen. 

Sint´axis 5.4 complete.cases(objeto) Devuelve un vector de valores l´ogicos indicando cu´ales de las filas del objeto
entregado como par´ametro est´an completas, no conteniendo ning´un valor ausente.

El dataset integrado airquality contiene 42 filas con valores ausentes de un total
de 153 observaciones. En el siguiente ejercicio se muestra cómo obtener únicamente
las filas sin valores nulos, ya sea utilizando na.omit() o complete.cases():



In [8]:
# Eliminaci´on de valores ausentes 
str(airquality)

'data.frame':	153 obs. of  6 variables:
 $ Ozone  : int  41 36 12 18 NA 28 23 19 8 NA ...
 $ Solar.R: int  190 118 149 313 NA NA 299 99 19 194 ...
 $ Wind   : num  7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
 $ Temp   : int  67 72 74 62 56 66 65 59 61 69 ...
 $ Month  : int  5 5 5 5 5 5 5 5 5 5 ...
 $ Day    : int  1 2 3 4 5 6 7 8 9 10 ...


In [9]:
nrow(airquality)

In [10]:
nrow(na.omit(airquality))

In [11]:
nrow(airquality[complete.cases(airquality),])

## Operar en presencia de datos ausentes 

Algunas funciones R están preparadas para trabajar en presencia de datos ausentes,
aceptando un par´ametro que determina c´omo han de ser tratados. Un par de ejemplos de este caso son las funciones mean() y lm(), usadas para obtener el valor promedio (media aritm´etica) y ajustar un modelo lineal. La primera acepta el par´ametro na.rm, de tipo l´ogico, con el que se indica si los valores ausentes deben ser ignorados durante el c´alculo o no. La segunda tiene un par´ametro llamado na.action que, entre otros, acepta el valor omit, con exactamente el mismo resultado. 

En ocasiones, en lugar de eliminar filas completas de datos de un data frame lo que se hace es sustituir los valores ausentes por el valor promedio de la columna en la que aparece, o bien con el valor m´as frecuente o bien alg´un valor especial. En el siguiente ejercicio se pone en práctica la primera t´ecnica:

In [12]:
# Ejercicio 5.4 Operar en presencia de valores ausentes
promedio <- mean(valores, na.rm = TRUE) 
promedio 

valores[is.na(valores)] <- promedio 
mean(valores) 

lm(Solar.R ~ Temp, airquality, na.action=na.omit)


Call:
lm(formula = Solar.R ~ Temp, data = airquality, na.action = na.omit)

Coefficients:
(Intercept)         Temp  
    -24.431        2.693  


## Referencias

Charte, F. (2014). Análisis exploratorio y visualización de datos con R. 147. Retrieved from http://www.fcharte.com/libros/ExploraVisualizaConR-Fcharte.pdf
