

<img src="https://user-images.githubusercontent.com/7065401/39117173-a433bf6a-46e6-11e8-8a40-b4d4d6422493.jpg"
    style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>

# Datos Faltantes!!!

In [None]:
import numpy as np
import pandas as pd

¿Qué significa "datos faltantes"? ¿Qué es un valor faltante? Depende del origen de los datos y del contexto en el que se generaron. Por ejemplo, para una encuesta, un campo _'Salario'_ con un valor vacío, o un número 0, o un valor no válido (una cadena/string, por ejemplo) puede considerarse "datos faltantes". Estos conceptos están relacionados con los valores que Python considerara como "Falso":

In [None]:
valores_falsos = (0, False, None, '', [], {})

Para Python, todos los valores anteriores se consideran "False":

In [None]:
# any retorna True si algun elemento es True
any(valores_falsos)

Numpy tiene un valor especial para los números que son "No son numeros"  (_NaN_: "No es un número")

In [None]:
np.nan

El valor 'np.nan' es una especie de virus. Todo lo que toca se convierte en 'np.nan':

In [None]:
3 + np.nan

In [None]:
a = np.array([1, 2, 3, np.nan, np.nan, 4])

In [None]:
a

In [None]:
a.sum()

In [None]:
a.mean()

Esto es mejor que los valores 'None' normales, que en los ejemplos anteriores habrían generado una excepción:

In [17]:
3 + None

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

Para un array numerico, los valores `None` son reemplazados por `np.nan`:

In [18]:
a = np.array([1, 2, 3, np.nan, None, 4], dtype='float')

In [19]:
a

array([ 1.,  2.,  3., nan, nan,  4.])

Como dijimos, np.nan es como un virus. Si tienes cualquier valor nan en una matriz e intentas realizar una operación en ella, obtendrás resultados inesperados:

In [None]:
a = np.array([1, 2, 3, np.nan, np.nan, 4])

In [None]:
a.mean()

In [None]:
a.sum()

Numpy también admite un tipo "Infinito":

In [None]:
np.inf

Que también se comporta como un virus:

In [20]:
3 + np.inf

inf

In [21]:
np.inf / 3

inf

In [22]:
np.inf / np.inf

nan

In [23]:
b = np.array([1, 2, 3, np.inf, np.nan, 4], dtype=float)

In [24]:
b.sum()

nan

![separator1](https://i.imgur.com/ZUWYTii.png)

### Buscando valores `nan` or `inf`

Existen dos funciones: `np.isnan` and `np.isinf` que nos van a ayudar a encontrar estos valores en nuestros datos:

In [25]:
np.isnan(5)

False

In [26]:
np.isnan(np.nan)

True

In [27]:
np.isinf(np.inf)

True

Y ambas busquedas al mismo tiempo `np.isfinite`.

In [28]:
np.isfinite(np.nan), np.isfinite(np.inf)

(False, False)

`np.isnan` y `np.isinf` toman arrays como argumentos, y retorna un array de booleanos con los resultados:

In [29]:
numeros = np.array([1, 2, 3, np.nan, np.inf, 4])

In [30]:
np.isnan(numeros)

array([False, False, False,  True, False, False])

In [31]:
np.isinf(np.array([1, 2, 3, np.nan, np.inf, 4]))

array([False, False, False, False,  True, False])

In [32]:
np.isfinite(np.array([1, 2, 3, np.nan, np.inf, 4]))

array([ True,  True,  True, False, False,  True])

_Nota: No es comun encontrar valores infinitos. A partir de ahora seguiremos trabajando solo con np.nan`_

![separator1](https://i.imgur.com/ZUWYTii.png)

### Veamos como filtrarlos

Siempre que intentes realizar una operación con una matriz en numpy y sepas que pueden faltar valores, deberás filtrarlos antes de continuar, para evitar la propagación del 'nan'. Usaremos una combinación de las matrices booleanas
 y 'np.isnan' para este propósito:

In [33]:
a = np.array([1, 2, 3, np.nan, np.nan, 4])

In [35]:
np.isnan(a)

array([False, False, False,  True,  True, False])

In [37]:
a[~np.isnan(a)].sum()

10.0

Que es equivalente a:

In [None]:
a[np.isfinite(a)]

Y con ese resultado, ya se puede realizar toda la operación:

In [None]:
a[np.isfinite(a)].sum()

In [None]:
a[np.isfinite(a)].mean()

![separator2](https://i.imgur.com/4gX5WFr.png)