

<img src="https://user-images.githubusercontent.com/7065401/39117173-a433bf6a-46e6-11e8-8a40-b4d4d6422493.jpg"
    style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>

# Datos Faltantes!!!

In [3]:
# importamos las librerias
import numpy as np
import pandas as pd

¿Qué significa "datos faltantes"? ¿Qué es un valor faltante? Depende del origen de los datos y del contexto en el que se generaron. Por ejemplo, para una encuesta, un campo _'Salario'_ con un valor vacío, o un número 0, o un valor no válido (una cadena/string, por ejemplo) puede considerarse "datos faltantes". Estos conceptos están relacionados con los valores que Python considerara como "Falso":

In [8]:
valores_falsos = (0, False, None, '', [], {})

Para Python, todos los valores anteriores se consideran "False":

In [9]:
# any retorna True si algun elemento es True
any(valores_falsos)

False

Numpy tiene un valor especial para los números que "No son numeros"  (_NaN_: "No es un número")

In [10]:
np.nan

nan

El valor 'np.nan' es una especie de virus. Todo lo que toca se convierte en 'np.nan':

In [11]:
3 + np.nan

nan

In [12]:
a = np.array([1, 2, 3, np.nan, np.nan, 4])

In [13]:
a

array([ 1.,  2.,  3., nan, nan,  4.])

In [14]:
a.sum()

np.float64(nan)

In [15]:
a.mean()

np.float64(nan)

Esto es mejor que los valores 'None' normales, que en los ejemplos anteriores habrían generado una excepción:

In [16]:
3 + None

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

Para un array numerico, los valores `None` son reemplazados por `np.nan`:

In [17]:
a = np.array([1, 2, 3, None, None, 4], dtype='float')

In [18]:
a

array([ 1.,  2.,  3., nan, nan,  4.])

Como dijimos, np.nan es como un virus. Si tienes cualquier valor nan en una matriz e intentas realizar una operación en ella, obtendrás resultados inesperados:

In [19]:
a.sum()

np.float64(nan)

Numpy también admite un tipo "Infinito":

In [20]:
np.inf

inf

Que también se comporta como un virus:

In [21]:
3 + np.inf

inf

In [22]:
a = np.array([1, 2, 3, np.inf, np.nan, 4], dtype=float)

In [23]:
a

array([ 1.,  2.,  3., inf, nan,  4.])

In [24]:
a.sum()

np.float64(nan)

![separator1](https://i.imgur.com/ZUWYTii.png)

### Buscando valores `nan` or `inf`

Existen dos funciones: `np.isnan` and `np.isinf` que nos van a ayudar a encontrar estos valores en nuestros datos:

In [25]:
np.isnan(5)

np.False_

In [26]:
np.isnan(np.nan)

np.True_

In [27]:
np.isinf(np.inf)

np.True_

In [28]:
np.isinf(6)

np.False_

Y ambas busquedas al mismo tiempo `np.isfinite`.

In [30]:
np.isfinite(np.nan), np.isfinite(np.inf)

(np.False_, np.False_)

`np.isnan` y `np.isinf` toman arrays como argumentos, y retorna un array de booleanos con los resultados:

In [31]:
numeros = np.array([1, 2, 3, np.nan, np.inf, 4])

In [32]:
np.isnan(numeros)

array([False, False, False,  True, False, False])

In [33]:
np.isinf(np.array([1, 2, 3, np.nan, np.inf, 4]))

array([False, False, False, False,  True, False])

In [34]:
np.isfinite(numeros)

array([ True,  True,  True, False, False,  True])

_Nota: No es comun encontrar valores infinitos. A partir de ahora seguiremos trabajando solo con np.nan`_

![separator1](https://i.imgur.com/ZUWYTii.png)

### Veamos como filtrarlos

Siempre que intentes realizar una operación con una matriz en numpy y sepas que pueden faltar valores, deberás filtrarlos antes de continuar, para evitar la propagación del 'nan'. Usaremos una combinación de las matrices booleanas
 y 'np.isnan' para este propósito:

In [35]:
a = np.array([1, 2, 3, np.nan, np.nan, 4])

In [36]:
a

array([ 1.,  2.,  3., nan, nan,  4.])

In [37]:
np.isnan(a)

array([False, False, False,  True,  True, False])

In [39]:
a[~np.isnan(a)].sum()

np.float64(10.0)

Que es equivalente a:

In [40]:
a[np.isfinite(a)].sum()

np.float64(10.0)

Y con ese resultado, ya se puede realizar toda la operación:

In [None]:
# sum

In [None]:
# mean

![separator2](https://i.imgur.com/4gX5WFr.png)

In [41]:
# negar en python
a = True
a

True

In [43]:
a = not a

In [44]:
a

False

In [46]:
!pwd

/content


In [48]:
a

False

In [49]:
a = !a

In [50]:
a

['/bin/bash: line 1: a: command not found']