# Tratamiento de Datos Faltantes con NumPy

La **limpieza de datos** es un tema que ya hemos abordado en los días de Pandas, por lo que no es necesario volver a destacar su importancia. Uno de los aspectos más delicados de la limpieza de datos, como hemos visto, es cómo **tratar a los datos faltantes**.

Volveremos a retomar ese tema, pero esta vez para aprender cómo lo hacemos **con NumPy**, con los métodos que esta librería dispone para **manejar**, **identificar** y **sustituir datos faltantes**.

En NumPy, los datos faltantes suelen representarse como `np.nan` (que significa *Not a Number*). Te quiero mostrar cómo crearíamos un dato faltante en un array, por si quisieramos reservar un lugar para un elemento faltante pero que no podemos representar con cero.

In [1]:
import numpy as np

In [2]:
array = np.array([1, 2, np.nan, 4, 5])
array

array([ 1.,  2., nan,  4.,  5.])

Para comprobar la presencia de `NaN` en un array, lo podemos hacer usando la función `np.isnan()`.

In [3]:
np.isnan(array)

array([False, False,  True, False, False])

Ahora hablemos cobre cómo podemos manejar a los elementos `NaN` en cálculos. Supongamos que quiero conocer el **promedio** de los números del array, usando la función `mean()`.

In [4]:
np.mean(array)

nan

Las operaciones matemáticas estándar aplicadas sobre arrays que contienen elementos `NaN`, van a terminar devolviendo `NaN`.

Pero aquí viene la magie de NumPy, que habiendo previsto esto, también nos ofrece funciones que ignoran `NaN`.

In [5]:
np.nanmean(array)

3.0

Como existen varias funciones que ignoran `NaN`, y no tiene sentido que las veamos una por una, en [este otro cuaderno](Listado%20de%20Funciones%20de%20NumPy%20que%20Ignoran%20Datos%20Faltantes.ipynb) te dejo una lista de las más comunes.

Una estrategia común en el manejo de datos faltantes, es sustituir `NaN` por otro valor, como el cero, o el promedio o la mediana del array. Esto lo podemos hacer con el método `where()`, que en inglés significa *"donde"*, y que es una especie de mezcla de loop for y de estructura de control if, porque lo que hace es pasar por cada elemento del array, y dice *"allí donde se cumple esta condición haz esto, y allí donde no se cumple la condición, haz esto otro"*.

Entonces si queremos reemplazar los `NaN` por `cero`:

In [6]:
array_con_0 = np.where(np.isnan(array), 0, array)
array_con_0

array([1., 2., 0., 4., 5.])

Si en vez de `0`, queremos reemplazar nuestros `NaN` con el **promedio** de todos los números del array, podemos hacerlo de esta manera:

In [7]:
promedio = np.nanmean(array)

In [8]:
array_con_promedio = np.where(np.isnan(array), promedio, array)
array_con_promedio

array([1., 2., 3., 4., 5.])

Y lo último que quiero que veamos en relación al manejo de datos faltantes, es cómo **eliminar los valores no válidos**, porque muchas veces, puede que sea eso lo que queramos hacer en arrays que contienen `NaN`.

Para hacer esto, técnicamente vamos a estar creando un nuevo array donde esos elementos ya no van a estar. Es decir que básicamente los vamos a **filtrar**.

Primero te mostraré cómo creamos un nuevo array que solo contiene los valores `NaN` usando el método `isnan()`:

In [9]:
array_filtrado = array[np.isnan(array)]
array_filtrado

array([nan])

Si hago esto, estoy filtrando para que me queden solo los valores `NaN`, pero si antes coloco el símbolo de tilde invertida (**~**), logro que me quede exactamente lo contrario: los valores que no son `NaN`.

In [10]:
array_filtrado = array[~np.isnan(array)]
array_filtrado

array([1., 2., 4., 5.])

En conclusión, NumPy nos proporciona suficientes y muy eficientes herramientas para identificar, manejar y sustituir valores `NaN`, lo que nos permite mantener la integridad de nuestros análisis.