#### Trabajando con valores ausentes o nulos

Ya hemos explicado en los ejemplos anteriores cómo Pandas utiliza el elemento especial `NaN` para indicar que cierto valor está ausente o bien que no ha podido realizarse un cálculo.

Al trabajar con datos en problemas reales, es normal (y casi inevitable) que aparezcan huecos en los datos, valores no definidos o no válidos. Pandas incluye algunas funcionalidades muy útiles para lidiar con estos casos.

Para empezar, podemos saber qué elementos son nulos utilizando `isnull()` (o su complementario, `notnull()`).

In [None]:
# Teníamos estas dos Series
fruta_kg = Series({'peras': 2, 'manzanas': 1, 'naranjas': 3})
fruta_precio = Series({'manzanas': 1.95, 'naranjas': 1.90, 'peras': 1.50, 'uva': 2.60})

# Multiplicamos...
fruta_res = fruta_kg * fruta_precio
# y vemos qué elementos son nulos
fruta_res.isnull()

manzanas    False
naranjas    False
peras       False
uva          True
dtype: bool

In [None]:
# O al revés, cuáles son válidos
fruta_res.notnull()

manzanas     True
naranjas     True
peras        True
uva         False
dtype: bool

En ocasiones, nos puede convenir quitarnos de en medio los valores nulos para que no nos molesten mientras trabajamos. Para ello usamos `dropna()`.

In [None]:
fruta_res.dropna()

manzanas    1.95
naranjas    5.70
peras       3.00
dtype: float64

Si utilizamos `dropna()` con un DataFrame, podemos indicar si queremos descartar las filas con algún `NaN` (comportamiento por defecto), o si queremos descartar las columnas con algún `NaN`.

In [None]:
# Si trabajamos con DataFrames
df_cuenta = DataFrame({
                "tienda_1" : Series({"peras" : 2.25, "naranjas" : 5.70}),
                "tienda_2" : Series({"peras" : 2.40, "naranjas" : 5.85, "uva" : 2.60}),
                "tienda_3" : Series({"manzanas" : 1.70, "peras" : 2.30, "naranjas" : 5.70, "uva" : 3})
})

# podemos descartar las filas con NAs
df_cuenta.dropna()

Unnamed: 0,tienda_1,tienda_2,tienda_3
naranjas,5.7,5.85,5.7
peras,2.25,2.4,2.3


In [None]:
# o bien las columnas con NAs
df_cuenta.dropna(axis=1)

Unnamed: 0,tienda_3
manzanas,1.7
naranjas,5.7
peras,2.3
uva,3.0


Claro que también podemos preferir mantener todos los elementos, pero reemplazar los NA por algún otro valor (p.ej. por un cero). Eso lo hacemos con `fillna()`.

In [None]:
# Reemplazar NaN por otro valor (en este caso, con ceros)
fruta_res.fillna(0)

manzanas    1.95
naranjas    5.70
peras       3.00
uva         0.00
dtype: float64

De hecho, esta operación es tan común que Pandas incluye un argumento `fill_value` en sus métodos aritméticos para poder sustituir los `NaN` del resultado con el valor que le indiquemos.

In [None]:
# Si usamos el método aritmético (`mul`) en lugar del operador (`*`)
# podemos utilizar el argumento `fill_value` directamente
fruta_kg.mul(fruta_precio, fill_value=0)

manzanas    1.95
naranjas    5.70
peras       3.00
uva         0.00
dtype: float64