## Gestión de valores nulos
Pandas ofrece diferentes funciones y métodos para gestionar los NaN ("Not a Number")
* 1. Función isnull
* 2. Método dropna
* 3. Método fillna

### 1. Función isnull
Devuelve una estructura con las mismas dimensiones que la que se cede como argumento sustituyendo cada valor por el booleano True si el correspondiente elemento es un valor nulo.

In [2]:
import pandas as pd
import numpy as np

In [3]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [4]:
pd.isnull(s)#forma 1

0    False
1     True
2    False
3     True
4    False
dtype: bool

In [5]:
s.isnull()#forma 2

0    False
1     True
2    False
3     True
4    False
dtype: bool

In [6]:
#En un dataframe
ventas = pd.DataFrame({"A":[3,np.nan,1],
                      "B":[1, 5, np.nan],
                      "C":[3,7,2],
                      "D":[np.nan,2,np.nan]},
                     index = ["Enero","Febrero","Marzo"])
ventas

Unnamed: 0,A,B,C,D
Enero,3.0,1.0,3,
Febrero,,5.0,7,2.0
Marzo,1.0,,2,


In [7]:
ventas.isnull()

Unnamed: 0,A,B,C,D
Enero,False,False,False,True
Febrero,True,False,False,False
Marzo,False,True,False,True


### 2. Método dropna
Filtra los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

In [8]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [9]:
s.dropna()

0    1.0
2    7.0
4    3.0
dtype: float64

In [10]:
ventas

Unnamed: 0,A,B,C,D
Enero,3.0,1.0,3,
Febrero,,5.0,7,2.0
Marzo,1.0,,2,


En un dataframe el método dropna lo que hace es eliminar filas que contengan valores NaN. Con respecto al ejemplo superior como todas las filas tienen un NaN entonces se quedaría vacío.

Podemos aplicarlo a las columnas (axis = 1)

In [11]:
ventas.dropna()

Unnamed: 0,A,B,C,D


In [13]:
ventas2 = pd.DataFrame({"A":[3,3,1],
                      "B":[1, 5, np.nan],
                      "C":[3,7,2],
                      "D":[np.nan,2,np.nan]},
                     index = ["Enero","Febrero","Marzo"])
ventas2

Unnamed: 0,A,B,C,D
Enero,3,1.0,3,
Febrero,3,5.0,7,2.0
Marzo,1,,2,


In [14]:
ventas2.dropna()

Unnamed: 0,A,B,C,D
Febrero,3,5.0,7,2.0


In [15]:
ventas.dropna(how = "all") #no elimina nada porque en ninguna fila o columna todos son nulos.

Unnamed: 0,A,B,C,D
Enero,3.0,1.0,3,
Febrero,,5.0,7,2.0
Marzo,1.0,,2,


### 3. Método fillna
Permite sustituir los valores nulos de una estructura pandas por otro valor según ciertos criterios: pueden sustituirse por un valor concreto o bien puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

In [16]:
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [17]:
s.fillna(0)

0    1.0
1    0.0
2    7.0
3    0.0
4    3.0
dtype: float64

In [18]:
s.fillna(method = "ffill")

0    1.0
1    1.0
2    7.0
3    7.0
4    3.0
dtype: float64

In [19]:
s.fillna(method ="bfill")

0    1.0
1    7.0
2    7.0
3    3.0
4    3.0
dtype: float64

In [20]:
ventas

Unnamed: 0,A,B,C,D
Enero,3.0,1.0,3,
Febrero,,5.0,7,2.0
Marzo,1.0,,2,


In [21]:
ventas.fillna(0)

Unnamed: 0,A,B,C,D
Enero,3.0,1.0,3,0.0
Febrero,0.0,5.0,7,2.0
Marzo,1.0,0.0,2,0.0


In [22]:
ventas.fillna(method = "ffill")#method "bfill"

Unnamed: 0,A,B,C,D
Enero,3.0,1.0,3,
Febrero,3.0,5.0,7,2.0
Marzo,1.0,5.0,2,2.0


Como vemos el valor de Enero-D no se rellena porque no tiene valor anterior en la columna, por tanto, sería interesante después de aplicar la lógica de relleno aplicar un valor por defecto para aquellos valores que hayan quedado sin sustituir.

In [23]:
ventas.fillna(method = "ffill").fillna(0)

Unnamed: 0,A,B,C,D
Enero,3.0,1.0,3,0.0
Febrero,3.0,5.0,7,2.0
Marzo,1.0,5.0,2,2.0
