# Manejo de datos nulos con `Pandas`


In [1]:
import pandas as pd
import numpy as np

Creemos un diccionario:

In [3]:
diccionario = {
    'Col1': [1, 2, 3, np.nan],
    'Col2': [4, np.nan, 6, 7],
    'Col3': ['A', 'B', 'C', None]
}
diccionario

{'Col1': [1, 2, 3, nan], 'Col2': [4, nan, 6, 7], 'Col3': ['A', 'B', 'C', None]}

Ahora creemos un marco de datos pasado en el diccionario `diccionario`:

In [4]:
datos = pd.DataFrame(diccionario)
datos

Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,A
1,2.0,,B
2,3.0,6.0,C
3,,7.0,


Podemos obtener una tabla booleana donde nos indique dónde hay `NaN`, que es como se identifican los datos faltantes para números, o dónde hay `None`, que es la forma de identificar datos faltantes para categorías. Veámoslo:

In [5]:
datos.isnull()

Unnamed: 0,Col1,Col2,Col3
0,False,False,False
1,False,True,False
2,False,False,False
3,True,False,True


Podemos observalos como ceros o uno multiplicando la declaración anterior por uno, es decir:

In [6]:
datos.isnull() * 1

Unnamed: 0,Col1,Col2,Col3
0,0,0,0
1,0,1,0
2,0,0,0
3,1,0,1


Ahora, si queremos reemplazar todos los valores nulos por alguna palabra particular, como `Missing`:

In [7]:
datos.fillna('Missing')

Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,A
1,2.0,Missing,B
2,3.0,6.0,C
3,Missing,7.0,Missing


Vale la pena aclarar que, como no se indicó el parámetro `inplace = True`, se perderá este cambio.

También puedo llenar los valores nulos con la media de cada una de las variables cuantitativas, y por tanto, no se modificarán las variables categóricas. Veámoslo:

In [9]:
datos.fillna(datos.mean())

  datos.fillna(datos.mean())


Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,A
1,2.0,5.666667,B
2,3.0,6.0,C
3,2.0,7.0,


Otra forma de llenar valores faltantes es usando `interpolate()`. Esto lo realiza asumiendo que cada uno de los valores de una columna es una serie.

In [10]:
datos.fillna(datos.interpolate())

Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,A
1,2.0,5.0,B
2,3.0,6.0,C
3,3.0,7.0,


O bien, podría indicar que solo se conserven las filas que tienen todas sus observaciones o, en otras palabras, que se desechen las filas con al menos un valor faltante:

In [11]:
datos.dropna()

Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,A
2,3.0,6.0,C
