# Datos faltantes

En pandas, los datos faltantes se representan como NaN (Not a Number), y son un valor propio de Numpy, correspondiente a np.nan.

En el dia a dia casi SIEMPRE encontramos datos faltantes, por eso es muy importante saber como tratarlo, debido a que cuando entrenemos ciertos modelos de machine learning, la presencia de datos vacios no es aceptada.

Veamos algunos metodos para lidiar con ellos cuando se nos presenten

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [3]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


#### dropna()

Metodo para eliminar filas y/o columnas que contengan valores nulos.

Nos devuelve el df con sin los elementos que se eliminaron.

In [4]:
# metodo para eliminar todas las filas que tengan algun valor NaN
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [6]:
# lo mismo para las columnas
df.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [None]:
# por defecto el metodo dropna, va a eliminar la fila o columna que tenga al menos un valor Nan
# esto puede cambiarse

In [7]:
df.dropna(how="all")

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [11]:
# thresh indica la cantidad minima de valores no nulos requerida para conservar la fila o culumna
df.dropna(thresh=1)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


#### isna() y notna()

Metodos para determinar si cada valor es nulo o no

In [12]:
df.isna()

Unnamed: 0,A,B,C
0,False,False,False
1,False,True,False
2,True,True,False


In [13]:
df.notna()

Unnamed: 0,A,B,C
0,True,True,True
1,True,False,True
2,False,False,True


In [14]:
# incluso podemos chequear sobre una columna
df["A"].isna()

0    False
1    False
2     True
Name: A, dtype: bool

In [15]:
df["A"].isna().sum()

1

In [16]:
# podemos sumar para contar los valores nulos que tenemos
df.isna().sum()

A    1
B    2
C    0
dtype: int64

In [17]:
df.isna().sum().sum()

3

In [18]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [None]:
# podemos usar estos metodos como filtro


In [19]:
df["A"].isna()

0    False
1    False
2     True
Name: A, dtype: bool

In [20]:
df[df["A"].isna()]

Unnamed: 0,A,B,C
2,,,3


#### fillna()

Metodo para rellenar valores nulos con otro valor

In [21]:
df.fillna(5)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,5.0,5.0,3


In [22]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [23]:
# puedo especificar la columna a rellenar
df["B"].fillna("relleno b")

0            5
1    relleno b
2    relleno b
Name: B, dtype: object

In [24]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [None]:
#df["B"] = df["B"].fillna("relleno b")

In [25]:
# puedo rellenar los nulos con el promedio de la columna 

df.mean()

A    1.5
B    5.0
C    2.0
dtype: float64

In [26]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [27]:
df["A"].fillna(df["A"].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

In [None]:
# mean() no tiene en cuenta los valores nulos para sacar el promedio
