# Manejando valores vacíos o NaN

In [1]:
import pandas as pd
import numpy as np
from numpy import nan as NA #con esto me ahorro tener que poner np.nan y directamente pongo NA

In [4]:
string_data= pd.Series(["aardvark", "artichoke", np.nan, "avocado"])

print(string_data)

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object


In [8]:
data1= string_data.isnull()

print(data1)

0    False
1    False
2     True
3    False
dtype: bool


## Eliminando valores NaN

Para indicarle la columna en la cual debe mirar para eliminar o no la fila:

In [1]:
df1= df.dropna(subset=['name', 'toy'])

NameError: name 'df' is not defined

Si bien se puede usar la función pandas.isnull y boolean indexing, la función dropna puede ser de utilidad:

In [11]:
data2= pd.Series([1, np.nan, 3.5, np.nan, 7])

print(data2)

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64


In [14]:
data3= data.dropna()

print(data3)

0    1.0
2    3.5
4    7.0
dtype: float64


Si se trata de tablas del estilo DataFrame, el dropna funciona de la siguiente manera. Directamente elimina toda fila en la cual aparezca un nan. Puede que esto no sea lo que queremos:

In [3]:
data4= pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3.]])

print(data4)

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0


In [19]:
data5= data4.dropna()

print(data5)

     0    1    2
0  1.0  6.5  3.0


Si agrefamos el comando how= "all" lo que hace es eliminar aquellas filas en las cuales todos los valores son nan (en el ejemplo, sólo la fila 2):

In [21]:
data6= data4.dropna(how= "all")

print(data6)

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0


Agregamos una columna con todos valores nan:

In [23]:
data4[4]= NA

print(data4)

     0    1    2   4
0  1.0  6.5  3.0 NaN
1  1.0  NaN  NaN NaN
2  NaN  NaN  NaN NaN
3  NaN  6.5  3.0 NaN


Eliminamos COLUMNAS en las cuales todos los valores son vacíos:

In [26]:
data7= data4.dropna(axis= 1, how= "all")  #Recordar que el axis= 1 indica columnas, 0 filas

print(data7)

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0


También podemos dejar sólo aquellas filas que tienen un cierto número de observaciones. Es decir, en toda la fila tiene por ejemplo, un mínimo de 2 obs. Entonces tiene que haber al menos dos columnas con número en la fila, si no llega, entonces la borra a la fila:

In [6]:
data8= pd.DataFrame(np.random.rand(7,3))

data8.iloc[:4, 1]= NA

data8.iloc[:2, 2]= NA

print(data8)

          0         1         2
0  0.912617       NaN       NaN
1  0.032959       NaN       NaN
2  0.768436       NaN  0.239604
3  0.184572       NaN  0.040611
4  0.153707  0.214747  0.241338
5  0.749207  0.022983  0.673287
6  0.650414  0.719527  0.908032


In [32]:
data9= data8.dropna()

print(data9)

          0         1         2
4  0.740376  0.421561  0.547772
5  0.315989  0.973295  0.878467
6  0.873333  0.808625  0.734605


In [33]:
data10= data8.dropna(thresh= 2)

print(data10)

          0         1         2
2  0.667747       NaN  0.866863
3  0.122443       NaN  0.732763
4  0.740376  0.421561  0.547772
5  0.315989  0.973295  0.878467
6  0.873333  0.808625  0.734605


## LLenando valores vacíos

El método más utilizado para esto es el "fillna", reemplaza el nan por el valor que le indiquemos:

In [7]:
print(data8)

          0         1         2
0  0.912617       NaN       NaN
1  0.032959       NaN       NaN
2  0.768436       NaN  0.239604
3  0.184572       NaN  0.040611
4  0.153707  0.214747  0.241338
5  0.749207  0.022983  0.673287
6  0.650414  0.719527  0.908032


In [9]:
data11= data8.fillna(0)

print(data11)

          0         1         2
0  0.912617  0.000000  0.000000
1  0.032959  0.000000  0.000000
2  0.768436  0.000000  0.239604
3  0.184572  0.000000  0.040611
4  0.153707  0.214747  0.241338
5  0.749207  0.022983  0.673287
6  0.650414  0.719527  0.908032


Combinando fillna con diccionarios, podemos elegir de qué columna reemplazamos valores:

In [10]:
data12= data8.fillna({1: 0.5, 2:0})

print(data12)

          0         1         2
0  0.912617  0.500000  0.000000
1  0.032959  0.500000  0.000000
2  0.768436  0.500000  0.239604
3  0.184572  0.500000  0.040611
4  0.153707  0.214747  0.241338
5  0.749207  0.022983  0.673287
6  0.650414  0.719527  0.908032


Con fillna podemos retornar un nuevo objeto (como hago en los ejemplos) o bien podemos retocar el objeto ya existente.

También podemos repetir valores para abajo sobre los nan:

In [11]:
data13= pd.DataFrame(np.random.randn(6, 3))

data13.iloc[2:, 1]= NA

data13.iloc[4:, 2]= NA

print(data13)

          0         1         2
0 -1.027718  0.131535 -0.176385
1 -0.193671  1.398645  0.012932
2 -0.064566       NaN  1.219559
3  0.102288       NaN -1.551823
4 -0.453751       NaN       NaN
5  1.858342       NaN       NaN


In [12]:
data14= data13.fillna(method= "ffill")

print(data14)

          0         1         2
0 -1.027718  0.131535 -0.176385
1 -0.193671  1.398645  0.012932
2 -0.064566  1.398645  1.219559
3  0.102288  1.398645 -1.551823
4 -0.453751  1.398645 -1.551823
5  1.858342  1.398645 -1.551823


También podemos limitar la cantidad de valores a llenar:

In [14]:
data15= data13.fillna(method= "ffill", limit= 2)

print(data15)

          0         1         2
0 -1.027718  0.131535 -0.176385
1 -0.193671  1.398645  0.012932
2 -0.064566  1.398645  1.219559
3  0.102288  1.398645 -1.551823
4 -0.453751       NaN -1.551823
5  1.858342       NaN -1.551823
