In [1]:
import numpy as np
import pandas as pd

In [2]:
np.nan

nan

La versión 1.0 de pandas incluye un nuevo objeto NA, que es mucho más
general pues, ademas de interactuar con números, tambien puede hacerlo con
cadenas de texto u otras varaibles como las de tipo booleano. Si quieres que
esta nueva definición este incluida entre tus cálculos usa:

In [3]:
 pd.options.mode.use_inf_as_na = True

In [4]:
pd.NA +'Hola mundo'

<NA>

In [5]:
pd.NA | False

<NA>

In [6]:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


In [7]:
df['d'] = np.nan
df['e'] = np.arange(15, 20)
df.loc[5,:] = pd.NA
df.loc[4,'a'] = pd.NA
df.loc[0,'d'] = 1
df.loc[5,'d'] = 10
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,,10.0,


In [8]:
df.isnull()

Unnamed: 0,a,b,c,d,e
0,False,False,False,False,False
1,False,False,False,True,False
2,False,False,False,True,False
3,False,False,False,True,False
4,True,False,False,True,False
5,True,True,True,False,True


In [9]:
df.isnull().sum()

a    2
b    1
c    1
d    4
e    1
dtype: int64

In [10]:
#contar elementos no nulos en filas
df.notnull().sum(axis=1)

0    5
1    4
2    4
3    4
4    3
5    1
dtype: int64

In [11]:
#todos los elementos nulos
df.size-df.isnull().sum().sum()

21

In [12]:
#filtrar por los elementos no nulos de una columna
df[df['a'].notnull()]

Unnamed: 0,a,b,c,d,e
0,0,1,2,1.0,15
1,3,4,5,,16
2,6,7,8,,17
3,9,10,11,,18


In [13]:
df.dropna()

Unnamed: 0,a,b,c,d,e
0,0,1,2,1,15


In [14]:
df[['a']].dropna()

Unnamed: 0,a
0,0
1,3
2,6
3,9


In [15]:
#llenar los datos faltantes con ceros
df.fillna(0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,0,16.0
2,6.0,7.0,8.0,0,17.0
3,9.0,10.0,11.0,0,18.0
4,0.0,13.0,14.0,0,19.0
5,0.0,0.0,0.0,10,0.0


In [16]:
#reemplazar los nulos con el valor siguiente 
df.fillna(method="ffill")

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,1,16.0
2,6.0,7.0,8.0,1,17.0
3,9.0,10.0,11.0,1,18.0
4,9.0,13.0,14.0,1,19.0
5,9.0,13.0,14.0,10,19.0


In [17]:
#reemplazar los nulos con el valor anterior
df.fillna(method="bfill")

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,10,16.0
2,6.0,7.0,8.0,10,17.0
3,9.0,10.0,11.0,10,18.0
4,,13.0,14.0,10,19.0
5,,,,10,


In [18]:
#reemplazar los nulos con el valor anterior en filas
df.fillna(method="bfill",axis=1)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,16.0,16.0
2,6.0,7.0,8.0,17.0,17.0
3,9.0,10.0,11.0,18.0,18.0
4,13.0,13.0,14.0,19.0,19.0
5,10.0,10.0,10.0,10.0,


Podemos usar también una serie para reemplazar los valores de una columna en especifico, es importante que haya emparejamiento entre los índices:

In [19]:
fill = pd.Series([100, 101, 102])
fill

0    100
1    101
2    102
dtype: int64

In [20]:
df['d'] = df['d'].fillna(fill)
df['d'] 

0      1.0
1    101.0
2    102.0
3      NaN
4      NaN
5     10.0
Name: d, dtype: float64

In [21]:
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,101.0,16.0
2,6.0,7.0,8.0,102.0,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,,10.0,


Una de las formas más usadas para reemplazar datos es usar el promedio de las columnas, esto se hace con la función mean. O si se quiere un mejor estimador, usamos median.

In [22]:
df.fillna(df.median())

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,101.0,16.0
2,6.0,7.0,8.0,102.0,17.0
3,9.0,10.0,11.0,55.5,18.0
4,4.5,13.0,14.0,55.5,19.0
5,4.5,7.0,8.0,10.0,17.0


Por último, Pandas también puede interporlar los valores faltanes calculando el valor que puede haber existido en el medio.

In [23]:
df_d = pd.concat([df[['d']], df[['d']].interpolate()],axis=1)
df_d.columns = ['d_antes','d_interpolado']
df_d

Unnamed: 0,d_antes,d_interpolado
0,1.0,1.0
1,101.0,101.0
2,102.0,102.0
3,,71.333333
4,,40.666667
5,10.0,10.0
