In [1]:
import numpy as np
import pandas as pd

In [2]:
np.nan

nan

In [3]:
np.nan + 0


nan

In [4]:
np.nan > 0

False

In [5]:
np.nan == 0

False

La versión 1.0 de pandas incluye un nuevo objeto NA, que es mucho más
general pues, además de interactuar con números, también puede hacerlo con
cadenas de texto u otras variables como las de tipo booleano. Si quieres que
esta nueva definición esté incluida entre tus cálculos usa:

In [6]:
pd.options.mode.use_inf_as_na = False

In [7]:
#Al sumar NA a una cadena de texto, obtengo el mismo NA:
pd.NA +'Hola mundo'

<NA>

In [10]:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


In [11]:
df['d'] = np.nan
df['e'] = np.arange(15, 20)
df.loc[5,:] = pd.NA
df.loc[4,'a'] = pd.NA
df.loc[0,'d'] = 1
df.loc[5,'d'] = 10
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,,10.0,


In [12]:
#Para reconocer cuándo un objeto es nulo, simplemente usamos:
df.isnull()

Unnamed: 0,a,b,c,d,e
0,False,False,False,False,False
1,False,False,False,True,False
2,False,False,False,True,False
3,False,False,False,True,False
4,True,False,False,True,False
5,True,True,True,False,True


In [13]:
#también cumple esta función.
df.isna()

Unnamed: 0,a,b,c,d,e
0,False,False,False,False,False
1,False,False,False,True,False
2,False,False,False,True,False
3,False,False,False,True,False
4,True,False,False,True,False
5,True,True,True,False,True


In [14]:
#Conocer el número de variables nulas por columna:
df.isnull().sum()

a    2
b    1
c    1
d    4
e    1
dtype: int64

In [15]:
#Si lo que nos interesa es conocer el número de filas con elementos no nulos, 
# basta con usar axis=1:
df.isnull().sum(axis=1)

0    0
1    1
2    1
3    1
4    2
5    4
dtype: int64

In [18]:
#todos los elementos nulos de nuestro DataFrame:
df.isnull().sum().sum()

9

In [17]:
df[df['a'].notnull()]

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0


In [19]:
#dropna es perfecto para eliminar rápidamente las filas con registros faltantes:
df.dropna()

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0


In [20]:
df[['a']].dropna()

Unnamed: 0,a
0,0.0
1,3.0
2,6.0
3,9.0


In [21]:
df.fillna(0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,0,16.0
2,6.0,7.0,8.0,0,17.0
3,9.0,10.0,11.0,0,18.0
4,0.0,13.0,14.0,0,19.0
5,0.0,0.0,0.0,10,0.0


In [22]:
# Si quisiéramos remplazar con el valor siguiente usamos method='ffill':
df.fillna(method='ffill')

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,1,16.0
2,6.0,7.0,8.0,1,17.0
3,9.0,10.0,11.0,1,18.0
4,9.0,13.0,14.0,1,19.0
5,9.0,13.0,14.0,10,19.0


In [23]:
#Si quisiéramos remplazar con el valor previo usamos method='bfill':
df.fillna(method='bfill')

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,10,16.0
2,6.0,7.0,8.0,10,17.0
3,9.0,10.0,11.0,10,18.0
4,,13.0,14.0,10,19.0
5,,,,10,


In [24]:
#El mismo ejercicio anterior se puede aplicar con las filas usando axis=1:
df.fillna(method='bfill',axis=1)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,16.0,16.0
2,6.0,7.0,8.0,17.0,17.0
3,9.0,10.0,11.0,18.0,18.0
4,13.0,13.0,14.0,19.0,19.0
5,10.0,10.0,10.0,10.0,


In [25]:
# Podemos usar también una serie para reemplazar los valores de una columna en específico, 
# es importante que haya emparejamiento entre los índices:
fill = pd.Series([100, 101, 102])
fill

0    100
1    101
2    102
dtype: int64

In [26]:
df['d'] = df['d'].fillna(fill)
df['d'] 

0      1.0
1    101.0
2    102.0
3      NaN
4      NaN
5     10.0
Name: d, dtype: float64

In [27]:
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,101.0,16.0
2,6.0,7.0,8.0,102.0,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,,10.0,


## imputacion de datos con la media

In [28]:
df.fillna(df.median())

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,101.0,16.0
2,6.0,7.0,8.0,102.0,17.0
3,9.0,10.0,11.0,55.5,18.0
4,4.5,13.0,14.0,55.5,19.0
5,4.5,7.0,8.0,10.0,17.0


In [29]:
# Por último, Pandas también puede interpolar los valores faltantes 
# calculando el valor que puede haber existido en el medio.
df_d = pd.concat([df[['d']], df[['d']].interpolate()],axis=1)
df_d.columns = ['d_antes','d_interpolado']
df_d

Unnamed: 0,d_antes,d_interpolado
0,1.0,1.0
1,101.0,101.0
2,102.0,102.0
3,,71.333333
4,,40.666667
5,10.0,10.0
