# Como lidar con datos faltantes en los Dataframe NaN

## Importar Librerías

In [81]:
import numpy as np
import pandas as pd

Un número que no está definido, usualmente se representa con el siguiente objeto:

np.nan

In [82]:
pd.options.mode.use_inf_as_na = False

In [83]:
pd.NA + 'Hola Mundo'

<NA>

In [84]:
pd.NA | False

<NA>

## Crear un dataframe para mostrar las herramientas que permitiran limpiar el dataframe de valores NaN

In [85]:
# crear dataframe aleatorio
df = pd.DataFrame(np.arange(0,15).reshape(5,3), columns=['a','b','c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


## Añadir renglones y columnas mas con valores NaN

In [105]:
# hola
df['d'] = np.nan
##df['e'] = np.arange(0, 5)
df.loc[5,:] = pd.NA
df.loc[4,'a'] = pd.NA
df.loc[0,'d'] = 1
df.loc[5,'d'] = 10
df

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,1.0
1,3.0,4.0,5.0,
2,6.0,7.0,8.0,
3,9.0,10.0,11.0,
4,,13.0,14.0,
5,,,,10.0


## Comandos: isnull( ) e isna( )

### Los comandos isnull( ) e isna( ) identifican los valores NaN dentro del dataframe y los sustituye con el booleano *True* y los valores que no son nulos, los identifica con el booleano *False*

In [106]:
df.isnull()
#df.isna()


Unnamed: 0,a,b,c,d
0,False,False,False,False
1,False,False,False,True
2,False,False,False,True
3,False,False,False,True
4,True,False,False,True
5,True,True,True,False


### Conocer el número de variables nulas por columna puede hacerse juntando el comando *isnull( )*  con la función de suma *sum( )*

In [108]:
df.isnull().sum()

a    2
b    1
c    1
d    4
dtype: int64

### Si se requiere saber el número de filas con elementos nulos, se usa el argumento *axis=1*


In [109]:
df.isnull().sum(axis=1)

0    0
1    1
2    1
3    1
4    2
5    3
dtype: int64

### Para conocer el número total de valores NaN existentes en el dataframe, se usa el siguiente comando:

In [90]:
df.isnull().sum().sum()

8

### Filtrar por las variables no nulas de la columna 'a'

In [91]:
df[df['a'].notnull()]

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,1.0
1,3.0,4.0,5.0,
2,6.0,7.0,8.0,
3,9.0,10.0,11.0,


### Eliminar filas con registros nulos (NaN) con el comando *dropna*

En este ejemplo solo la fila '0' no contiene valores NaN y por lo tanto queda dentro del dataframe

In [92]:
df.dropna()

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,1


### Eliminar columnas con registros nulos (NaN) 

In [111]:
df[['a']].dropna()

Unnamed: 0,a
0,0.0
1,3.0
2,6.0
3,9.0


## Reemplazar valores nulos por valores que se requieran

### Reemplazar los valores NaN por el valor 0, usando el comando *fillna(0)*

In [94]:
df.fillna(0)

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,1
1,3.0,4.0,5.0,0
2,6.0,7.0,8.0,0
3,9.0,10.0,11.0,0
4,0.0,13.0,14.0,0
5,0.0,0.0,0.0,10


### Reemplazar con el valor siguiente se usa: method=('ffill')

In [95]:
df.fillna(method='ffill')

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,1
1,3.0,4.0,5.0,1
2,6.0,7.0,8.0,1
3,9.0,10.0,11.0,1
4,9.0,13.0,14.0,1
5,9.0,13.0,14.0,10


### Reemplazar con el valor previo se usa: method=('bfill')

In [96]:
df.fillna(method='bfill')

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,1
1,3.0,4.0,5.0,10
2,6.0,7.0,8.0,10
3,9.0,10.0,11.0,10
4,,13.0,14.0,10
5,,,,10


### Reemplazar en las filas usando *axis=1*

In [97]:
df.fillna(method='bfill',axis=1)

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,1.0
1,3.0,4.0,5.0,
2,6.0,7.0,8.0,
3,9.0,10.0,11.0,
4,13.0,13.0,14.0,
5,10.0,10.0,10.0,10.0


## Reemplazar valores usando series

In [98]:
fill = pd.Series([100,101,102])
fill

0    100
1    101
2    102
dtype: int64

In [99]:
df['d'] = df['d'].fillna(fill)
df['d']
df

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,1.0
1,3.0,4.0,5.0,101.0
2,6.0,7.0,8.0,102.0
3,9.0,10.0,11.0,
4,,13.0,14.0,
5,,,,10.0


### Una de las formas más usadas para reemplazar datos es usar el promedio de las columnas, esto se hace con la función mean. O si se quiere un mejor estimador, usamos median.

In [100]:
df.fillna(df.median())

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,1.0
1,3.0,4.0,5.0,101.0
2,6.0,7.0,8.0,102.0
3,9.0,10.0,11.0,55.5
4,4.5,13.0,14.0,55.5
5,4.5,7.0,8.0,10.0


### Por último, Pandas también puede interpolar los valores faltantes calculando el valor que puede haber existido en el medio.

In [101]:
df_d = pd.concat([df[['d']], df[['d']].interpolate()],axis=1)
df_d.columns = ['d_antes','d_interpolado']
df_d

Unnamed: 0,d_antes,d_interpolado
0,1.0,1.0
1,101.0,101.0
2,102.0,102.0
3,,71.333333
4,,40.666667
5,10.0,10.0
