<img src="./unal.png" align=left width="150" height="150"></img>

$\;$
---

<h2 align="center">DATOS FALTANTES</h2>

Es muy común que nuestros DataFrames presenten datos faltantes, antes de empezar a procesar nuestros DataFrames veamos un poco
en qué consisten los objetos NaN (Not a Number). Importemos las librerias Pandas y Numpy para esto:

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.nan    #Este es un tipo de dato no definido

nan

In [3]:
np.nan + 0

nan

In [4]:
np.nan > 0

False


El tipo **nan** tiene propiedades matemáticas retornando lo mismo **NaN** La versión 1.0 de pandas incluye un nuevo objeto NA, que es mucho más general pues, además de interactuar con números, también puede hacerlo con cadenas de texto u otras variables como las de tipo booleano. Si quieres que esta nueva definición este incluida entre tus cálculos usa:

In [6]:
pd.options.mode.use_inf_as_na=True

Al sumar **NA** a una cadena de texto, obtengo el mismo **NA**:

In [7]:
pd.NA + "Hola"

<NA>

In [8]:
pd.NA | False

<NA>

### DataFrames y datos faltantes 

In [10]:
df=pd.DataFrame(np.arange(0,15).reshape(5,3), columns=['a','b','c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


In [16]:
df['d']=np.nan
df['e']=np.arange(15,20)
df.loc[5,:]=pd.NA
df.loc[4,'a']=pd.NA
df.loc[0,'b']=1
df.loc[5,'c']=10
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,10.0,,


Para reconocer cuando un objeto es nulo simplemente usamos:

In [17]:
df.isnull()

Unnamed: 0,a,b,c,d,e
0,False,False,False,True,False
1,False,False,False,True,False
2,False,False,False,True,False
3,False,False,False,True,False
4,True,False,False,True,False
5,True,True,False,True,True


En donde todas nuestras variables no definidas fueron marcadas con TRUE, **df.isna()** también cumple esta función. Conocer el número de variables nulas por columna puede hacerse juntando el comando anterior con la función de suma:

In [18]:
df.isnull().sum()

a    2
b    1
c    0
d    6
e    1
dtype: int64

In [19]:
df.isnull().sum(axis=1)  #  Si lo que nos interesa es conocer el número de filas con elementos nulos, basta con usar axis=1:

0    1
1    1
2    1
3    1
4    2
5    4
dtype: int64

O todos los elementos nulos de nuestro DataFrame:

In [20]:
df.size-df.isnull().sum().sum()

20

Reconocer estos elementos nos puede ayudar a filtrar en nuestro DataFrame, en este caso, me gustaría filtrar por las variables no nulas
de la columna ‘a’:

In [25]:
df[df['a'].notnull()]

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0


dropna es perfecto para eliminar rápidamente las filas con registros faltantes:

In [24]:
df.dropna()

Unnamed: 0,a,b,c,d,e


In [26]:
df[['a']].dropna()

Unnamed: 0,a
0,0.0
1,3.0
2,6.0
3,9.0


Ya que hemos visto cómo funcionan las variables nulas, veamos cómo lidiar con ellas. Usando la función fillna podremos reemplazarlas
por el valor que queramos, en este caso 0.

In [27]:
df.fillna(0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,0,15.0
1,3.0,4.0,5.0,0,16.0
2,6.0,7.0,8.0,0,17.0
3,9.0,10.0,11.0,0,18.0
4,0.0,13.0,14.0,0,19.0
5,0.0,0.0,10.0,0,0.0


Si quisiéramos remplazar con el valor siguiente usamos method="ffill":

In [28]:
df.fillna(method="ffill")

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0
4,9.0,13.0,14.0,,19.0
5,9.0,13.0,10.0,,19.0


Si quisiéramos remplazar con el valor previo usamos method="bfill":

In [29]:
df.fillna(method="bfill")

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,10.0,,


In [30]:
df.fillna(method="bfill",axis=1)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,15.0,15.0
1,3.0,4.0,5.0,16.0,16.0
2,6.0,7.0,8.0,17.0,17.0
3,9.0,10.0,11.0,18.0,18.0
4,13.0,13.0,14.0,19.0,19.0
5,10.0,10.0,10.0,,


Podemos usar también una serie para reemplazar los valores de una columna en específico, es importante que haya emparejamiento entre los índices:

In [31]:
fill=pd.Series([100,101,102])
fill

0    100
1    101
2    102
dtype: int64

In [32]:
df['d']=df['d'].fillna(fill)
df['d']

0    100.0
1    101.0
2    102.0
3      NaN
4      NaN
5      NaN
Name: d, dtype: float64

In [33]:
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,100.0,15.0
1,3.0,4.0,5.0,101.0,16.0
2,6.0,7.0,8.0,102.0,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,10.0,,


Una de las formas más usadas para reemplazar datos es usar el promedio de las columnas, esto se hace con la función mean. O si se quiere un mejor estimador, usamos median.

In [34]:
df.fillna(df.median())

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,100.0,15.0
1,3.0,4.0,5.0,101.0,16.0
2,6.0,7.0,8.0,102.0,17.0
3,9.0,10.0,11.0,101.0,18.0
4,4.5,13.0,14.0,101.0,19.0
5,4.5,7.0,10.0,101.0,17.0


Por último, Pandas también puede interpolar los valores faltanes calculando el valor que puede haber existido en el medio.

In [36]:
df_d=pd.concat([df[['d']],df[['d']].interpolate()],axis=1)
df_d.columns = ['d_antes','d_interpolado']
df_d

Unnamed: 0,d_antes,d_interpolado
0,100.0,100.0
1,101.0,101.0
2,102.0,102.0
3,,102.0
4,,102.0
5,,102.0


In [37]:
df[['d']].interpolate()

Unnamed: 0,d
0,100.0
1,101.0
2,102.0
3,102.0
4,102.0
5,102.0
