<a href="https://colab.research.google.com/github/VAEH/curso-python/blob/master/Datos_Faltantes_DF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ¿Como lidiar con datos Faltantes? 

Es muy común que nuestros DataFrames presenten datos faltantes, antes de empezar a procesar nuestros DataFrames veamos un poco en qué consisten los objetos NaN (Not a Number).

Importemos las librerias Pandas y Numpy para esto:

In [2]:
import numpy as np
import pandas as pd

Un número que no está definido usualmente se representa con el siguiente objeto:

```
np.nan
> nan
```
¡Este objeto tiene propiedades matemáticas! Al sumar un número, obtenemos como
respuesta el mismo NaN.

```
np.nan + 0
> nan
```

```
np.nan > 0
> False
```
La versión 1.0 de pandas incluye un nuevo objeto NA, que es mucho más
general pues, ademas de interactuar con números, tambien puede hacerlo con
cadenas de texto u otras varaibles como las de tipo booleano. Si quieres que
esta nueva definición este incluida entre tus cálculos usa:



```
 pd.options.mode.use_inf_as_na = True
```
Al sumar NA a una cadena de texto, obtengo el mismo NA:

```
pd.NA +'Hola mundo'
> <NA>
```


```
pd.NA | False
> <NA>
```
```
pd.NA | False
> <NA>
```






In [3]:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


Y vamos a añadir algunas variables no definidas:

In [4]:
df['d'] = np.nan
df['e'] = np.arange(15, 20)
df.loc[5,:] = pd.NA
df.loc[4,'a'] = pd.NA
df.loc[0,'d'] = 1
df.loc[5,'d'] = 10
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,,10.0,


Para reconocer cuando un objeto es nulo simplmente usamos:

In [5]:
df.isnull()


Unnamed: 0,a,b,c,d,e
0,False,False,False,False,False
1,False,False,False,True,False
2,False,False,False,True,False
3,False,False,False,True,False
4,True,False,False,True,False
5,True,True,True,False,True


En dónde todas nuestras variables no definidas fueron marcadas con TRUE,
df.isna() tambien cumple esta función.

Conocer el número de variables nulas por columna puede hacerse juntando el
comando anterior con la funcion de suma:

In [6]:
df.isnull().sum()

a    2
b    1
c    1
d    4
e    1
dtype: int64

Si lo que nos interesa es conocer el número de filas con elementos nulos, basta
con usar axis=1:

In [7]:
df.notnull().sum(axis=1)

0    5
1    4
2    4
3    4
4    3
5    1
dtype: int64

O todos los elementos nulos de nuestro DataFrame:

In [8]:
df.size-df.isnull().sum().sum()

21

Reconocer estos elementos nos puede ayudar a filtrar en nuestro DataFrame, en
este caso, me gustaría filtrar por las variables no nulas de la columna ‘a’:

In [9]:
df[df['a'].notnull()]

Unnamed: 0,a,b,c,d,e
0,0,1,2,1.0,15
1,3,4,5,,16
2,6,7,8,,17
3,9,10,11,,18


dropna es perfecto para elimnar rapidamente las filas con registros faltantes:

In [10]:
df.dropna()

Unnamed: 0,a,b,c,d,e
0,0,1,2,1,15


In [11]:
df[['a']].dropna()

Unnamed: 0,a
0,0
1,3
2,6
3,9


Ya que hemos visto cómo funcionan las variable nulas, veamos cómo lidiar con
ellas. Usando la función fillna podremos reemplazarlas por el valor que
querramos, en este caso 0.

In [12]:
df.fillna(0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,0,16.0
2,6.0,7.0,8.0,0,17.0
3,9.0,10.0,11.0,0,18.0
4,0.0,13.0,14.0,0,19.0
5,0.0,0.0,0.0,10,0.0


Si quisieramos remplazar con el valor siguiente usamos
method="ffill":

In [13]:
df.fillna(method="ffill")

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,1,16.0
2,6.0,7.0,8.0,1,17.0
3,9.0,10.0,11.0,1,18.0
4,9.0,13.0,14.0,1,19.0
5,9.0,13.0,14.0,10,19.0


Si quisieramos remplazar con el valor previo usamos
method="bfill":

In [14]:
df.fillna(method="bfill")

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,10,16.0
2,6.0,7.0,8.0,10,17.0
3,9.0,10.0,11.0,10,18.0
4,,13.0,14.0,10,19.0
5,,,,10,


El mismo ejercicio anterior se puede aplicar con las filas usando axis=1:

In [None]:
df.fillna(method="bfill",axis=1)

Podemos usar también una serie para reemplazar los valores de una columna en especifico, es importante que haya emparejamiento entre los índices:

In [15]:
fill = pd.Series([100, 101, 102])
fill

0    100
1    101
2    102
dtype: int64

In [16]:
df['d'] = df['d'].fillna(fill)
df['d'] 

0      1.0
1    101.0
2    102.0
3      NaN
4      NaN
5     10.0
Name: d, dtype: float64

In [17]:
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,101.0,16.0
2,6.0,7.0,8.0,102.0,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,,10.0,


Una de las formas más usadas para reemplazar datos es usar el promedio de las columnas, esto se hace con la función mean. O si se quiere un mejor estimador, usamos median.

In [18]:
df.fillna(df.median())

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,101.0,16.0
2,6.0,7.0,8.0,102.0,17.0
3,9.0,10.0,11.0,55.5,18.0
4,4.5,13.0,14.0,55.5,19.0
5,4.5,7.0,8.0,10.0,17.0


Por último, Pandas también puede interporlar los valores faltanes calculando el valor que puede haber existido en el medio

In [19]:
df_d = pd.concat([df[['d']], df[['d']].interpolate()],axis=1)
df_d.columns = ['d_antes','d_interpolado']
df_d

Unnamed: 0,d_antes,d_interpolado
0,1.0,1.0
1,101.0,101.0
2,102.0,102.0
3,,71.333333
4,,40.666667
5,10.0,10.0
