# **Obtención y preparación de datos**

# OD19. Gestión de Nulos

Un aspecto crítico en todo análisis de datos es la gestión de los valores nulos, representados en pandas por la valor real NaN ("Not a Number").

pandas ofrece diferentes funciones y métodos para gestionar estos valores.

In [1]:
import numpy as np
import pandas as pd

## <font color='blue'>**La función isnull**</font>

La función **pandas.isnull** devuelve una estructura con las mismas dimensiones que la que se cede como argumento sustituyendo cada valor por el booleano True si el correspondiente elemento es un valor nulo, y por el booleano False en caso contrario.

Esta función es equivalente a **pandas.isna**.

In [2]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [3]:
pd.isnull(s) #isnull identifica si el valor es nulo (T or F)

0    False
1     True
2    False
3     True
4    False
dtype: bool

Esta funcionalidad también está disponible como método:

In [4]:
s.isnull() #otra forma de expresar. Agregar que esta forma es necesario que s sea sea una serie

0    False
1     True
2    False
3     True
4    False
dtype: bool

También podemos aplicarla a un dataframe:

In [5]:
ventas = pd.DataFrame({"A": [3, np.nan, 1],
                   "B": [1, 5, np.nan],
                   "C": [3, 7, 2],
                   "D": [np.nan, 2, np.nan]},
                  index = ["ene", "feb", "mar"])
ventas

Unnamed: 0,A,B,C,D
ene,3.0,1.0,3,
feb,,5.0,7,2.0
mar,1.0,,2,


In [6]:
pd.isnull(ventas) #T or F para cada elemento del DataFrame

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


In [7]:
ventas.isnull()

Unnamed: 0,A,B,C,D
ene,False,False,False,True
feb,True,False,False,False
mar,False,True,False,True


## <font color='blue'>**El método dropna**</font>

El método **dropna** permite, de una forma muy conveniente, filtrar los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

Aplicado a una serie, el método **pandas.Series.dropna** devuelve una nueva serie tras eliminar los valores nulos:


In [8]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [9]:
s.dropna() #elimina los registros que son nulos en la Serie

0    1.0
2    7.0
4    3.0
dtype: float64

Aplicado a un dataframe, el método **pandas.DataFrame.dropna** ofrece algo más de funcionalidad: podemos escoger si queremos eliminar filas o columnas, y si queremos eliminarlas cuando todos sus elementos sean nulos o simplemente cuando alguno de ellos lo sea.

In [10]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Por defecto, el método se aplica al eje 0, es decir, va a eliminar filas que incluyan valores nulos:

In [11]:
ventas.dropna() #elimina la fila completa, por defecto (axis=0)

Unnamed: 0,A,B,C,D
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0


Si especificamos el eje 1, lo que se eliminan son las columnas que incluyan valores nulos:

In [12]:
ventas.dropna(axis = 1) #elimina la columna completa cuando axis=1

Unnamed: 0,A,C
ene,1,3
feb,5,7
mar,4,2
abr,7,1


Mediante el parámetro **how** podemos controlar cómo queremos que se aplique el método: si toma el valor "all", solo se eliminarán las filas o columnas en las que todos sus elementos sean nulos. Si toma el valor "any" (valor por defecto), se eliminarán las filas o columnas en las que algún elemento sea nulo. De esta forma:



In [13]:
ventas.dropna(how = "all")

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Vemos cómo ninguna fila se ha eliminado pues en ninguna de ellas todos los elementos nulos.

In [14]:
ventas.dropna(how = "any") #ver el caso any

Unnamed: 0,A,B,C,D
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0


<font color="red">elimina las filas en las que al menos un registro de esta sea nulo</font>

In [15]:
ventas.dropna(how = "any", axis=1) #ver el caso any para axis igual a 1

Unnamed: 0,A,C
ene,1,3
feb,5,7
mar,4,2
abr,7,1


<font color="red">elimina las columnas en las que al menos un registro de esta sea nulo</font>

## <font color='blue'>**El método fillna**</font>

El método **fillna** permite sustituir los valores nulos de una estructura pandas por otro valor según ciertos criterios: pueden sustituirse por un valor concreto o bien puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

Veamos el caso de ejecutar este método en una serie, **pandas.Series.fillna**.

In [16]:
s = pd.Series([1, np.nan, 7, np.nan, 3])
s

0    1.0
1    NaN
2    7.0
3    NaN
4    3.0
dtype: float64

In [17]:
s.fillna(0) #no elimina, reemplaza por el valor que se especifica dentro del paréntesis

0    1.0
1    0.0
2    7.0
3    0.0
4    3.0
dtype: float64

Hemos indicado el valor 0 como argumento, y es este valor el que se utiliza para sustituir los valores nulos de la serie original.

También podríamos haber especificado que el método a utilizar fuese, por ejemplo, el **forward fill** ("ffill"), de forma que los valores no nulos se copien "hacia adelante" siempre que se encuentren valores nulos. Esto se indicaría con el parámetro **method**.

In [18]:
s.fillna(method = "ffill") #forward fill - el elemento anterior (ordenado según index)

0    1.0
1    1.0
2    7.0
3    7.0
4    3.0
dtype: float64

Vemos cómo los valores nulos se han rellenado con el anterior valor no nulo (o, dicho con otras palabras, cómo los valores no nulos se han extendido hacia adelante).

Si especificamos el método **backward fill** ("bfill").

In [19]:
s.fillna(method = "bfill") #backward fill - el elemento siguiente (ordenado según index)

0    1.0
1    7.0
2    7.0
3    3.0
4    3.0
dtype: float64

Los valores nulos se han rellenado con el siguiente valor no nulo.

En el caso de los dataframe, **pandas.DataFrame.fillna**, la funcionalidad es semejante. Como se ha comentado, la mayor diferencia consiste en que, en el caso de querer rellenar los valores nulos con el anterior o posterior no nulo, habrá que indicar el eje del que obtener estos datos. 

In [20]:
ventas = pd.DataFrame({"A": [1, 5, 4, 7],
                   "B": [3, 4, 1, np.nan],
                   "C": [3, 7, 2, 1],
                   "D": [np.nan, 2, 2, 3]},
                  index = ["ene", "feb", "mar", "abr"])
ventas

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,,1,3.0


Podemos sustituir los valores nulos por una cifra concreta.



In [21]:
ventas.fillna(0) #lo mismo que en Series, rellena con el valor que esta entre paréntesis 

Unnamed: 0,A,B,C,D
ene,1,3.0,3,0.0
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,0.0,1,3.0


Si aplicamos el método de **forward fill** a lo largo del eje 0 (eje por defecto).



In [22]:
ventas.fillna(method = "ffill") #se rellena por el elemento antecesor, según orden del index

Unnamed: 0,A,B,C,D
ene,1,3.0,3,
feb,5,4.0,7,2.0
mar,4,1.0,2,2.0
abr,7,1.0,1,3.0


Vemos cómo el primer valor de la columna D no se ha modificado pues no hay ningún valor anterior (en el eje 0) del que tomar el valor.

Y si aplicamos el método **backward fill** a lo largo del eje 1.

In [23]:
ventas.fillna(method = "bfill", axis = 1) #se rellena por el elemento posterior, según orden de las columnas

Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


En este caso, el valor de la columna D correspondiente a enero no se ha modificado pues, nuevamente, no hay un valor posterior (en el eje 1) del que tomar el valor.

En un caso práctico puede resultar recomendable utilizar "lógica de relleno" seguida de la asignación de un valor por defecto para los valores nulos que puedan seguir existiendo, para asegurarnos de que todos ellos han sido sustituidos adecuadamente.

In [24]:
ventas.fillna(axis = 1, method = "bfill").fillna(0) #dos sentencias, una para rellenar con el elemento posterior, si aún quedan NaN, se reemplazan por 0

Unnamed: 0,A,B,C,D
ene,1.0,3.0,3.0,0.0
feb,5.0,4.0,7.0,2.0
mar,4.0,1.0,2.0,2.0
abr,7.0,1.0,1.0,3.0


In [25]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5],
                   [np.nan, 3, np.nan, 4]],
                  columns=list('ABCD')) #como se identifican las columnas, un texto con cada caracter por columna
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5
3,,3.0,,4


In [26]:
df.fillna(method='bfill') #por fila para el elemento posterior

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0
1,3.0,4.0,,1
2,,3.0,,5
3,,3.0,,4


In [27]:
df.fillna(method='ffill', axis=1) #por columna para el elemento antecesor

Unnamed: 0,A,B,C,D
0,,2.0,2.0,0.0
1,3.0,4.0,4.0,1.0
2,,,,5.0
3,,3.0,3.0,4.0


## <font color='green'>Actividad 1</font>

Para el siguiente dataframe:

```
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
```
Determine:

1. Contar la cantidad total de nulos.
2. Contar la cantidad de nulos por columna.
3. Eliminar las filas con nulos en la columna texto.
4. Eliminar todas las filas que contengan algún valor nulo.

In [28]:
#Solución definir dataframe
datos = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d"],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2]})
datos.replace("np.nan",np.nan, inplace=True)  #Reemplazar valores de texto como NaN (no reemplazo NA para observar el uso de dropna)
datos

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
2,3.0,,7
3,,,5
4,7.0,a,1
5,6.0,b,9
6,9.0,,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


In [29]:
datos.isna().sum().sum() #Suma de todos los nulos

3

In [30]:
datos.isna().sum() #Suma de los nulos por columna

id       1
texto    2
valor    0
dtype: int64

In [31]:
datos.dropna(subset=['texto']) #elimina las filas que tienen un elemento nulo en la columna texto  / uso de la opción subset

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
3,,,5
4,7.0,a,1
5,6.0,b,9
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


<font color="red">chequear la ayuda en [link](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html)</font>

In [32]:
datos.dropna(axis=0) #Elimina las filas que tienen un elemento nulo

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
4,7.0,a,1
5,6.0,b,9
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


<font color='green'>Fin Actividad 1</font>

## <font color="red">Función para reemplazar distintos tipos de valores NaN:</font>

In [33]:
df = pd.DataFrame({'id': [1, 4, 3, np.nan, 7, 6, 9, 4, 0, 8, 10],
                     'texto': ["a", "b", np.nan, "NA", "a", "b", "np.nan", "b", "c", "d", " "],
                      'valor': [2, 8, 7, 5, 1, 9, 4, 3, 7, 2, 4]})
df

Unnamed: 0,id,texto,valor
0,1.0,a,2
1,4.0,b,8
2,3.0,,7
3,,,5
4,7.0,a,1
5,6.0,b,9
6,9.0,np.nan,4
7,4.0,b,3
8,0.0,c,7
9,8.0,d,2


In [34]:
def fill_na_text(x, s=[np.nan], r=[0]):
    '''
    Reemplaza distintos tipos de valores NaN (es configurable)
    input: 
        x: dataframe de entrada
        s: lista de valores que se asocian a NaN, por defecto np.nan
        r: lista de valores a reemplazar asociados a cada valor de s, por defecto 0
    output: dataframe x con datos reemplazados
    '''
    for i in range(len(s)):
        x = x.replace(s[i], r[i])
    return x

fill_na_text(df, s=[np.nan, 'np.nan', ' ', 'NA'], r=['NAN_1', 'NAN_2', 'NAN_3', 'NAN_4'])

Unnamed: 0,id,texto,valor
0,1,a,2
1,4,b,8
2,3,NAN_1,7
3,NAN_1,NAN_4,5
4,7,a,1
5,6,b,9
6,9,NAN_2,4
7,4,b,3
8,0,c,7
9,8,d,2
