# Manejo de datos nulos

Los datos nulos o `nulls` es la aucencia de valor, o bien datos incompletos. En este notebook se desglozan varios ejemplos de como podemos trabajarlos con la libreria pandas.

In [19]:
import pandas as pd
import numpy as np

A partir de un diccionario con valores randos y nulos creamos un `DataFrame` de pandas

In [20]:
dict = {
    'Col1': [np.random.randint(0, 20), np.random.randint(0, 20), np.random.randint(0, 20), np.nan],
    'Col2': [np.random.randint(0, 20), np.nan, np.random.randint(0, 20), np.random.randint(0, 20)],
    'Col3': [np.random.randint(0, 20), np.random.randint(0, 20), np.random.randint(0, 20), np.random.randint(0, 20)],
    'Col4': ['a', 'b', 'c', None],
}
dict

{'Col1': [12, 4, 10, nan],
 'Col2': [5, nan, 16, 10],
 'Col3': [6, 16, 3, 15],
 'Col4': ['a', 'b', 'c', None]}

In [21]:
df = pd.DataFrame(dict)
df

Unnamed: 0,Col1,Col2,Col3,Col4
0,12.0,5.0,6,a
1,4.0,,16,b
2,10.0,16.0,3,c
3,,10.0,15,


Corroboramos los valores nulos, la función `isnull` regresa un DataFrame booleano donde los valores `True` son aquellos que se encuentren como `None` o `NaN`

In [22]:
df.isnull()

Unnamed: 0,Col1,Col2,Col3,Col4
0,False,False,False,False
1,False,True,False,False
2,False,False,False,False
3,True,False,False,True


El resultado anterior se puede traspolar a valores 0 y 1 con la siguiente opreción:

In [23]:
df.isnull() * 1

Unnamed: 0,Col1,Col2,Col3,Col4
0,0,0,0,0
1,0,1,0,0
2,0,0,0,0
3,1,0,0,1


Con `fillna` podemos asignarle valores especificos a todos los datos `null`

In [24]:
df.fillna('???')

Unnamed: 0,Col1,Col2,Col3,Col4
0,12.0,5.0,6,a
1,4.0,???,16,b
2,10.0,16.0,3,c
3,???,10.0,15,???


Con esa misma función en lugar de colocarle un valor alfanumérico, podemos llenarlos con valores estatisticos como la media. moda o varianza.

In [25]:
df.fillna(df.mean())

  df.fillna(df.mean())


Unnamed: 0,Col1,Col2,Col3,Col4
0,12.0,5.0,6,a
1,4.0,10.333333,16,b
2,10.0,16.0,3,c
3,8.666667,10.0,15,


El warning aparece en el caso especifico de la columna 4, ya que no es posible calcular un valo numérico a partir de un string.

In [26]:
df.fillna(df.median())

  df.fillna(df.median())


Unnamed: 0,Col1,Col2,Col3,Col4
0,12.0,5.0,6,a
1,4.0,10.0,16,b
2,10.0,16.0,3,c
3,10.0,10.0,15,


`interpolate` interpreta los valores numéricos como si estubier trabajando con una serie de números, al igual que con la función anterior a los strings no los afecta. 
<br>
Esta función es útil cuando sabemos que nuestros datos siguen ese patrón ed serie, de lo contrario es mejor manejar funciones estatisticas como la moda, mediana, media, etc.

In [27]:
df.interpolate()

Unnamed: 0,Col1,Col2,Col3,Col4
0,12.0,5.0,6,a
1,4.0,10.5,16,b
2,10.0,16.0,3,c
3,10.0,10.0,15,


Elimina los datos `null`

In [28]:
df.dropna()

Unnamed: 0,Col1,Col2,Col3,Col4
0,12.0,5.0,6,a
2,10.0,16.0,3,c
