# Manejando datos nulos.

Primero vamos a crear un dataset con datos nulos.

In [21]:
import pandas as pd
import numpy as np

In [22]:
dataset = {
    'col1': [1, 2, 3, np.nan],
    'col2': [np.nan, 5, 6, 7],
    'col3': [None, 'b', 'a', 'a']
}

In [23]:
df = pd.DataFrame(dataset)
df

Unnamed: 0,col1,col2,col3
0,1.0,,
1,2.0,5.0,b
2,3.0,6.0,a
3,,7.0,a


``DataFrame.isnull()`` devuelve una máscara donde los verdaderos son los valores nulos. Soporta tanto nulos de Python, como de Pandas o NumPy.

In [24]:
df.isnull()

Unnamed: 0,col1,col2,col3
0,False,True,True
1,False,False,False
2,False,False,False
3,True,False,False


También, podemos multiplicarlos por 1 para obtener una máscara binaria.

In [25]:
df.isnull()*1

Unnamed: 0,col1,col2,col3
0,0,1,1
1,0,0,0
2,0,0,0
3,1,0,0


También, podemos llenar los nulos con un valor distinto. Por ejemplo, ``'Missing'``.

In [26]:
df.fillna('Missing')

Unnamed: 0,col1,col2,col3
0,1.0,Missing,Missing
1,2.0,5.0,b
2,3.0,6.0,a
3,Missing,7.0,a


Algo más útil podría ser llenarlos con la media. Esto lo hacemos pasándole como parámetro ``df.mean()``.

In [32]:
df.fillna(df.mean(numeric_only=True))

Unnamed: 0,col1,col2,col3
0,1.0,6.0,
1,2.0,5.0,b
2,3.0,6.0,a
3,2.0,7.0,a


También le podemos pedir a Pandas que interpole los valores faltantes. Esto lo podemos hacer con ``DataFrame.interpolate()``

In [35]:
df.interpolate()

  df.interpolate()


Unnamed: 0,col1,col2,col3
0,1.0,,
1,2.0,5.0,b
2,3.0,6.0,a
3,3.0,7.0,a


O, la manera más común de hacerlo, es borrando los registros que tengan datos nulos usando ``DataFrame.dropna()``.

In [36]:
df.dropna()

Unnamed: 0,col1,col2,col3
1,2.0,5.0,b
2,3.0,6.0,a
