# Datos que faltan en un DataFrame

pandas controla los valors que faltan de dos maneras, NaN (Not a number) el cual solo se usa para indicar los valores de punto flotante que taltan.

Y para los valores que faltan y no son de tipo float, se usa el objeto None.

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

# None: Datos que faltan y no son float


In [2]:
example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Las operaciones que impliquen Series o DataFrames con None serán más lentas.

Como None básicamente devuelve los objetos Series o DataFrames al mundo de Python, el uso de agregaciones de Numpt o Pandas como sum() o min() producirán un error en matrices con valores None

In [3]:
example1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

# Nan: valores float que faltan
Numpy y pandas admiten Nan para sus operaciones vectorizadas rápidas y ufunc. 

El unico incoveniente es que toda operacion con Nan devolverá un Nan

In [6]:
np.nan + 1

nan

Lo rescatable es que no produce errores

In [9]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()


(nan, nan, nan)

Nan y None: valores NULL en pandas

Aunque Nan y None realmente pueden parecer lo mismo, pandas está diseñado para controlarlos indistintamente


In [16]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series[1]=None
int_series

0    1.0
1    NaN
2    3.0
dtype: float64

None y Nan son dos tipos diferentes de NULL en Pandas

Los métodos principales para controlar los valores que faltan en pandas son algunos de estos:

**isnull():** genera una máscara booleana que indica que faltan valores.
**notnull():** lo contrario de isnull().
**dropna():** devuelve una versión filtrada de los datos.
**fillna():** devuelve una copia de los datos con los valores que faltan rellenados o imputados.

# Deteccionde valores NULL
Tanto **isnull** como **notnull()** son métodos principales para detectar datos NULL, devuelven máscaras booleanas sobre los datos

In [23]:
example3 = pd.Series([0, np.nan,'', None])
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [21]:
example3[example3.notnull()]

0    0
2     
dtype: object

# Eliminacion de valores NULL

Pandas proporciona un medio práctico para quitar los valores NULL de Series y DataFrames

In [24]:
print(example3)
example3 = example3.dropna() #Elimina los valores null de la serie
print(example3)


0       0
1     NaN
2        
3    None
dtype: object
0    0
2     
dtype: object


Como DataFrames tienen dos dimensiones, ofrecen más opciones para la eliminación de datos

No se puede quitar un valor único de un objeto DataFrame; tiene que quitar filas o columnas completas. 

**Filas**=*Observaciones*

**Columnas**=*Variables*

Por ello, lo más seguro es que elimine filas en lugar de columnas, por lo que la configuracion predeterminada para dropna() es quitar las filas que continene valores NULL

En caso de necesitarlo, simplemente colocar en el metodo dropna(axis=1)

In [28]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      None]])
print(example4)

example4.dropna()

     0    1    2
0  1.0  NaN  7.0
1  2.0  5.0  8.0
2  NaN  6.0  NaN


Unnamed: 0,0,1,2
1,2.0,5.0,8.0


Si solo quiere quitar las filas o columnas que continene varios valores null o incluso solo todos los valores null, esto se especifica en dropna con parametros how y thresh

predeterminadamente: how=any 
con how=all quitara solo las filas o columnas que solo tengan valores Null

In [48]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      None]])
print(example4)
#example4.dropna(how='all')
#print(example4)

     0    1    2
0  1.0  NaN  7.0
1  2.0  5.0  8.0
2  NaN  6.0  NaN


In [47]:
example4[3]=np.nan
print(example4)
example4.dropna(axis=1, how='all')

     0    1    2   3
0  1.0  NaN  7.0 NaN
1  2.0  5.0  8.0 NaN


thresh proporciona un control más especifico, estableciendo el número de valores no Null que debe tener una fila o columna para que se conserven

In [40]:
example4=example4.dropna(axis='rows', thresh=2)
example4=example4.dropna(axis=1,how='all')
example4

Unnamed: 0,0,1,2
0,1.0,,7.0
1,2.0,5.0,8.0


# Relleno de valores Null

En ocaciones tendrá más sentido rellenar los valores NULL con otros válidos en lugar de quitarlos


para ello, pandas ofrece **fillna**. Esto devuelve una copia del objeto Series o DataFrame con los valores que faltan reemplazados por el que se de como parametro

In [45]:
example5=pd.Series([1,np.nan,2,None,3],index=list('abcde'))
print(example5)
example5_1=example5.fillna(0)
print(example5_1)
#Se puede tomar el ultimo valor de la serie antes de un valor Null como valor de reemplazo con ffill
example5_2=example5.fillna(method='ffill')
print(example5_2)

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64
a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64
a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64


Esto funciona igual para DataFrames, tambien debe especificar un eje sobre el que rellenar los valores Null

In [54]:
print(example4)
example4.fillna(method='bfill',axis=1) #bfill reemplaza los valores null de la columna con el valor anterior y ffill con el siguiente

     0    1    2
0  1.0  NaN  7.0
1  2.0  5.0  8.0
2  NaN  6.0  NaN


Unnamed: 0,0,1,2
0,1.0,7.0,7.0
1,2.0,5.0,8.0
2,6.0,6.0,


In [56]:
example4.fillna(method='bfill',axis=1).fillna(method='ffill',axis=1)

Unnamed: 0,0,1,2
0,1.0,7.0,7.0
1,2.0,5.0,8.0
2,6.0,6.0,6.0


In [58]:
example4.fillna(np.mean(example4))

Unnamed: 0,0,1,2
0,1.0,5.5,7.0
1,2.0,5.0,8.0
2,1.5,6.0,7.5


La forma en la que se controlan los datos faltantes DEPENDE de el significado de estos datos