**Preprocesamiento de datos**

La calidad de los datos y la cantidad de información útil que contienen son factores clave que determinan lo bien que pueden aprender un algoritmo de aprendizaje automático. Por ello, el preprocesamiento de datos es una parte muy importante para el aprendizaje automático.



**Datos ausentes**

Muchas veces, cuando tratamos con datos del mundo real, puede resultar que estos valores no estén completos. Normalmente vemos los valores que faltan como espacios en blanco en nuestras tablas de datos o como cadenas de texto por defecto como NaN, que significa not a number o NULL.

Estos valores pueden producir resultados erróneos en nuestros algoritmos de aprendizaje automático.




In [1]:
import pandas as pd

data_bbdd = {"A":[1.0,5.0,9.0],
             "B":[2.0,6.0,10.0],
             "C":[3.0,None,11.0],
             "D":[4.0,8.0,None]}

columns = ["A","B","C","D"]

df_data = pd.DataFrame(data=data_bbdd,columns=columns)

df_data

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,9.0,10.0,11.0,


Este código nos permite leer datos desde un DataFrame. Podemos observar que no contamos con datos en la columna “C” y fila 1 ni en la columna “D” y fila 2.
Si el DataFrame es más grande, no se debe buscar valores manualmente. Utilicemos el siguiente código para devolver el número de valores sin valor o ausentes por columna del siguiente modo:


In [3]:
df_data.isnull().sum()

Unnamed: 0,0
A,0
B,0
C,1
D,1


**Eliminación**
<br>

La forma más sencilla de tratar con estos datos ausentes es la fila o columna correspondiente de la base de datos.

Para descartar la fila que contiene valores ausentes utilizaremos el siguiente código:


In [4]:
df_data.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


Para descartar la columna que contiene valores ausentes utilizaremos el siguiente código:

In [5]:
df_data.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,9.0,10.0


Eliminar las columnas donde todos los elementos no son válidos.

In [6]:
df_data.dropna(how="all")

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,9.0,10.0,11.0,


Solo se eliminan filas donde NaN aparece en determinadas columnas.

In [8]:
df_data.dropna(subset=["C", "D"])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


**Nota:** la eliminación de datos no siempre es la solución más adecuada para manejar datos ausentes. Por ejemplo, podemos acabar eliminando demasiadas muestras, lo que evitará obtener un análisis confiable; o, si eliminamos demasiadas columnas, corremos el riesgo de perder información valiosa que necesita nuestro clasificador para discriminar entre clases.