# Limpieza de Datos

Durante la preparación de nuestros datos (antes de poder usarlos para hacer análisis y ciencia de datos) hay un proceso fundamental que se llama **limpieza de datos**. Si no limpiamos adecuadamente nuestros datos, corremos el riesgo de que luego contaminen el resultado de nuestros análisis.

La limpieza de datos es un proceso que no puedes obviar, porque la mayoría de las veces, los datos provienen de fuentes externas, y nada te garantiza que los creadores de esos registros hayan seguido protocolos estrictos al generar esa información.

La limpieza de datos implica hacer procedimientos como:
* identificación de valores faltantes o nulos
* manejo de esos valores
* manejo de tipos de datos inapropiados
* eliminación de duplicados

En esta lección vamos a aprender a realizar algunas tareas básicas de limpieza de datos utilizando Pandas en Python.

Vamos a usar un conjunto de datos muy sencillo, pero apropiado como ejemplo, y que representa una pequeña tabla de ventas.

In [1]:
import pandas as pd

data = {"Id_producto": [1001, 1002, 1003, 1003],
        "Cantidad_vendida": [30, None, 25, 25],
        "Precio": [20.5, 15.0, None, 22.5]}

df = pd.DataFrame(data)
df

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,,15.0
2,1003,25.0,
3,1003,25.0,22.5


### Paso 1: Exploración

Usaremos los métodos de dataframes que ya hemos aprendido, para identificar la estructura y calidad de nuestros datos de origen:

In [2]:
df.head()

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,,15.0
2,1003,25.0,
3,1003,25.0,22.5


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Id_producto       4 non-null      int64  
 1   Cantidad_vendida  3 non-null      float64
 2   Precio            3 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 228.0 bytes


### Paso 2: Identificar Valores Faltantes (nulos)

In [4]:
df.isnull()

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,False,False,False
1,False,True,False
2,False,False,True
3,False,False,False


In [5]:
df.isnull().sum()

Unnamed: 0,0
Id_producto,0
Cantidad_vendida,1
Precio,1


### Paso 2: Manejo de Valores Faltantes

Aquí llega el momento de tomar decisiones. No hay soluciones únicas, sino que siempre va a depender del caso. En ocasiones querrás eliminar las filas con datos inválidos. En ocasiones querrás reemplazarlos por otros valores.

##### Opción 1 - Eliminar registros que contienen valores nulos

In [6]:
df_eliminados = df.dropna()
df_eliminados

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
3,1003,25.0,22.5


##### Opción 2: Reemplazar los Valores Nulos con Otros Valores

In [7]:
valores_nuevos = {"Cantidad_vendida": 0, "Precio":df["Precio"].mean()}
df_rellenados = df.fillna(valores_nuevos)
df_rellenados

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30.0,20.5
1,1002,0.0,15.0
2,1003,25.0,19.333333
3,1003,25.0,22.5


### Paso 3: Corrección de Tipos de Datos

In [8]:
df_rellenados["Cantidad_vendida"] = df_rellenados["Cantidad_vendida"].astype(int)
df_rellenados

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30,20.5
1,1002,0,15.0
2,1003,25,19.333333
3,1003,25,22.5


### Paso 4: Eliminación de Duplicados

In [9]:
df_unicos = df_rellenados.drop_duplicates()
df_unicos

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30,20.5
1,1002,0,15.0
2,1003,25,19.333333
3,1003,25,22.5


En este caso no funcionó, porque buscó registros completos que estén duplicados. Si queremos eliminar los duplicados que se repitan sólo en uno de los campos, usamos el parámetro `subset`.

In [10]:
df_unicos = df_rellenados.drop_duplicates(subset="Id_producto")
df_unicos

Unnamed: 0,Id_producto,Cantidad_vendida,Precio
0,1001,30,20.5
1,1002,0,15.0
2,1003,25,19.333333
