 # **<font color="DarkBlue">Limpieza y Preparación de Datos 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Limpieza de datos</font>**

<p align="justify">
En el análisis de datos aplicado a negocios, gran parte del esfuerzo se destina a la preparación y procesamiento de la información antes de poder extraer valor de ella.
<br><br>
Este proceso incluye tareas como:

- la carga de datos desde diversas fuentes,
- la limpieza para eliminar inconsistencias o valores faltantes,
- la transformación para adecuarlos a los formatos requeridos y
- la reorganización para hacerlos más manejables o compatibles con las herramientas de análisis.

<p align="justify">
<br>
De hecho, se estima que estas actividades consumen hasta el 80 % del tiempo total de un proyecto de análisis de datos.
<br><br>
En entornos empresariales, los datos rara vez se presentan en el formato ideal para ser utilizados directamente en modelos predictivos, informes o dashboards. A menudo, están dispersos en múltiples sistemas como hojas de cálculo, bases de datos o archivos CSV, lo que exige un procesamiento previo significativo.
<br><br>
Python, especialmente con el uso de bibliotecas como Pandas, ofrece un conjunto de herramientas altamente eficientes para llevar a cabo estas transformaciones de datos. Pandas permite manejar grandes volúmenes de datos de manera rápida y flexible, lo que resulta ideal para tareas como la normalización de bases de datos o la depuración de registros duplicados o inconsistentes, actividades comunes en la limpieza y preparación de datos.
<br><br>
Un ejemplo concreto de este proceso podría ser la transformación de datos de clientes almacenados en un CRM en tablas optimizadas para un análisis de segmentación de mercado. Con Pandas, se pueden realizar operaciones complejas como filtrado, agregación y reestructuración de tablas, facilitando la creación de insights accionables que ayudan a mejorar la toma de decisiones estratégicas.
<br><br>
En definitiva, la limpieza y la preparación de datos es un componente esencial del análisis de datos y Pandas es fundamental para optimizar este proceso, reducir tiempos y maximizar la eficiencia en la obtención de resultados útiles.


 ## **<font color="DarkBlue">Ausencia de datos</font>**

<p align="justify">
La ausencia de datos es un desafío común, y su correcta gestión es crucial para obtener resultados fiables. Pandas facilita significativamente el trabajo con datos faltantes, haciendo que este proceso sea menos complejo y propenso a errores.
<br><br>
Por ejemplo, cuando se calcula estadísticas descriptivas como promedios, medianas o desviaciones estándar en Pandas, los valores faltantes se excluyen automáticamente del cálculo, lo que te permite seguir obteniendo información precisa sin interrumpir el flujo de trabajo.
<br><br>
En Pandas, se sigue una convención inspirada en el lenguaje de programación R, utilizando la notación <b>NA</b> (Not Available) para referirse a los datos faltantes. Estos valores pueden surgir de diversas situaciones:
<br><br>

- datos que nunca fueron capturados,
- errores en la recopilación o
- problemas técnicos.

<p align="justify">
<br><br>
En aplicaciones empresariales, los datos faltantes pueden afectar decisiones clave. Por ejemplo, si en una base de datos de ventas faltan registros en ciertas fechas debido a fallos en el sistema, los análisis de rendimiento de ventas pueden resultar distorsionados, llevando a decisiones erróneas sobre la demanda de productos.
<br><br>
Una buena práctica al trabajar con datos faltantes es realizar un análisis exhaustivo de su patrón de ausencia.
<br><br>
Este análisis no solo ayuda a identificar problemas en el proceso de recopilación de datos, sino que también puede revelar sesgos que podrían afectar los modelos predictivos o la interpretación de los resultados.
<br><br>
En un escenario de negocios, si los datos de clientes están incompletos, podría indicar un sesgo en el público objetivo que la empresa está alcanzando, lo que puede influir negativamente en la planificación de campañas de marketing o estrategias de ventas.
<br><br>
Pandas también trata el valor especial de Python, <b>None</b>, como equivalente a <b>NA</b>. Esta unificación simplifica la limpieza y transformación de datos, permitiendo a los analistas concentrarse en resolver problemas empresariales complejos en lugar de gestionar la estructura de los datos.


🚀 Ejemplo:

In [None]:
# Importar las bibliotecas necesarias
import pandas as pd
import numpy as np

In [None]:
# Crear un DataFrame simulado con datos de ventas
data = {
    'Fecha': ['2024-10-01', '2024-10-02', '2024-10-03', '2024-10-04', '2024-10-05'],
    'Region': ['Norte', 'Centro', 'Sur', 'Centro', 'Norte'],
    'Producto_A': [100, np.nan, 200, 150, np.nan],  # Faltan datos de ventas en días específicos
    'Producto_B': [np.nan, 250, 180, np.nan, 300],  # Faltan datos en otras filas
    'Producto_C': [50, 60, np.nan, 80, 90]          # Faltan ventas de Producto C en un día
}

In [None]:
# Crear un DataFrame
df_ventas = pd.DataFrame(data)

In [None]:
df_ventas

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
0,2024-10-01,Norte,100.0,,50.0
1,2024-10-02,Centro,,250.0,60.0
2,2024-10-03,Sur,200.0,180.0,
3,2024-10-04,Centro,150.0,,80.0
4,2024-10-05,Norte,,300.0,90.0


In [None]:
# Análisis básico de datos faltantes
print("\nResumen de datos faltantes:")
print(df_ventas.isna().sum())


Resumen de datos faltantes:
Fecha         0
Region        0
Producto_A    2
Producto_B    2
Producto_C    1
dtype: int64


 ### **<font color="DarkBlue">Estrategias de manejo de datos faltantes </font>**

In [None]:
# Opción 1: Eliminar filas con datos faltantes (dropna)
df_dropna = df_ventas.dropna()
print("\nDatos después de eliminar filas con valores faltantes:")
df_dropna


Datos después de eliminar filas con valores faltantes:


Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C


<p align="justify">
👀 La función <code>dropna()</code> elimina cualquier fila que contenga valores faltantes, aunque esto puede llevar a la pérdida de información valiosa.

In [None]:
# Opción 2: Rellenar los datos faltantes con la media (fillna)
df_fillna = df_ventas.fillna(df_ventas.mean(numeric_only=True))
print("\nDatos después de rellenar valores faltantes con la media:")
df_fillna


Datos después de rellenar valores faltantes con la media:


Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
0,2024-10-01,Norte,100.0,243.333333,50.0
1,2024-10-02,Centro,150.0,250.0,60.0
2,2024-10-03,Sur,200.0,180.0,70.0
3,2024-10-04,Centro,150.0,243.333333,80.0
4,2024-10-05,Norte,150.0,300.0,90.0


In [None]:
# Opción 3: Rellenar los datos faltantes con un valor específico (fillna con 0)
df_fillna_zeros = df_ventas.fillna(0)
print("\nDatos después de rellenar valores faltantes con ceros:")
df_fillna_zeros


Datos después de rellenar valores faltantes con ceros:


Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
0,2024-10-01,Norte,100.0,0.0,50.0
1,2024-10-02,Centro,0.0,250.0,60.0
2,2024-10-03,Sur,200.0,180.0,0.0
3,2024-10-04,Centro,150.0,0.0,80.0
4,2024-10-05,Norte,0.0,300.0,90.0


 ### **<font color="DarkBlue">Métodos de manejo de NA</font>**

<p align="justify">
  <strong>dropna</strong>: Este método filtra las etiquetas de los ejes (filas o columnas) en función de si los valores de cada etiqueta tienen datos faltantes. Puedes establecer umbrales variables para determinar cuántos datos faltantes se pueden tolerar antes de eliminar las etiquetas correspondientes.
<br><br>
  <strong>fillna</strong>: Este método completa los datos faltantes con un valor específico o utilizando un método de interpolación, como el relleno hacia adelante (<em>"ffill"</em>) o hacia atrás (<em>"bfill"</em>), para imputar los valores ausentes.
<br><br>
  <strong>isna</strong>: Devuelve un conjunto de valores booleanos que indican qué datos están faltantes o son <strong>NA</strong> (Not Available). Este método es útil para identificar los lugares donde los datos están incompletos.
<br><br>
  <strong>notna</strong>: Es la contraparte de <strong>isna</strong>. Retorna <strong>True</strong> para los valores que no son <strong>NA</strong> y <strong>False</strong> para los valores faltantes, lo que permite verificar la presencia de datos en el conjunto.


 ### **<font color="DarkBlue">Filtrado de datos faltantes</font>**

<p align="justify">
Existen algunas formas de filtrar los datos faltantes. Si bien siempre tiene la opción de hacerlo manualmente mediante la indexación booleana <code>pandas.isna</code>, <code>dropna</code> puede resultar útil.
<br><br>
En una serie, el método <code>dropna</code> devuelve la serie solo con los datos no nulos y los valores del índice.



In [None]:
df_ventas

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
0,2024-10-01,Norte,100.0,,50.0
1,2024-10-02,Centro,,250.0,60.0
2,2024-10-03,Sur,200.0,180.0,
3,2024-10-04,Centro,150.0,,80.0
4,2024-10-05,Norte,,300.0,90.0


In [None]:
producto_A = df_ventas['Producto_A']

In [None]:
producto_A.dropna()

Unnamed: 0,Producto_A
0,100.0
2,200.0
3,150.0


Esto es lo mismo que hacer:

In [None]:
producto_A[producto_A.notna()]

Unnamed: 0,Producto_A
0,100.0
2,200.0
3,150.0


<p align="justify">
Ahora, para evitar que al eliminar los NA de un dataframe nos quedemos sin datos, ya que por defecto e eliminan todas las filas que contienen un valor faltante, entonces utilizamos el parámetro <code>how="all"</code> para eliminar solo las filas que sean todas NA.

In [None]:
data = {
    'Fecha': [None, '2024-10-02', '2024-10-03', '2024-10-04', '2024-10-05'],
    'Region': [None, 'Centro', 'Sur', 'Centro', 'Norte'],
    'Producto_A': [None, np.nan, 200, 150, np.nan],
    'Producto_B': [np.nan, 250, 180, np.nan, 300],
    'Producto_C': [None, np.nan, np.nan, 80, np.nan]
}

In [None]:
df_ventas = pd.DataFrame(data)

In [None]:
df_ventas

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
0,,,,,
1,2024-10-02,Centro,,250.0,
2,2024-10-03,Sur,200.0,180.0,
3,2024-10-04,Centro,150.0,,80.0
4,2024-10-05,Norte,,300.0,


In [None]:
df_ventas.dropna()

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C


In [None]:
df_ventas.dropna(how="all")

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
1,2024-10-02,Centro,,250.0,
2,2024-10-03,Sur,200.0,180.0,
3,2024-10-04,Centro,150.0,,80.0
4,2024-10-05,Norte,,300.0,


Para eliminar columnas de la misma manera, utilizamos el parámetro <code>axis="columns"</code>



In [None]:
df_ventas["Producto_D"] = None

In [None]:
df_ventas

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C,Producto_D
0,,,,,,
1,2024-10-02,Centro,,250.0,,
2,2024-10-03,Sur,200.0,180.0,,
3,2024-10-04,Centro,150.0,,80.0,
4,2024-10-05,Norte,,300.0,,


In [None]:
df_ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Fecha       4 non-null      object 
 1   Region      4 non-null      object 
 2   Producto_A  2 non-null      float64
 3   Producto_B  3 non-null      float64
 4   Producto_C  1 non-null      float64
 5   Producto_D  0 non-null      object 
dtypes: float64(3), object(3)
memory usage: 368.0+ bytes


In [None]:
df_ventas.dropna(axis="columns")

0
1
2
3
4


In [None]:
df_ventas.dropna(axis="columns", how="all", inplace=True)

In [None]:
df_ventas

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
0,,,,,
1,2024-10-02,Centro,,250.0,
2,2024-10-03,Sur,200.0,180.0,
3,2024-10-04,Centro,150.0,,80.0
4,2024-10-05,Norte,,300.0,


<p align="Justify">
Supongamos que deseamos conservar únicamente las filas que contengan como máximo una determinada cantidad de valores faltantes.
Podemos indicarlo con el parámetro <code>thresh</code>

In [None]:
df_ventas

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
0,,,,,
1,2024-10-02,Centro,,250.0,
2,2024-10-03,Sur,200.0,180.0,
3,2024-10-04,Centro,150.0,,80.0
4,2024-10-05,Norte,,300.0,


In [None]:
df_ventas.dropna(thresh=2)

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
1,2024-10-02,Centro,,250.0,
2,2024-10-03,Sur,200.0,180.0,
3,2024-10-04,Centro,150.0,,80.0
4,2024-10-05,Norte,,300.0,


<p align="Justify">
Supongamos que deseamos eliminar únicamente de la última columna.
Podemos indicarlo con el parámetro <code>subset</code>

In [None]:
df_ventas

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
0,,,,,
1,2024-10-02,Centro,,250.0,
2,2024-10-03,Sur,200.0,180.0,
3,2024-10-04,Centro,150.0,,80.0
4,2024-10-05,Norte,,300.0,


In [None]:
df_ventas.dropna(subset=["Producto_C"])

Unnamed: 0,Fecha,Region,Producto_A,Producto_B,Producto_C
3,2024-10-04,Centro,150.0,,80.0


 ## **<font color="DarkBlue">Completando datos faltantes</font>**

<p align="justify">
En lugar de filtrar los datos faltantes (y posiblemente descartar otros datos junto con ellos), es posible rellenar los datos "vacíos" de varias maneras...

In [None]:
# Crear un DataFrame simulado con datos de envíos
data = {
    'Fecha_Envio': ['2024-09-30', '2024-10-01', '2024-10-02', '2024-10-03', '2024-10-04'],
    'Region': ['Norte', 'Centro', 'Sur', 'Centro', 'Norte'],
    'Tiempo_Entrega_dias': [3, np.nan, 5, np.nan, 2],  # Faltan tiempos de entrega para algunos envíos
    'Costo_Envio': [100, 120, np.nan, 130, np.nan]     # Faltan costos de envío
}

In [None]:
# Crear un DataFrame
df_envios = pd.DataFrame(data)
df_envios

Unnamed: 0,Fecha_Envio,Region,Tiempo_Entrega_dias,Costo_Envio
0,2024-09-30,Norte,3.0,100.0
1,2024-10-01,Centro,,120.0
2,2024-10-02,Sur,5.0,
3,2024-10-03,Centro,,130.0
4,2024-10-04,Norte,2.0,


 ### **<font color="DarkBlue">Estrategias de relleno de datos faltantes </font>**

In [None]:
# 1. Rellenar los tiempos de entrega faltantes con la mediana de la columna

df_fillna_mediana = df_envios.copy()
df_fillna_mediana['Tiempo_Entrega_dias'] = df_fillna_mediana['Tiempo_Entrega_dias'].fillna(df_fillna_mediana['Tiempo_Entrega_dias'].median())
print("\nRellenar tiempos de entrega faltantes con la mediana:")
df_fillna_mediana



Rellenar tiempos de entrega faltantes con la mediana:


Unnamed: 0,Fecha_Envio,Region,Tiempo_Entrega_dias,Costo_Envio
0,2024-09-30,Norte,3.0,100.0
1,2024-10-01,Centro,3.0,120.0
2,2024-10-02,Sur,5.0,
3,2024-10-03,Centro,3.0,130.0
4,2024-10-04,Norte,2.0,


In [None]:
# 2. Rellenar los costos de envío faltantes con un valor fijo (por ejemplo, 110)

df_fillna_fijo = df_envios.copy()
df_fillna_fijo['Costo_Envio'] = df_fillna_fijo['Costo_Envio'].fillna(110)
print("\nRellenar los costos de envío faltantes con un valor fijo (110):")
df_fillna_fijo


Rellenar los costos de envío faltantes con un valor fijo (110):


Unnamed: 0,Fecha_Envio,Region,Tiempo_Entrega_dias,Costo_Envio
0,2024-09-30,Norte,3.0,100.0
1,2024-10-01,Centro,,120.0
2,2024-10-02,Sur,5.0,110.0
3,2024-10-03,Centro,,130.0
4,2024-10-04,Norte,2.0,110.0


<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>