In [10]:
import pandas as pd
import numpy as np

data_envios = {
    'tracking_id': ['TRK-001', 'TRK-002', np.nan, 'TRK-004', 'TRK-005', 'TRK-006'],
    'fecha_registro': ['2024-02-01', np.nan, np.nan, '2024-02-02', np.nan, '2024-02-03'],
    'peso_kg': [10.5, 5.0, 2.0, np.nan, 8.5, np.nan],
    'costo_envio': [150.0, 75.0, 50.0, np.nan, 120.0, np.nan],
    'estado_entrega': ['En Camino', 'Entregado', 'En Camino', 'Pendiente', np.nan, 'Entregado']
}

df_logistica = pd.DataFrame(data_envios)

print("---  REPORTE DE ENVÍOS (SUCIO) ---")
print(df_logistica)

---  REPORTE DE ENVÍOS (SUCIO) ---
  tracking_id fecha_registro  peso_kg  costo_envio estado_entrega
0     TRK-001     2024-02-01     10.5        150.0      En Camino
1     TRK-002            NaN      5.0         75.0      Entregado
2         NaN            NaN      2.0         50.0      En Camino
3     TRK-004     2024-02-02      NaN          NaN      Pendiente
4     TRK-005            NaN      8.5        120.0            NaN
5     TRK-006     2024-02-03      NaN          NaN      Entregado


# Solución 1: Paquetes Fantasmas (Eliminación Crítica)

In [11]:
# Eliminación de la fila del paquete sin tracking
df_limpio = df_logistica.dropna(subset=['tracking_id']).copy()
print(df_limpio)

  tracking_id fecha_registro  peso_kg  costo_envio estado_entrega
0     TRK-001     2024-02-01     10.5        150.0      En Camino
1     TRK-002            NaN      5.0         75.0      Entregado
3     TRK-004     2024-02-02      NaN          NaN      Pendiente
4     TRK-005            NaN      8.5        120.0            NaN
5     TRK-006     2024-02-03      NaN          NaN      Entregado


# Solución 2: Costos Perdidos (Relleno Financiero)

In [12]:
# Seleccionar columna 'costo_envio' y revisar que tenga datos nulos, si los tiene se agrega un 0
df_limpio['costo_envio'] = df_limpio['costo_envio'].fillna(0)
print(df_limpio)

  tracking_id fecha_registro  peso_kg  costo_envio estado_entrega
0     TRK-001     2024-02-01     10.5        150.0      En Camino
1     TRK-002            NaN      5.0         75.0      Entregado
3     TRK-004     2024-02-02      NaN          0.0      Pendiente
4     TRK-005            NaN      8.5        120.0            NaN
5     TRK-006     2024-02-03      NaN          0.0      Entregado


# Solución 3: El Cronograma Roto (Continuidad de Fechas)

In [13]:
# Usar el método forward fill para celdas vacías
df_limpio['fecha_registro'] = df_limpio['fecha_registro'].ffill()
print(df_limpio)

  tracking_id fecha_registro  peso_kg  costo_envio estado_entrega
0     TRK-001     2024-02-01     10.5        150.0      En Camino
1     TRK-002     2024-02-01      5.0         75.0      Entregado
3     TRK-004     2024-02-02      NaN          0.0      Pendiente
4     TRK-005     2024-02-02      8.5        120.0            NaN
5     TRK-006     2024-02-03      NaN          0.0      Entregado


# Solución 4: Auditoría de Estados (Detective de Datos)

In [14]:
mask_nulos = df_limpio["estado_entrega"].isna() # Guardamos en variable temporal
df_limpio["estado_desconocido"] = mask_nulos
df_limpio['estado_entrega'] = df_limpio['estado_entrega'].fillna('Investigar')

print(df_limpio[['tracking_id','estado_entrega','estado_desconocido']])


  tracking_id estado_entrega  estado_desconocido
0     TRK-001      En Camino               False
1     TRK-002      Entregado               False
3     TRK-004      Pendiente               False
4     TRK-005     Investigar                True
5     TRK-006      Entregado               False
