# Análisis Exploratorio de Datos (EDA)
## Logística, Inventario y Transacciones

En este notebook exploraremos tres conjuntos de datos relacionados con operaciones de logística y gestión de inventario.

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import extras.functions_eda as eda
warnings.filterwarnings('ignore')

# Configuración de visualización
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (14, 6)

# Cargar los datos
transacciones = pd.read_csv('/Users/juangomez/Downloads/transacciones_logistica_v2.csv')
inventario = pd.read_csv('/Users/juangomez/Downloads/inventario_central_v2.csv')
feedback = pd.read_csv('/Users/juangomez/Downloads/feedback_clientes_v2.csv')

print("="*80)
print("DATOS CARGADOS EXITOSAMENTE")
print("="*80)
print(f"\nTransacciones: {transacciones.shape}")
print(f"Inventario: {inventario.shape}")
print(f"Feedback: {feedback.shape}")

DATOS CARGADOS EXITOSAMENTE

Transacciones: (10000, 10)
Inventario: (2500, 8)
Feedback: (4500, 9)


## 2. Análisis de Inventario

### 2.1 - Acercamiento inicial

In [4]:
print("\n" + "="*80)
print("INFORMACIÓN DETALLADA - INVENTARIO")
print("="*80)
print(f"Inventario: {inventario.shape}")
print(inventario.info())
print("\n" + "="*80)
print("ESTADÍSTICAS DESCRIPTIVAS NUMÉRICAS - INVENTARIO")
print("="*80)
print(inventario.select_dtypes(include=['number']).describe())


INFORMACIÓN DETALLADA - INVENTARIO
Inventario: (2500, 8)
<class 'pandas.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   SKU_ID              2500 non-null   str    
 1   Categoria           2500 non-null   str    
 2   Stock_Actual        2400 non-null   float64
 3   Costo_Unitario_USD  2500 non-null   float64
 4   Punto_Reorden       2500 non-null   int64  
 5   Lead_Time_Dias      2097 non-null   str    
 6   Bodega_Origen       2500 non-null   str    
 7   Ultima_Revision     2500 non-null   str    
dtypes: float64(2), int64(1), str(5)
memory usage: 156.4 KB
None

ESTADÍSTICAS DESCRIPTIVAS NUMÉRICAS - INVENTARIO
       Stock_Actual  Costo_Unitario_USD  Punto_Reorden
count   2400.000000         2500.000000    2500.000000
mean     995.487083         1105.788816     198.046400
std      597.689734        16989.836953      57.182355
min      -50.000000   

### 2.2 Limpieza de inventarios

In [5]:
# Ejecutar saneamiento y obtener reporte (devuelve: DataFrame saneado, DataFrame reporte)
inventario, inventarios_report = eda.sanitize_inventario(inventario)

print("\nResumen de procesos de saneamiento (Inventario):")
display(inventarios_report)

# Resumen adicional en formato tabla: absoluto y porcentaje respecto al total de filas del inventario
total_rows = inventario.shape[0]
summary = inventarios_report.copy()
summary['Porcentaje'] = (summary['Filas_afectadas'] / total_rows * 100).round(2)
summary = summary.sort_values('Filas_afectadas', ascending=False).reset_index(drop=True)

print("\nResumen (absoluto y % respecto al inventario):")
display(summary.style.format({'Porcentaje': '{:.2f}%'}))

print("\n" + "="*80)
print("SANITIZACIÓN DE DATOS COMPLETADA - INVENTARIO")
print("="*80)

print("\n" + "="*80)
print("INFORMACIÓN DETALLADA - INVENTARIO")
print("="*80)
print(f"Inventario: {inventario.shape}")
print(inventario.info())
print("\n" + "="*80)
print("ESTADÍSTICAS DESCRIPTIVAS NUMÉRICAS - INVENTARIO")
print("="*80)
print(inventario.select_dtypes(include=['number']).describe())
eda.print_table("PRIMERAS FILAS - INVENTARIO", inventario.head())


Resumen de procesos de saneamiento (Inventario):


Unnamed: 0,Proceso,Filas_afectadas
0,Remover espacios en blanco,0
1,Reemplazar cadenas vacías por NA,0
2,Conversión de fechas inválidas a NaT,0
3,Stock negativo convertido a positivo,60
4,Normalización de Bodega_Origen,2500
5,Normalización de Categoria,2500
6,Rellenar nulos y normalizar Lead_Time_Dias,403
7,Rellenar nulos en Stock_Actual con 0,100



Resumen (absoluto y % respecto al inventario):


Unnamed: 0,Proceso,Filas_afectadas,Porcentaje
0,Normalización de Bodega_Origen,2500,100.00%
1,Normalización de Categoria,2500,100.00%
2,Rellenar nulos y normalizar Lead_Time_Dias,403,16.12%
3,Rellenar nulos en Stock_Actual con 0,100,4.00%
4,Stock negativo convertido a positivo,60,2.40%
5,Remover espacios en blanco,0,0.00%
6,Reemplazar cadenas vacías por NA,0,0.00%
7,Conversión de fechas inválidas a NaT,0,0.00%



SANITIZACIÓN DE DATOS COMPLETADA - INVENTARIO

INFORMACIÓN DETALLADA - INVENTARIO
Inventario: (2500, 8)
<class 'pandas.DataFrame'>
RangeIndex: 2500 entries, 0 to 2499
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   SKU_ID              2500 non-null   str           
 1   Categoria           2500 non-null   string        
 2   Stock_Actual        2500 non-null   float64       
 3   Costo_Unitario_USD  2500 non-null   float64       
 4   Punto_Reorden       2500 non-null   int64         
 5   Lead_Time_Dias      2500 non-null   string        
 6   Bodega_Origen       2500 non-null   string        
 7   Ultima_Revision     2500 non-null   datetime64[us]
dtypes: datetime64[us](1), float64(2), int64(1), str(1), string(3)
memory usage: 156.4 KB
None

ESTADÍSTICAS DESCRIPTIVAS NUMÉRICAS - INVENTARIO
       Stock_Actual  Costo_Unitario_USD  Punto_Reorden
count   2500.000000         2500.000000 

Unnamed: 0,SKU_ID,Categoria,Stock_Actual,Costo_Unitario_USD,Punto_Reorden,Lead_Time_Dias,Bodega_Origen,Ultima_Revision
0,PROD-1000,smartphones,0.0,870.38,259,25-30 días,norte,2025-11-17
1,PROD-1001,accesorios,476.0,1397.26,169,25-30 días,norte,2024-03-05
2,PROD-1002,monitores,1209.0,611.62,214,5,sur,2024-06-21
3,PROD-1003,smartphones,1825.0,145.94,187,10,sur,2025-01-07
4,PROD-1004,smartphones,1713.0,77.78,105,5,sur,2024-07-04


## 3. Análisis de Transacciones

### 3.1 - Acercamiento inicial

In [6]:
print("\n" + "="*80)
print("INFORMACIÓN DETALLADA - TRANSACCIONES")
print("="*80)
print(f"Transacciones: {transacciones.shape}")
print(transacciones.info())
print("\n" + "="*80)
print("ESTADÍSTICAS DESCRIPTIVAS NUMÉRICAS - TRANSACCIONES")
print("="*80)
print(transacciones.select_dtypes(include=['number']).describe())


INFORMACIÓN DETALLADA - TRANSACCIONES
Transacciones: (10000, 10)
<class 'pandas.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Transaccion_ID       10000 non-null  str    
 1   SKU_ID               10000 non-null  str    
 2   Fecha_Venta          10000 non-null  str    
 3   Cantidad_Vendida     10000 non-null  int64  
 4   Precio_Venta_Final   10000 non-null  float64
 5   Costo_Envio          9166 non-null   float64
 6   Tiempo_Entrega_Real  10000 non-null  int64  
 7   Estado_Envio         8317 non-null   str    
 8   Ciudad_Destino       10000 non-null  str    
 9   Canal_Venta          10000 non-null  str    
dtypes: float64(2), int64(2), str(6)
memory usage: 781.4 KB
None

ESTADÍSTICAS DESCRIPTIVAS NUMÉRICAS - TRANSACCIONES
       Cantidad_Vendida  Precio_Venta_Final  Costo_Envio  Tiempo_Entrega_Real
count      10000.000000        10000.0000

### 3.2 - Limpieza de Transacciones

In [7]:
# Ejecutar saneamiento y obtener reporte (devuelve: DataFrame saneado, DataFrame reporte)
transacciones, transacciones_report = eda.sanitize_transacciones(transacciones)

print("\nResumen de procesos de saneamiento (Transacciones):")
display(transacciones_report)

# Resumen adicional en formato tabla: absoluto y porcentaje respecto al total de filas del inventario
total_rows = transacciones.shape[0]
summary = transacciones_report.copy()
summary['Porcentaje'] = (summary['Filas_afectadas'] / total_rows * 100).round(2)
summary = summary.sort_values('Filas_afectadas', ascending=False).reset_index(drop=True)

print("\nResumen (absoluto y % respecto al inventario):")
display(summary.style.format({'Porcentaje': '{:.2f}%'}))

print("\n" + "="*80)
print("SANITIZACIÓN DE DATOS COMPLETADA - TRANSACCIONES")
print("="*80)

print("\n" + "="*80)
print("INFORMACIÓN DETALLADA - TRANSACCIONES")
print("="*80)
print(f"Transacciones: {transacciones.shape}")
print(transacciones.info())
print("\n" + "="*80)
print("ESTADÍSTICAS DESCRIPTIVAS NUMÉRICAS - TRANSACCIONES")
print("="*80)
print(transacciones.select_dtypes(include=['number']).describe())
eda.print_table("PRIMERAS FILAS - TRANSACCIONES", transacciones.head())


Resumen de procesos de saneamiento (Transacciones):


Unnamed: 0,Proceso,Filas_afectadas
0,Conversión de fechas inválidas a NaT,0
1,Fechas futuras corregidas (año -1),63



Resumen (absoluto y % respecto al inventario):


Unnamed: 0,Proceso,Filas_afectadas,Porcentaje
0,Fechas futuras corregidas (año -1),63,0.63%
1,Conversión de fechas inválidas a NaT,0,0.00%



SANITIZACIÓN DE DATOS COMPLETADA - TRANSACCIONES

INFORMACIÓN DETALLADA - TRANSACCIONES
Transacciones: (10000, 10)
<class 'pandas.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Transaccion_ID       10000 non-null  str           
 1   SKU_ID               10000 non-null  str           
 2   Fecha_Venta          10000 non-null  datetime64[us]
 3   Cantidad_Vendida     10000 non-null  int64         
 4   Precio_Venta_Final   10000 non-null  float64       
 5   Costo_Envio          9166 non-null   float64       
 6   Tiempo_Entrega_Real  10000 non-null  int64         
 7   Estado_Envio         8317 non-null   str           
 8   Ciudad_Destino       10000 non-null  str           
 9   Canal_Venta          10000 non-null  str           
dtypes: datetime64[us](1), float64(2), int64(2), str(5)
memory usage: 781.4 KB
None

ESTADÍSTICAS DESCR

Unnamed: 0,Transaccion_ID,SKU_ID,Fecha_Venta,Cantidad_Vendida,Precio_Venta_Final,Costo_Envio,Tiempo_Entrega_Real,Estado_Envio,Ciudad_Destino,Canal_Venta
0,TRX-10000,PROD-3619,2025-04-25,-5,1752.48,,999,Entregado,Bucaramanga,Físico
1,TRX-10001,PROD-1456,2025-07-29,12,686.88,67.16,29,Entregado,Ventas_Web,WhatsApp
2,TRX-10002,PROD-1102,2025-05-31,2,402.06,32.55,13,Perdido,MED,Físico
3,TRX-10003,PROD-2126,2026-01-23,4,665.98,62.64,12,Perdido,Medellín,Online
4,TRX-10004,PROD-2003,2025-10-09,5,1222.62,52.91,15,Entregado,BOG,App
