# Carga de datos - Auditoría y Transparencia

Carga de los datasets: feedback de clientes, inventario central y transacciones logística.

In [17]:
import pandas as pd

# Cargar los tres datasets
df_feedback = pd.read_csv("feedback_clientes_v2.csv")
df_inventario = pd.read_csv("inventario_central_v2.csv")
df_transacciones = pd.read_csv("transacciones_logistica_v2.csv")

datasets = {
    "Feedback clientes": df_feedback,
    "Inventario central": df_inventario,
    "Transacciones logística": df_transacciones,
}

sep = "=" * 60

In [18]:
# --- FEEDBACK CLIENTES (feedback_clientes_v2.csv) ---
nombre = "Feedback clientes"
df = df_feedback

print(sep)
print(f"ARCHIVO: {nombre}")
print(sep)
print(f"\nDimensiones: {df.shape[0]} filas × {df.shape[1]} columnas")

nulos = df.isna().sum()
total_celdas, nulos_totales = df.size, nulos.sum()
pct = (nulos_totales / total_celdas * 100) if total_celdas else 0
print(f"\nValores nulos: {nulos_totales} / {total_celdas} celdas → {pct:.2f}%")
for col in nulos[nulos > 0].index:
    print(f"  - {col}: {nulos[col]} ({df[col].isna().sum()/len(df)*100:.2f}%)")

n_dup = df.duplicated(keep="first").sum()
print(f"\nDuplicados: {n_dup} filas / {len(df)} → {n_dup/len(df)*100:.2f}%")

print("\nDescribe:")
print(df.describe(include="all"))
print("\n.info():")
df.info()
print("\nPrimeras 20 muestras:")
df.head(20)

ARCHIVO: Feedback clientes

Dimensiones: 4500 filas × 9 columnas

Valores nulos: 1776 / 40500 celdas → 4.39%
  - Comentario_Texto: 657 (14.60%)
  - Recomienda_Marca: 1119 (24.87%)

Duplicados: 0 filas / 4500 → 0.00%

Describe:
       Feedback_ID Transaccion_ID  Rating_Producto  Rating_Logistica  \
count         4500           4500      4500.000000       4500.000000   
unique        4000           3623              NaN               NaN   
top        FB-8151      TRX-12797              NaN               NaN   
freq             4              4              NaN               NaN   
mean           NaN            NaN         3.635778          3.005111   
std            NaN            NaN         7.942196          1.418520   
min            NaN            NaN         1.000000          1.000000   
25%            NaN            NaN         2.000000          2.000000   
50%            NaN            NaN         3.000000          3.000000   
75%            NaN            NaN         4.000000   

Unnamed: 0,Feedback_ID,Transaccion_ID,Rating_Producto,Rating_Logistica,Comentario_Texto,Recomienda_Marca,Ticket_Soporte_Abierto,Edad_Cliente,Satisfaccion_NPS
0,FB-8000,TRX-17461,99,4,,,Sí,195,-17.5
1,FB-8001,TRX-17755,4,5,---,Maybe,Sí,59,-41.7
2,FB-8002,TRX-10534,3,4,No volvería,Maybe,0,84,-36.4
3,FB-8003,TRX-12569,2,3,---,,Sí,20,7.4
4,FB-8004,TRX-19159,4,2,Dañado,SI,No,83,61.0
5,FB-8005,TRX-16051,5,3,---,SI,Sí,77,95.0
6,FB-8006,TRX-11945,1,1,Precio justo,,Sí,46,63.4
7,FB-8007,TRX-19856,3,4,Precio justo,,0,24,-22.0
8,FB-8008,TRX-16694,1,4,Lento,NO,No,21,75.1
9,FB-8009,TRX-11807,1,4,No volvería,NO,No,67,64.8


In [19]:
# --- INVENTARIO CENTRAL (inventario_central_v2.csv) ---
nombre = "Inventario central"
df = df_inventario

print(sep)
print(f"ARCHIVO: {nombre}")
print(sep)
print(f"\nDimensiones: {df.shape[0]} filas × {df.shape[1]} columnas")

nulos = df.isna().sum()
total_celdas, nulos_totales = df.size, nulos.sum()
pct = (nulos_totales / total_celdas * 100) if total_celdas else 0
print(f"\nValores nulos: {nulos_totales} / {total_celdas} celdas → {pct:.2f}%")
for col in nulos[nulos > 0].index:
    print(f"  - {col}: {nulos[col]} ({df[col].isna().sum()/len(df)*100:.2f}%)")

n_dup = df.duplicated(keep="first").sum()
print(f"\nDuplicados: {n_dup} filas / {len(df)} → {n_dup/len(df)*100:.2f}%")

print("\nDescribe:")
print(df.describe(include="all"))
print("\n.info():")
df.info()
print("\nPrimeras 20 muestras:")
df.head(20)

ARCHIVO: Inventario central

Dimensiones: 2500 filas × 8 columnas

Valores nulos: 503 / 20000 celdas → 2.51%
  - Stock_Actual: 100 (4.00%)
  - Lead_Time_Dias: 403 (16.12%)

Duplicados: 0 filas / 2500 → 0.00%

Describe:
           SKU_ID Categoria  Stock_Actual  Costo_Unitario_USD  Punto_Reorden  \
count        2500      2500   2400.000000         2500.000000    2500.000000   
unique       2500         8           NaN                 NaN            NaN   
top     PROD-1000   Laptops           NaN                 NaN            NaN   
freq            1       329           NaN                 NaN            NaN   
mean          NaN       NaN    995.487083         1105.788816     198.046400   
std           NaN       NaN    597.689734        16989.836953      57.182355   
min           NaN       NaN    -50.000000            0.050000     100.000000   
25%           NaN       NaN    481.000000          403.652500     150.000000   
50%           NaN       NaN    987.000000          755.175000

Unnamed: 0,SKU_ID,Categoria,Stock_Actual,Costo_Unitario_USD,Punto_Reorden,Lead_Time_Dias,Bodega_Origen,Ultima_Revision
0,PROD-1000,smart-phone,,870.38,259,25-30 días,Norte,2025-11-17
1,PROD-1001,Accesorios,476.0,1397.26,169,25-30 días,Norte,2024-03-05
2,PROD-1002,Monitores,1209.0,611.62,214,5,Sur,2024-06-21
3,PROD-1003,smart-phone,1825.0,145.94,187,10,Sur,2025-01-07
4,PROD-1004,Smartphones,1713.0,77.78,105,5,Sur,2024-07-04
5,PROD-1005,???,470.0,1248.94,126,10,ZONA_FRANCA,2025-02-24
6,PROD-1006,Monitores,1651.0,810.87,181,25-30 días,norte,2025-04-17
7,PROD-1007,Monitores,966.0,1174.1,187,,Norte,2024-07-13
8,PROD-1008,smart-phone,963.0,389.92,219,10,norte,2025-03-07
9,PROD-1009,Tablets,66.0,550.37,123,25-30 días,norte,2025-05-18


In [20]:
# --- TRANSACCIONES LOGÍSTICA (transacciones_logistica_v2.csv) ---
nombre = "Transacciones logística"
df = df_transacciones

print(sep)
print(f"ARCHIVO: {nombre}")
print(sep)
print(f"\nDimensiones: {df.shape[0]} filas × {df.shape[1]} columnas")

nulos = df.isna().sum()
total_celdas, nulos_totales = df.size, nulos.sum()
pct = (nulos_totales / total_celdas * 100) if total_celdas else 0
print(f"\nValores nulos: {nulos_totales} / {total_celdas} celdas → {pct:.2f}%")
for col in nulos[nulos > 0].index:
    print(f"  - {col}: {nulos[col]} ({df[col].isna().sum()/len(df)*100:.2f}%)")

n_dup = df.duplicated(keep="first").sum()
print(f"\nDuplicados: {n_dup} filas / {len(df)} → {n_dup/len(df)*100:.2f}%")

print("\nDescribe:")
print(df.describe(include="all"))
print("\n.info():")
df.info()
print("\nPrimeras 20 muestras:")
df.head(20)

ARCHIVO: Transacciones logística

Dimensiones: 10000 filas × 10 columnas

Valores nulos: 2517 / 100000 celdas → 2.52%
  - Costo_Envio: 834 (8.34%)
  - Estado_Envio: 1683 (16.83%)

Duplicados: 0 filas / 10000 → 0.00%

Describe:
       Transaccion_ID     SKU_ID Fecha_Venta  Cantidad_Vendida  \
count           10000      10000       10000      10000.000000   
unique          10000       2889         500               NaN   
top         TRX-10000  PROD-1369  12/01/2025               NaN   
freq                1         11          39               NaN   
mean              NaN        NaN         NaN          7.413600   
std               NaN        NaN         NaN          4.205485   
min               NaN        NaN         NaN         -5.000000   
25%               NaN        NaN         NaN          4.000000   
50%               NaN        NaN         NaN          7.000000   
75%               NaN        NaN         NaN         11.000000   
max               NaN        NaN         NaN   

Unnamed: 0,Transaccion_ID,SKU_ID,Fecha_Venta,Cantidad_Vendida,Precio_Venta_Final,Costo_Envio,Tiempo_Entrega_Real,Estado_Envio,Ciudad_Destino,Canal_Venta
0,TRX-10000,PROD-3619,25/04/2025,-5,1752.48,,999,Entregado,Bucaramanga,Físico
1,TRX-10001,PROD-1456,29/07/2025,12,686.88,67.16,29,Entregado,Ventas_Web,WhatsApp
2,TRX-10002,PROD-1102,31/05/2025,2,402.06,32.55,13,Perdido,MED,Físico
3,TRX-10003,PROD-2126,23/01/2026,4,665.98,62.64,12,Perdido,Medellín,Online
4,TRX-10004,PROD-2003,09/10/2025,5,1222.62,52.91,15,Entregado,BOG,App
5,TRX-10005,PROD-1914,05/11/2025,2,740.61,25.63,29,Retrasado,Medellín,Online
6,TRX-10006,PROD-1571,20/06/2025,12,1349.06,30.32,23,,Bogotá,Físico
7,TRX-10007,PROD-1419,18/11/2025,8,481.5,21.21,13,Perdido,Cali,App
8,TRX-10008,PROD-3771,03/11/2025,1,1404.98,10.38,6,,Medellín,App
9,TRX-10009,PROD-3233,21/03/2025,3,701.4,63.82,26,,MED,Físico
