# Carga de datos - Auditoría y Transparencia

Carga de los datasets: feedback de clientes, inventario central y transacciones logística.

In [None]:
import pandas as pd
import numpy as np


# Dataset de feedback de clientes
fb = pd.read_csv("feedback_clientes_v2.csv")
fb

Unnamed: 0,Feedback_ID,Transaccion_ID,Rating_Producto,Rating_Logistica,Comentario_Texto,Recomienda_Marca,Ticket_Soporte_Abierto,Edad_Cliente,Satisfaccion_NPS
0,FB-8000,TRX-17461,99,4,,,Sí,195,-17.5
1,FB-8001,TRX-17755,4,5,---,Maybe,Sí,59,-41.7
2,FB-8002,TRX-10534,3,4,No volvería,Maybe,0,84,-36.4
3,FB-8003,TRX-12569,2,3,---,,Sí,20,7.4
4,FB-8004,TRX-19159,4,2,Dañado,SI,No,83,61.0
...,...,...,...,...,...,...,...,...,...
4495,FB-11535,TRX-13156,3,1,Excelente,SI,1,54,-85.8
4496,FB-10167,TRX-14498,5,2,---,NO,Sí,70,80.2
4497,FB-8483,TRX-14656,2,5,Dañado,Maybe,Sí,66,28.2
4498,FB-10844,TRX-16982,4,4,Dañado,Maybe,0,27,-4.0


In [39]:
fb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4500 entries, 0 to 4499
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Feedback_ID             4500 non-null   object 
 1   Transaccion_ID          4500 non-null   object 
 2   Rating_Producto         4500 non-null   int64  
 3   Rating_Logistica        4500 non-null   int64  
 4   Comentario_Texto        3843 non-null   object 
 5   Recomienda_Marca        3381 non-null   object 
 6   Ticket_Soporte_Abierto  4500 non-null   object 
 7   Edad_Cliente            4500 non-null   int64  
 8   Satisfaccion_NPS        4500 non-null   float64
dtypes: float64(1), int64(3), object(5)
memory usage: 316.5+ KB


In [40]:
fb.describe()

Unnamed: 0,Rating_Producto,Rating_Logistica,Edad_Cliente,Satisfaccion_NPS
count,4500.0,4500.0,4500.0,4500.0
mean,3.635778,3.005111,51.172889,0.303089
std,7.942196,1.41852,21.830784,57.184315
min,1.0,1.0,18.0,-99.8
25%,2.0,2.0,34.0,-49.2
50%,3.0,3.0,50.0,1.1
75%,4.0,4.0,67.0,49.525
max,99.0,5.0,195.0,99.9


In [41]:
def valores_fuera_rango_rating(df, columna="Rating_Producto", minimo=0, maximo=5):
    """
    Muestra los valores que están fuera del rango [minimo, maximo] en la columna indicada.
    Por defecto: Rating_Producto entre 1 y 5.
    """
    fuera = df[(df[columna] < minimo) | (df[columna] > maximo)]
    return fuera

# Uso: ver filas con Rating_Producto fuera de 1 a 5
fuera = valores_fuera_rango_rating(fb)
print(f"Cantidad de valores fuera de rango (1-5): {len(fuera)}")
fuera

Cantidad de valores fuera de rango (1-5): 30


Unnamed: 0,Feedback_ID,Transaccion_ID,Rating_Producto,Rating_Logistica,Comentario_Texto,Recomienda_Marca,Ticket_Soporte_Abierto,Edad_Cliente,Satisfaccion_NPS
0,FB-8000,TRX-17461,99,4,,,Sí,195,-17.5
150,FB-8150,TRX-18076,99,5,---,Maybe,0,67,-8.8
300,FB-8300,TRX-11065,99,5,,NO,1,36,-78.8
450,FB-8450,TRX-19608,99,5,Dañado,,1,79,-58.3
600,FB-8600,TRX-19361,99,2,,Maybe,1,195,-44.0
750,FB-8750,TRX-13818,99,2,Excelente,Maybe,No,70,-87.0
900,FB-8900,TRX-10076,99,2,Lento,SI,No,24,67.0
1050,FB-9050,TRX-14012,99,4,,,1,45,20.5
1200,FB-9200,TRX-13482,99,2,,,1,195,15.5
1350,FB-9350,TRX-19385,99,5,Excelente,NO,0,28,-50.6


In [42]:
# Valores que puede tener Ticket_Soporte_Abierto
print("Valores únicos:", fb["Ticket_Soporte_Abierto"].unique())
print("\nFrecuencia:")
fb["Ticket_Soporte_Abierto"].value_counts()

Valores únicos: ['Sí' '0' 'No' '1']

Frecuencia:


Ticket_Soporte_Abierto
Sí    1158
1     1140
0     1117
No    1085
Name: count, dtype: int64

In [43]:
# Unificar: Sí/1 → 1, No/0 → 0 (más consistente para análisis)
mapeo = {"Sí": 1, "Si": 1, "1": 1, 1: 1, "No": 0, "0": 0, 0: 0}
fb["Ticket_Soporte_Abierto"] = fb["Ticket_Soporte_Abierto"].map(mapeo).astype(int)

print("Después de unificar (1 = Sí, 0 = No):")
fb["Ticket_Soporte_Abierto"].value_counts()

Después de unificar (1 = Sí, 0 = No):


Ticket_Soporte_Abierto
1    2298
0    2202
Name: count, dtype: int64

In [44]:
# Reemplazar 99 (valor fuera de rango) por NaN en Rating_Producto
fb["Rating_Producto"] = fb["Rating_Producto"].replace(99, np.nan)
fb["Rating_Producto"].value_counts(dropna=False)

Rating_Producto
5.0    932
1.0    922
3.0    903
2.0    876
4.0    837
NaN     30
Name: count, dtype: int64

In [45]:
# Donde Rating_Producto es NaN y el comentario es "Dañado", asignar 1
mask = fb["Rating_Producto"].isna() & (fb["Comentario_Texto"] == "Dañado")
fb.loc[mask, "Rating_Producto"] = 1
print(f"Actualizados {mask.sum()} registros (NaN + Comentario 'Dañado' → 1)")
fb["Rating_Producto"].value_counts(dropna=False)

Actualizados 5 registros (NaN + Comentario 'Dañado' → 1)


Rating_Producto
5.0    932
1.0    927
3.0    903
2.0    876
4.0    837
NaN     25
Name: count, dtype: int64

In [46]:
# Si Rating_Logistica > 4 y tiene ticket de soporte abierto (1), Rating_Producto = 1 (solo NaN)
mask = (fb["Rating_Logistica"] > 4) & (fb["Ticket_Soporte_Abierto"] == 1) & fb["Rating_Producto"].isna()
fb.loc[mask, "Rating_Producto"] = 1
print(f"Actualizados {mask.sum()} registros (Rating_Logística > 4 + ticket abierto → Rating_Producto = 1)")
fb["Rating_Producto"].value_counts(dropna=False)

Actualizados 2 registros (Rating_Logística > 4 + ticket abierto → Rating_Producto = 1)


Rating_Producto
5.0    932
1.0    929
3.0    903
2.0    876
4.0    837
NaN     23
Name: count, dtype: int64

In [47]:
# Si Recomienda_Marca es "NO", Rating_Producto = 1 (solo NaN)
mask = (fb["Recomienda_Marca"] == "NO") & fb["Rating_Producto"].isna()
fb.loc[mask, "Rating_Producto"] = 1
print(f"Actualizados {mask.sum()} registros (Recomienda_Marca = NO → Rating_Producto = 1)")
fb["Rating_Producto"].value_counts(dropna=False)

Actualizados 6 registros (Recomienda_Marca = NO → Rating_Producto = 1)


Rating_Producto
1.0    935
5.0    932
3.0    903
2.0    876
4.0    837
NaN     17
Name: count, dtype: int64

In [48]:
# Si Rating_Logistica < 2 y recomienda marca (SI/Sí), Rating_Producto = 5 (solo NaN)
recomienda = fb["Recomienda_Marca"].isin(["SI", "Sí"])
mask = (fb["Rating_Logistica"] < 2) & recomienda & fb["Rating_Producto"].isna()
fb.loc[mask, "Rating_Producto"] = 5
print(f"Actualizados {mask.sum()} registros (Rating_Logística < 2 + recomienda marca → Rating_Producto = 5)")
fb["Rating_Producto"].value_counts(dropna=False)

Actualizados 1 registros (Rating_Logística < 2 + recomienda marca → Rating_Producto = 5)


Rating_Producto
1.0    935
5.0    933
3.0    903
2.0    876
4.0    837
NaN     16
Name: count, dtype: int64

In [49]:
# Si Rating_Producto es NaN, recomienda marca (SI/Sí) y no hay ticket abierto (0) → Rating_Producto = 4
recomienda = fb["Recomienda_Marca"].isin(["SI", "Sí"])
mask = fb["Rating_Producto"].isna() & recomienda & (fb["Ticket_Soporte_Abierto"] == 0)
fb.loc[mask, "Rating_Producto"] = 4
print(f"Actualizados {mask.sum()} registros (NaN + recomienda marca + sin ticket → Rating_Producto = 4)")
fb["Rating_Producto"].value_counts(dropna=False)

Actualizados 3 registros (NaN + recomienda marca + sin ticket → Rating_Producto = 4)


Rating_Producto
1.0    935
5.0    933
3.0    903
2.0    876
4.0    840
NaN     13
Name: count, dtype: int64

In [50]:
# NaN faltantes en Rating_Producto
nan_faltantes = fb[fb["Rating_Producto"].isna()]
print(f"Cantidad de NaN faltantes en Rating_Producto: {len(nan_faltantes)}")
nan_faltantes

Cantidad de NaN faltantes en Rating_Producto: 13


Unnamed: 0,Feedback_ID,Transaccion_ID,Rating_Producto,Rating_Logistica,Comentario_Texto,Recomienda_Marca,Ticket_Soporte_Abierto,Edad_Cliente,Satisfaccion_NPS
0,FB-8000,TRX-17461,,4,,,1,195,-17.5
150,FB-8150,TRX-18076,,5,---,Maybe,0,67,-8.8
600,FB-8600,TRX-19361,,2,,Maybe,1,195,-44.0
750,FB-8750,TRX-13818,,2,Excelente,Maybe,0,70,-87.0
1050,FB-9050,TRX-14012,,4,,,1,45,20.5
1200,FB-9200,TRX-13482,,2,,,1,195,15.5
1500,FB-9500,TRX-14888,,4,Excelente,SI,1,47,-75.3
1650,FB-9650,TRX-12797,,3,No volvería,SI,1,59,31.0
2400,FB-10400,TRX-10388,,4,---,,0,195,23.6
3150,FB-11150,TRX-15002,,3,No volvería,,1,20,-34.2


In [51]:
# Categorías de Comentario_Texto en todo el dataset
print("Valores únicos:", fb["Comentario_Texto"].unique())
print("\nFrecuencia por categoría:")
fb["Comentario_Texto"].value_counts(dropna=False)

Valores únicos: [nan '---' 'No volvería' 'Dañado' 'Precio justo' 'Lento' 'Excelente']

Frecuencia por categoría:


Comentario_Texto
Excelente       677
Lento           668
NaN             657
Dañado          647
---             631
No volvería     624
Precio justo    596
Name: count, dtype: int64

In [52]:
# Reemplazar '---' por NaN en Comentario_Texto
fb["Comentario_Texto"] = fb["Comentario_Texto"].replace("---", np.nan)
print("Valores únicos después del reemplazo:")
fb["Comentario_Texto"].value_counts(dropna=False)

Valores únicos después del reemplazo:


Comentario_Texto
NaN             1288
Excelente        677
Lento            668
Dañado           647
No volvería      624
Precio justo     596
Name: count, dtype: int64

In [53]:
# Edades por encima de 90
edad_arriba_90 = fb[fb["Edad_Cliente"] > 90]
print(f"Cantidad de registros con Edad_Cliente > 90: {len(edad_arriba_90)}")
edad_arriba_90

Cantidad de registros con Edad_Cliente > 90: 23


Unnamed: 0,Feedback_ID,Transaccion_ID,Rating_Producto,Rating_Logistica,Comentario_Texto,Recomienda_Marca,Ticket_Soporte_Abierto,Edad_Cliente,Satisfaccion_NPS
0,FB-8000,TRX-17461,,4,,,1,195,-17.5
200,FB-8200,TRX-14110,2.0,3,Lento,SI,1,195,-64.9
400,FB-8400,TRX-16290,4.0,3,Lento,NO,0,195,3.8
600,FB-8600,TRX-19361,,2,,Maybe,1,195,-44.0
800,FB-8800,TRX-19439,1.0,3,Dañado,NO,0,195,1.6
1000,FB-9000,TRX-10621,5.0,1,Dañado,SI,0,195,-97.2
1200,FB-9200,TRX-13482,,2,,,1,195,15.5
1400,FB-9400,TRX-15458,5.0,2,Dañado,SI,0,195,22.8
1600,FB-9600,TRX-19234,2.0,3,Precio justo,SI,1,195,80.4
1800,FB-9800,TRX-17185,1.0,3,Dañado,,1,195,36.6


In [54]:
# Poner NaN en Edad_Cliente donde sea > 90
mask_edad = fb["Edad_Cliente"] > 90
fb.loc[mask_edad, "Edad_Cliente"] = np.nan
print(f"Reemplazados {mask_edad.sum()} registros (Edad_Cliente > 90 → NaN)")
fb["Edad_Cliente"].describe()

Reemplazados 23 registros (Edad_Cliente > 90 → NaN)


count    4477.000000
mean       50.433996
std        19.292211
min        18.000000
25%        33.000000
50%        50.000000
75%        67.000000
max        84.000000
Name: Edad_Cliente, dtype: float64

In [55]:
# Eliminar filas con NaN en Edad_Cliente
filas_antes = len(fb)
fb = fb.dropna(subset=["Edad_Cliente"])
filas_eliminadas = filas_antes - len(fb)
print(f"Eliminadas {filas_eliminadas} filas con Edad_Cliente NaN. Registros restantes: {len(fb)}")
fb.shape

Eliminadas 23 filas con Edad_Cliente NaN. Registros restantes: 4477


(4477, 9)

In [56]:
# Transacciones con Feedback_ID duplicado (todas las filas que comparten un ID repetido)
duplicados_fb = fb[fb.duplicated(subset=["Feedback_ID"], keep=False)]
print(f"Cantidad de filas con Feedback_ID duplicado: {len(duplicados_fb)}")
duplicados_fb.sort_values("Feedback_ID")

Cantidad de filas con Feedback_ID duplicado: 960


Unnamed: 0,Feedback_ID,Transaccion_ID,Rating_Producto,Rating_Logistica,Comentario_Texto,Recomienda_Marca,Ticket_Soporte_Abierto,Edad_Cliente,Satisfaccion_NPS
2005,FB-10005,TRX-10058,1.0,5,,SI,1,48.0,-9.4
4479,FB-10005,TRX-13264,4.0,2,No volvería,Maybe,0,73.0,1.1
2015,FB-10015,TRX-14240,5.0,2,No volvería,NO,0,33.0,-21.6
4115,FB-10015,TRX-18844,2.0,1,Lento,SI,1,41.0,-63.7
4120,FB-10022,TRX-10422,5.0,4,Dañado,,1,33.0,60.1
...,...,...,...,...,...,...,...,...,...
1992,FB-9992,TRX-18412,1.0,5,Excelente,Maybe,1,35.0,3.6
4022,FB-9996,TRX-18672,1.0,1,Precio justo,Maybe,1,72.0,43.5
1996,FB-9996,TRX-18344,2.0,5,Lento,SI,0,57.0,-56.0
4034,FB-9998,TRX-19690,1.0,3,Lento,NO,0,45.0,-42.2


In [57]:
# Transacciones con Transaccion_ID duplicado (todas las filas que comparten un ID repetido)
duplicados_trx = fb[fb.duplicated(subset=["Transaccion_ID"], keep=False)]
print(f"Cantidad de filas con Transaccion_ID duplicado: {len(duplicados_trx)}")
duplicados_trx.sort_values("Transaccion_ID")

Cantidad de filas con Transaccion_ID duplicado: 1630


Unnamed: 0,Feedback_ID,Transaccion_ID,Rating_Producto,Rating_Logistica,Comentario_Texto,Recomienda_Marca,Ticket_Soporte_Abierto,Edad_Cliente,Satisfaccion_NPS
195,FB-8195,TRX-10008,2.0,2,,NO,0,28.0,-13.4
1910,FB-9910,TRX-10008,2.0,2,,,0,53.0,75.7
3174,FB-11174,TRX-10016,4.0,3,Precio justo,,1,75.0,-2.6
191,FB-8191,TRX-10016,2.0,4,Lento,,1,32.0,-86.3
1256,FB-9256,TRX-10050,3.0,2,Dañado,Maybe,1,28.0,-72.1
...,...,...,...,...,...,...,...,...,...
2096,FB-10096,TRX-19958,5.0,5,,Maybe,0,76.0,-46.2
719,FB-8719,TRX-19958,2.0,3,,,1,60.0,67.7
2418,FB-10418,TRX-19973,2.0,1,Dañado,SI,1,25.0,-48.3
4035,FB-8949,TRX-19973,2.0,4,Dañado,,0,24.0,65.9


In [58]:
# Duplicados en Feedback_ID y Transaccion_ID al tiempo (par repetido)
duplicados_ambos = fb[fb.duplicated(subset=["Feedback_ID", "Transaccion_ID"], keep=False)]
print(f"Cantidad de filas con par (Feedback_ID, Transaccion_ID) duplicado: {len(duplicados_ambos)}")
duplicados_ambos.sort_values(["Feedback_ID", "Transaccion_ID"])

Cantidad de filas con par (Feedback_ID, Transaccion_ID) duplicado: 0


Unnamed: 0,Feedback_ID,Transaccion_ID,Rating_Producto,Rating_Logistica,Comentario_Texto,Recomienda_Marca,Ticket_Soporte_Abierto,Edad_Cliente,Satisfaccion_NPS


In [59]:
# Valores nulos en Rating_Producto
nan_rating = fb[fb["Rating_Producto"].isna()]
print(f"Cantidad de NaN en Rating_Producto: {len(nan_rating)}")
nan_rating

Cantidad de NaN en Rating_Producto: 8


Unnamed: 0,Feedback_ID,Transaccion_ID,Rating_Producto,Rating_Logistica,Comentario_Texto,Recomienda_Marca,Ticket_Soporte_Abierto,Edad_Cliente,Satisfaccion_NPS
150,FB-8150,TRX-18076,,5,,Maybe,0,67.0,-8.8
750,FB-8750,TRX-13818,,2,Excelente,Maybe,0,70.0,-87.0
1050,FB-9050,TRX-14012,,4,,,1,45.0,20.5
1500,FB-9500,TRX-14888,,4,Excelente,SI,1,47.0,-75.3
1650,FB-9650,TRX-12797,,3,No volvería,SI,1,59.0,31.0
3150,FB-11150,TRX-15002,,3,No volvería,,1,20.0,-34.2
4050,FB-9938,TRX-11372,,3,No volvería,,1,62.0,-83.7
4350,FB-9370,TRX-14563,,2,Lento,SI,1,27.0,53.3
