In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


# Configuración visual consistente para todo el análisis
sns.set(style="whitegrid")

## 1. Carga de los datos limpios

In [None]:
df = pd.read_csv("../data/processed/amazon_clean_v1.csv")

# Validacion mínima de integridad estructural
print(f'Cantidad de filas del dataframe: {df.shape[0]}, cantidadd de columnas del dataframe {df.shape[1]}')

Cantidad de filas del dataframe: 1465, cantidadd de columnas del dataframe 19


In [3]:
df.head()

Unnamed: 0,id_producto,nombre_producto,categoria,descuento_precio,precio_actual,porcentaje_descuento,calificacion,recuento_calificaciones,detalle_producto,id_usuario,nombre_usuario,id_de_revision,titulo_resenia,contenido_revision,link_imagen,link_producto,outlier_precio,diferencia_precio,tiene_descuento
0,B07JW9H4J1,Wayona Nylon Braided USB to Lightning Fast Cha...,Computers&Accessories|Accessories&Peripherals|...,399.0,1099.0,64,4.2,24269.0,High Compatibility : Compatible With iPhone 12...,"AG3D6O4STAQKAY2UVGEUV46KN35Q,AHMY5CWJMMK5BJRBB...","Manav,Adarsh gupta,Sundeep,S.Sayeed Ahmed,jasp...","R3HXWT0LRP0NMF,R2AJM3LFTLZHFO,R6AQJGUP6P86,R1K...","Satisfied,Charging is really fast,Value for mo...",Looks durable Charging is fine tooNo complains...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Wayona-Braided-WN3LG1-Sy...,False,700.0,True
1,B098NS6PVG,Ambrane Unbreakable 60W / 3A Fast Charging 1.5...,Computers&Accessories|Accessories&Peripherals|...,199.0,349.0,43,4.0,43994.0,"Compatible with all Type C enabled devices, be...","AECPFYFQVRUWC3KGNLJIOREFP5LQ,AGYYVPDD7YG7FYNBX...","ArdKn,Nirbhay kumar,Sagar Viswanathan,Asp,Plac...","RGIQEG07R9HS2,R1SMWZQ86XIN8U,R2J3Y1WL29GWDE,RY...","A Good Braided Cable for Your Type C Device,Go...",I ordered this cable to connect my phone to An...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Ambrane-Unbreakable-Char...,False,150.0,True
2,B096MSW6CT,Sounce Fast Phone Charging Cable & Data Sync U...,Computers&Accessories|Accessories&Peripherals|...,199.0,1899.0,90,3.9,7928.0,【 Fast Charger& Data Sync】-With built-in safet...,"AGU3BBQ2V2DDAMOAKGFAWDDQ6QHA,AESFLDV2PT363T2AQ...","Kunal,Himanshu,viswanath,sai niharka,saqib mal...","R3J3EQQ9TZI5ZJ,R3E7WBGK7ID0KV,RWU79XKQ6I1QF,R2...","Good speed for earlier versions,Good Product,W...","Not quite durable and sturdy,https://m.media-a...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Sounce-iPhone-Charging-C...,False,1700.0,True
3,B08HDJ86NZ,boAt Deuce USB 300 2 in 1 Type-C & Micro USB S...,Computers&Accessories|Accessories&Peripherals|...,329.0,699.0,53,4.2,94363.0,The boAt Deuce USB 300 2 in 1 cable is compati...,"AEWAZDZZJLQUYVOVGBEUKSLXHQ5A,AG5HTSFRRE6NL3M5S...","Omkar dhale,JD,HEMALATHA,Ajwadh a.,amar singh ...","R3EEUZKKK9J36I,R3HJVYCLYOY554,REDECAZ7AMPQC,R1...","Good product,Good one,Nice,Really nice product...","Good product,long wire,Charges good,Nice,I bou...",https://m.media-amazon.com/images/I/41V5FtEWPk...,https://www.amazon.in/Deuce-300-Resistant-Tang...,False,370.0,True
4,B08CF3B7N1,Portronics Konnect L 1.2M Fast Charging 3A 8 P...,Computers&Accessories|Accessories&Peripherals|...,154.0,399.0,61,4.2,16905.0,[CHARGE & SYNC FUNCTION]- This cable comes wit...,"AE3Q6KSUK5P75D5HFYHCRAOLODSA,AFUGIFH5ZAFXRDSZH...","rahuls6099,Swasat Borah,Ajay Wadke,Pranali,RVK...","R1BP4L2HH9TFUP,R16PVJEXKV6QZS,R2UPDB81N66T4P,R...","As good as original,Decent,Good one for second...","Bought this instead of original apple, does th...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Portronics-Konnect-POR-1...,False,245.0,True


## 2. Definicion de variables a utilizar

In [None]:
# Variables estrictamente necesarias 
variables = ["porcentaje_descuento", "calificacion", "recuento_calificaciones"]

# Estadísticos descriptivos
df[variables].describe()

Unnamed: 0,porcentaje_descuento,calificacion,recuento_calificaciones
count,1465.0,1465.0,1465.0
mean,47.691468,3.965734,18277.634812
std,21.635905,0.754522,42727.398216
min,0.0,0.2,2.0
25%,32.0,3.9,1191.0
50%,50.0,4.1,5179.0
75%,63.0,4.3,17325.0
max,94.0,5.0,426973.0


Se evita trabajar con columnas irrelevantes para reducir ruidos y sesgos cognitivos.

## 3. Segmentación por rangos de descuento (bins)

In [5]:
# Definición de rangos de descuento
bins = [0, 10, 20, 30, 40, 100]
# Definicion de las etiquetas
labels = ["0-10%", "10-20%", "20-30%", "30-40%", "40+%"]

# Creacion de variable categóorica
df["rango_descuento"] = pd.cut(df["porcentaje_descuento"], bins = bins, labels = labels)

# Distribución de productos por rango
df["rango_descuento"].value_counts().sort_index()

rango_descuento
0-10%      35
10-20%     96
20-30%    164
30-40%    174
40+%      947
Name: count, dtype: int64

La elección de rangos prioriza interpretabilidad sobre grandularidad.

## 4. Análisis descriptivo por rango

Vamos a comparar los grupos de un solo vistazo y sacar conclusiones

In [None]:
# Aplicación por rango de descuento para evaluar tendencias globales
resumen = (df.groupby("rango_descuento")    # Tomar el DataFrame y lo divide en grupos virtuales basándose en los valores únicos de las columna "rango_descuento"
           .agg(
    media_calificacion=("calificacion", "mean"),                    # Toma la columna "calificacion", aplica la funcion mean() (promedio)
    mediana_calificacion=("calificacion", "median"),                # Aplica la funcion (median) (el valor central) 
    recuento_calificacion = ("recuento_calificaciones", "sum"),     # Suma todos los valores de la columna recuento de calificaciones
    cantidad_productos=("calificacion", "count")                    # Cuenta el número de filas que no son nulas. 
))

resumen

  resumen = (df.groupby("rango_descuento")    # Tomar el DataFrame y lo divide en grupos virtuales basándose en los valores únicos de las columna "rango_descuento"


Unnamed: 0_level_0,media_calificacion,mediana_calificacion,recuento_calificacion,cantidad_productos
rango_descuento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0-10%,4.16,4.2,566485.0,35
10-20%,3.954167,4.1,1582703.0,96
20-30%,3.978049,4.2,3975696.0,164
30-40%,3.914368,4.1,2874072.0,174
40+%,3.960401,4.1,17329018.0,947


Se incluyen métricas de centralidad y volumen para evitar conclusiones sin soporte muestral.

## 5. Rating ponderado por cantidad de calificaciones

In [None]:
# Función para calcular media ponderada
def media_ponderada(x):
    """
    Calcula la clasificación promedio ponderada por el número de reseñas.
    Reduce el impacto de productos con pocas observaciones.
    """
    return np.average(x['calificacion'],weights=x['recuento_calificaciones'])

# Aplicación del cálculo por rango de descuento

rating_ponderado = (
    df
    .groupby('rango_descuento')
    .apply(media_ponderada)
    .rename('rating_ponderado')
)
rating_ponderado

  .groupby('rango_descuento')
  .apply(media_ponderada)


rango_descuento
0-10%     4.190917
10-20%    4.116532
20-30%    4.106325
30-40%    4.075937
40+%      4.138166
Name: rating_ponderado, dtype: float64

Este paso es critico para evitar sesgo por baja representavilidad.

In [8]:
# Unión con el resumen general
resumen = resumen.join(rating_ponderado)
resumen

Unnamed: 0_level_0,media_calificacion,mediana_calificacion,recuento_calificacion,cantidad_productos,rating_ponderado
rango_descuento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0-10%,4.16,4.2,566485.0,35,4.190917
10-20%,3.954167,4.1,1582703.0,96,4.116532
20-30%,3.978049,4.2,3975696.0,164,4.106325
30-40%,3.914368,4.1,2874072.0,174,4.075937
40+%,3.960401,4.1,17329018.0,947,4.138166


## Conciusion

* No se identifica una relacion monotónica entre descuento y clasificación.

* Las clasifiaciones se mantienen relativamente estables en todos los rangos.

* El volumen de reseñas explica más variabilidad que el descuento.

* El descuento no puede utilisarze como proxy de calidad percibida