<a href="https://colab.research.google.com/github/amandavilla09/analysisebay/blob/main/An%C3%A1lisisEbay_TFG.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de tendencias con productos de Ebay
- Trabajo de Fin de Grado
- Autora: Amanda Villacrés Acosta

#Índice

>[Análisis de tendencias con productos de Ebay](#scrollTo=F5idDey4_IMV)

>[Índice](#scrollTo=0Kdh2UW3_alJ)

>[Introducción](#scrollTo=eniXdsjo_lz6)

>[Limpieza de formato numérico](#scrollTo=GPrifBtNYneX)

>[Exploración y limpieza de los datos](#scrollTo=rmfr5nOa9jWG)

>>[2.1. Correccion general de tipos de datos](#scrollTo=1pwr_mTDq4CO)

>>[2.2. Manejo de valores nulos](#scrollTo=cRCuaPsYaEh6)

>>[2.3. Conversión final a enteros](#scrollTo=UbFQvYKJaVyo)

>>[2.4. Reordenar Columnas](#scrollTo=NM_3kjPBsocO)

>>[2.5. Corregir valores atípicos](#scrollTo=dsJbdXsBy71x)

>>[2.6. Filtración del dataset](#scrollTo=IqmXvDOqjxFc)

>[Análisis de productos en tendencia](#scrollTo=if_sr3ElEz8l)

>>[3.1. Top 10 productos más vendidos en los últimos 30 días](#scrollTo=Fwt1dcuAq6PP)

>>[3.2. Análisis de ventas y comportamiento por categoría](#scrollTo=l5EENBJ0u61W)

>>[3.3 Análisis de precios y ventas:](#scrollTo=7TONRuKCxWY2)

>>[3.4. Vendedores destacados por categoría](#scrollTo=pO4C9V21x4SA)

>>[3.5. Análisis de concentración de ventas](#scrollTo=kIg8gbUuyUyb)



# Introducción

Para comenzar con este análisis, lo primero que vamos a hacer es importar un archivo en formato .xlsx. En él se encuentran todas las subcategorías de eBay que hemos obtenido a través de Zik Analytics. Cada una está organizada en una hoja distinta dentro del mismo Excel, lo que facilita mucho la exploración y el trabajo posterior.

La idea detrás de este análisis no es solo mirar datos por mirar. Lo que realmente buscamos es detectar patrones, identificar pequeñas pistas que nos ayuden a entender qué productos están destacando y hacia dónde se mueven las tendencias. A partir de ahí, podremos sacar conclusiones con sentido y, sobre todo, con utilidad real.



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Importamos el módulo de Pandas
import pandas as pd


In [None]:
# Cargamos todas las hojas del archivo Excel
archivo_excel = '/content/drive/MyDrive/TFG_Ebay_Analisis/subcategorias_ebay.xlsx' # Reemplaza esta ruta con la ubicación real de tu archivo en Drive
xlsx = pd.ExcelFile(archivo_excel)
hojas = xlsx.sheet_names

# Combinamos todas las hojas en un solo DataFrame
df_completo = pd.concat(
    [pd.read_excel(xlsx, sheet_name=hoja).assign(Categoria=hoja) for hoja in hojas],
    ignore_index=True
    )

# Visualizamos
df_completo


Unnamed: 0,Seller,Feedback,30 Day Sales,Product Name,Total Sold,Price,Categoria
0,yyegogo,3.343,29.0,Womens Breathable Elastic Lightweight Slippers...,277.0,$14.99,1.Women's Shoes_slippers
1,yyegogo,3.343,25.0,Womens Canvas Loafer Clog Slip on House Shoes ...,312.0,$15.19,1.Women's Shoes_slippers
2,cloud-1014,10.195,23.0,Womens Cozy Memory Foam Loafer Slippers Fleece...,114.0,$18.99,1.Women's Shoes_slippers
3,cloud-1014,10.195,20.0,Womens Lightweight Chenille Soft Cozy House Sl...,57.0,$17.88,1.Women's Shoes_slippers
4,crowderlisa,36.17,20.0,UGG Womens Dakota Chestnut Suede Slippers Mocc...,113.0,$62.99,1.Women's Shoes_slippers
...,...,...,...,...,...,...,...
3860,xmwex01,0.0,0.0,Women's 2 Piece Outfits Lounge Set Half Zip Sw...,0.0,$33.59,Outfits & Sets
3861,xmwex01,0.0,0.0,Women's 2 Piece Skirt Set Sweatsuits Tennis Ou...,0.0,$20.99,Outfits & Sets
3862,xmwex01,0.0,0.0,Womens Blazer 2 Piece Outfits Skirt Set Vest S...,0.0,$25.99,Outfits & Sets
3863,xmwex01,0.0,0.0,Two Piece Sets Women Summer Lounge Mock Neck T...,0.0,$20.79,Outfits & Sets


In [None]:
# Agrupamos por la columna y contamos el número de filas en cada grupo para ver si coinciden con los datos originales
columna_agrupar = 'Categoria'
conteo_por_grupo = df_completo.groupby(columna_agrupar).size()

print(conteo_por_grupo)

Categoria
 1.Women's Shoes_slippers          100
 Athletic Shoes                    100
 Sunglasses & Sunglasses access    100
 hair accessories                  100
2.womens accessories_belts         100
3.Clothing_Jumpsuits & Rompers     100
Activewear                         100
Belt Buckles                       100
Coats, Jackets & Vests             100
Dresses                            100
Fascinators & Headpieces            64
Gloves & Mittens                   100
Handbag Accessories                100
Hosiery & Socks                    100
ID & Document Holders              100
Intimates & Sleep                  100
Jeans                              100
Key Chains, Rings & Finders        100
Leggings                           100
Outfits & Sets                     100
Pants                              100
Scarves & Wraps                    100
Shoe Charms & Jewelry              100
Shorts                             100
Skirts                             100
Suits & Suit Se

# 1. Limpieza de formato numérico

Al empezar a revisar los datos, nos encontramos con un pequeño obstáculo: varias columnas clave —como Total Sold, 30 Day Sales y Feedback— venían con comas (,) como separadores de miles. Aunque parece un detalle menor, eso hacía que pandas no pudiera reconocer esos valores como números, lo cual afectaba directamente cualquier análisis posterior.

Para solucionarlo, creamos una función específica que hiciera el trabajo por nosotros. Lo que hicimos fue:

1. Primero, convertir esas columnas a texto temporalmente.

2. Luego, eliminar las comas que estaban interfiriendo.

3. Y por último, convertir esos valores "limpios" en números reales, usando el formato decimal (float), que es más tolerante a posibles errores en esta fase.

Esta limpieza fue fundamental para que pandas pudiera entender correctamente los datos y nos dejara trabajar con ellos sin problemas en los siguientes pasos.

In [None]:
# Función para limpiar y convertir columnas numéricas con separadores de miles
def limpiar_y_convertir_miles(df, columnas):
    for col in columnas:
        # nos Aseguramos de que la columna es de tipo string
        df[col] = df[col].astype(str)
        # Eliminamos las comas que actúan como separadores de miles
        df[col] = df[col].str.replace(',', '', regex=False)
        # Convertimos a numérico (float inicialmente para manejar posibles decimales o errores)
        df[col] = pd.to_numeric(df[col], errors='coerce')
    return df

# Aplicamos la función a las columnas "Total Sold", "30 Day Sales" y "Feedback"
df_completo = limpiar_y_convertir_miles(df_completo, ['Total Sold', '30 Day Sales', 'Feedback'])

# Verificamos los tipos de datos después de la limpieza de comas
print(df_completo.dtypes)
print(df_completo[['Total Sold', '30 Day Sales', 'Feedback']].head()) # Ver los primeros valores


Seller           object
Feedback        float64
30 Day Sales    float64
Product Name     object
Total Sold      float64
Price            object
Categoria        object
dtype: object
   Total Sold  30 Day Sales  Feedback
0       277.0          29.0     3.343
1       312.0          25.0     3.343
2       114.0          23.0    10.195
3        57.0          20.0    10.195
4       113.0          20.0    36.170


# 2. Exploración y limpieza de los datos

In [None]:
# Comprobamos el número de filas y columnas
df_completo.shape


(3865, 7)

## **2.1. Correccion general de tipos de datos**

Hay datos que tienen el tipo incorrecto, por lo que hay que corregir, por ejemplo:

Revisamos los tipos de datos de todas las columnas para asegurarnos de que fueran los correctos para el análisis:

* Columnas de texto como "Seller", "Product Name" y "Categoria" se aseguraron como texto (str).
* La columna "Price" se convirtió a número con decimales (float), eliminando símbolos de moneda si los había.
*Las columnas que limpiamos en el paso anterior ("Total Sold", "30 Day Sales", "Feedback"), aunque ya eran float temporalmente, estaban listas para el siguiente paso.











In [None]:
#df_completo.dtypes

In [None]:
# Correccion del tipo de datos
# 1. Convertir columnas de texto a string
df_completo['Seller'] = df_completo['Seller'].astype(str)
df_completo['Product Name'] = df_completo['Product Name'].astype(str)
df_completo['Categoria'] = df_completo['Categoria'].astype(str)

# 2. Convertir 'Price' a numérico (float), limpiando símbolos de moneda si existen
df_completo['Price'] = pd.to_numeric(df_completo['Price'].astype(str).str.replace('[\$,]', '', regex=True), errors='coerce')

print("Tipos de datos después de corregir otras columnas:")
print(df_completo.dtypes)

Tipos de datos después de corregir otras columnas:
Seller           object
Feedback        float64
30 Day Sales    float64
Product Name     object
Total Sold      float64
Price           float64
Categoria        object
dtype: object


## **2.2. Manejo de valores nulos**

Identificamos las filas que contenían valores nulos, especialmente en columnas clave como "Feedback", "30 Day Sales", "Total Sold" y "Price". Como el número de filas con nulos era muy pequeño en comparación con el tamaño total del dataset, y considerando que un valor nulo en estas columnas a menudo significa ausencia de actividad o datos no disponibles (no necesariamente un "cero"), decidimos eliminar esas filas para trabajar con datos completos y confiables en los campos más importantes

In [None]:
# Valores nulos
# (Ahora que limpiamos formatos y convertimos tipos, manejamos los nulos introducidos o preexistentes)
print("\nConteo de nulos ANTES de eliminar:")
print(df_completo.isnull().sum())

# Eliminamos filas donde hay nulos en cualquiera de estas columnas clave
df_completo = df_completo.dropna(subset=['Feedback', '30 Day Sales', 'Total Sold', 'Price']).reset_index(drop=True)

print("\nConteo de nulos DESPUÉS de eliminar:")
print(df_completo.isnull().sum())


Conteo de nulos ANTES de eliminar:
Seller          0
Feedback        1
30 Day Sales    1
Product Name    0
Total Sold      1
Price           1
Categoria       0
dtype: int64

Conteo de nulos DESPUÉS de eliminar:
Seller          0
Feedback        0
30 Day Sales    0
Product Name    0
Total Sold      0
Price           0
Categoria       0
dtype: int64


## **2.3. Conversión final a enteros**

Después de eliminar las filas con nulos, las columnas "Total Sold" y "30 Day Sales" (y "Feedback", ya que también representa un conteo) se convirtieron a tipos de número entero. Esto es apropiado porque representan cantidades contables y ya no contienen valores nulos ni formatos incorrectos.

In [None]:
# Conversión final de tipos a entero para conteos
# (Ahora que los nulos en estas columnas se han manejado, podemos convertirlas a entero)

# Convertir las columnas de conteo a tipo entero.
df_completo['Total Sold'] = df_completo['Total Sold'].astype('int64')
df_completo['30 Day Sales'] = df_completo['30 Day Sales'].astype('int64')
df_completo['Feedback'] = df_completo['Feedback'].astype('int64')

print("\nTipos de datos después de convertir a entero:")
print(df_completo.dtypes)
print(df_completo.head())


Tipos de datos después de convertir a entero:
Seller           object
Feedback          int64
30 Day Sales      int64
Product Name     object
Total Sold        int64
Price           float64
Categoria        object
dtype: object
        Seller  Feedback  30 Day Sales  \
0      yyegogo         3            29   
1      yyegogo         3            25   
2   cloud-1014        10            23   
3   cloud-1014        10            20   
4  crowderlisa        36            20   

                                        Product Name  Total Sold  Price  \
0  Womens Breathable Elastic Lightweight Slippers...         277  14.99   
1  Womens Canvas Loafer Clog Slip on House Shoes ...         312  15.19   
2  Womens Cozy Memory Foam Loafer Slippers Fleece...         114  18.99   
3  Womens Lightweight Chenille Soft Cozy House Sl...          57  17.88   
4  UGG Womens Dakota Chestnut Suede Slippers Mocc...         113  62.99   

                   Categoria  
0   1.Women's Shoes_slippers  
1   1

## **2.4. Reordenar Columnas**

Opcionalmente, reordenamos las columnas del DataFrame para colocar la columna "Categoria" al principio, lo cual puede facilitar la visualización y el análisis por categoría.

In [None]:
# Colocamos 'Categoria' al principio
columnas = ['Categoria'] + [col for col in df_completo.columns if col != 'Categoria']
df_completo = df_completo[columnas]
df_completo

Unnamed: 0,Categoria,Seller,Feedback,30 Day Sales,Product Name,Total Sold,Price
0,1.Women's Shoes_slippers,yyegogo,3,29,Womens Breathable Elastic Lightweight Slippers...,277,14.99
1,1.Women's Shoes_slippers,yyegogo,3,25,Womens Canvas Loafer Clog Slip on House Shoes ...,312,15.19
2,1.Women's Shoes_slippers,cloud-1014,10,23,Womens Cozy Memory Foam Loafer Slippers Fleece...,114,18.99
3,1.Women's Shoes_slippers,cloud-1014,10,20,Womens Lightweight Chenille Soft Cozy House Sl...,57,17.88
4,1.Women's Shoes_slippers,crowderlisa,36,20,UGG Womens Dakota Chestnut Suede Slippers Mocc...,113,62.99
...,...,...,...,...,...,...,...
3859,Outfits & Sets,xmwex01,0,0,Women's 2 Piece Outfits Lounge Set Half Zip Sw...,0,33.59
3860,Outfits & Sets,xmwex01,0,0,Women's 2 Piece Skirt Set Sweatsuits Tennis Ou...,0,20.99
3861,Outfits & Sets,xmwex01,0,0,Womens Blazer 2 Piece Outfits Skirt Set Vest S...,0,25.99
3862,Outfits & Sets,xmwex01,0,0,Two Piece Sets Women Summer Lounge Mock Neck T...,0,20.79


## **2.5. Corregir valores atípicos**

Antes de proceder con análisis más detallados, exploramos las estadísticas descriptivas de las columnas numéricas clave **"Price", "30 Day Sales" y "Total Sold"** para identificar posibles valores atípicos, patrones inusuales o inconsistencias lógicas:


In [None]:
df_completo[['Price', '30 Day Sales', 'Total Sold']].describe()


Unnamed: 0,Price,30 Day Sales,Total Sold
count,3864.0,3864.0,3864.0
mean,23.404423,8.831781,44.947981
std,32.701032,41.986212,132.608904
min,0.99,0.0,0.0
25%,10.435,0.0,0.0
50%,16.0,0.0,0.0
75%,25.0,3.0,15.0
max,1000.0,891.0,993.0


**Columna `Price`**:
* Observamos un precio promedio de $23.40.

* Sin embargo, la desviación estándar es muy alta (32.71) en comparación con la media, lo que sugiere una gran dispersión.
* Al mirar los percentiles y el valor máximo, confirmamos esta sospecha: el 75% de los productos cuestan 25 dólares o menos, mientras que el precio máximo es de $1000. Esta enorme diferencia entre el percentil 75 y el valor máximo indica claramente la presencia de al menos un outlier extremo (productos muy caros) que está distorsionando las estadísticas promedio.

**Columna `30 Day Sales`**:

* El número medio de ventas por producto en los últimos 30 días es de **8,84 unidades**
* Un hallazgo importante es que el valor mínimo, el percentil 25 y la mediana son todos 0. Esto significa que el 50% (la mitad) de los productos en nuestro dataset no han tenido ninguna venta en los últimos 30 días.
* Por otro lado, el valor máximo de ventas en 30 días era de 891. Esto, aunque es muy superior a la media y la mediana, es un patrón común en el comercio electrónico: pocos productos concentran la mayoría de las ventas ("productos estrella"), mientras que muchos otros apenas se mueven.

**Columna `Total Sold`**:

La media de ventas acumuladas es de **44,95 unidades por producto**, pero de nuevo vemos una **alta dispersión** (desviación estándar = 132,61) y una mediana igual a 0. Es decir, **más de la mitad de los productos nunca han sido vendidos**. El valor máximo, **993 unidades**, refuerza la presencia de productos con un rendimiento excepcional.


Los datos muestran una clara concentración de ventas en pocos productos y la presencia de valores extremos, especialmente en `Price` y `Total Sold`. Por esta razón, decidimos **filtrar los outliers más extremos y enfocarnos en productos con actividad reciente**, para que el análisis posterior sea más representativo del comportamiento general del mercado y de las subcategorías reales en tendencia.



## **2.6. Filtración del dataset**



In [None]:
# Al analizar las estadísticas de "Price" y "30 Day Sales", identificamos:
# 1. Precios extremadamente altos (outliers) que podían distorsionar el análisis.
# 2. Una gran cantidad de productos sin ventas recientes (en los últimos 30 días).
# 3. Y para asegurar la coherencia, notamos que algunos productos tenían un valor de "Total Sold" menor a "30 Day Sales", lo cual no es lógicamente posible.


# Para enfocar nuestro análisis en productos con precios más representativos, actividad de venta reciente y datos coherentes, aplicamos simultáneamente las siguientes tres condiciones de filtrado:

# - Mantener solo productos con precio menor o igual a $200.
# - Mantener solo productos con más de 0 ventas en los últimos 30 días.
# - Mantener solo productos donde el "Total Sold" sea mayor o igual a "30 Day Sales".

# Definimos ambas condiciones de filtrado
condicion_precio = df_completo['Price'] <= 200
condicion_ventas = df_completo['30 Day Sales'] > 0


# **** NUEVA CONDICIÓN DE FILTRADO: VENTAS TOTALES >= VENTAS 30 DÍAS ****
# Añadimos una condición para asegurarnos de que las ventas totales no sean menores que las ventas de los últimos 30 días.
# Convertimos a tipo numérico si aún no lo están para asegurar la comparación, aunque ya lo hicimos antes,
# es una buena práctica si este código se ejecutara de forma independiente.
condicion_coherencia_ventas = df_completo['Total Sold'].astype(float) >= df_completo['30 Day Sales'].astype(float)


# Aplicamos las TRES condiciones simultáneamente usando el operador '&' (AND)
df_completo = df_completo[condicion_precio & condicion_ventas & condicion_coherencia_ventas]

# Reiniciamos el índice del DataFrame después de filtrar
df_completo = df_completo.reset_index(drop=True)


# Verificamos el nuevo número de filas y las estadísticas descriptivas
print("Número de filas después de aplicar ambos filtros:", len(df_completo))
print("\nEstadísticas descriptivas de 'Price', '30 Day Sales' y 'Total Sold' después de filtrar:")
print(df_completo[['Price', '30 Day Sales', 'Total Sold']].describe())

Número de filas después de aplicar ambos filtros: 1379

Estadísticas descriptivas de 'Price', '30 Day Sales' y 'Total Sold' después de filtrar:
             Price  30 Day Sales   Total Sold
count  1379.000000   1379.000000  1379.000000
mean     18.631465     16.775199    97.082669
std      15.567003     50.418742   177.500552
min       1.290000      1.000000     1.000000
25%       9.990000      2.000000     4.000000
50%      14.950000      5.000000    21.000000
75%      21.645000     14.000000    96.000000
max     179.950000    891.000000   993.000000


Después de aplicar los tres filtros:
- Productos con **precio menor o igual a $200**
- Productos con **al menos una venta en los últimos 30 días**
- Y productos con datos coherentes, es decir, **donde las ventas totales no sean menores que las ventas recientes**

Volvimos a revisar las estadísticas clave para las variables `Price`, `30 Day Sales` y `Total Sold`.


**Columna `Price`**:

El precio promedio bajó a **$18.63** y la desviación estándar también se redujo, lo que indica que eliminamos correctamente los productos con precios extremos o inusualmente altos.

Aunque filtramos para mantener productos con precio menor o igual a 200 parece que ninguno de los productos con precios entre 180 y 200
(incluido $200) cumplió la condición de tener más de 0 ventas en los últimos 30 días. Por lo tanto, el precio más alto entre los productos que sí tienen ventas recientes y un precio moderado es de 179.95.

Esto confirma que estamos trabajando con un conjunto de productos de precio más representativo y razonable.


**Columna `30 Day Sales`**:

El valor mínimo ahora es **1**, lo que nos indica que se han eliminado correctamente todos los productos sin ventas recientes.

Además, la mediana es **5** y el 25% más bajo del dataset tiene al menos **2 ventas**, lo cual demuestra que incluso los productos menos vendidos del conjunto tienen algo de movimiento, es decir, han tenido al menos un cierto número de ventas en los últimos 30 días. La media es ahora más útil para analizar el comportamiento real de productos con actividad reciente.

**Columna `Total Sold`**:

El número total promedio de ventas por producto ahora es de **97 unidades**, con una mediana de **21**, lo cual sigue reflejando la presencia de productos populares.

Eso sí, la desviación estándar aún es alta, lo cual es esperable, ya que hay productos con una trayectoria de ventas muy larga (hasta 993 unidades), y otros con un rendimiento más modesto.


Después de aplicar estos tres filtros, nuestro dataset df_completo ahora contiene un subconjunto más manejable y relevante de datos. Nos hemos enfocado en productos que:

* Tienen **precios que consideramos más típicos y representativos** ($200 o menos).
* Demuestran **actividad de venta reciente** (al menos 1 venta en los últimos 30 días).
* Y con **datos coherentes y fiables**

# 3. Análisis de productos en tendencia
Después de todo el trabajo previo de limpieza y preparación, por fin llegamos al objetivo central de este proyecto: descubrir qué productos están marcando tendencia.

Con los datos ya organizados y en un formato que nos permite analizarlos cómodamente, podemos empezar a explorar qué artículos se están vendiendo más, cuáles destacan en volumen y cuáles parecen estar ganando popularidad en los últimos 30 días. Es en esta etapa donde realmente empezamos a ver qué categorías están en movimiento y hacia dónde apuntan los intereses de los consumidores.

## **3.1. Top 10 productos más vendidos en los últimos 30 días**

In [None]:
top_productos = df_completo.sort_values(by='30 Day Sales', ascending=False).head(10)
top_productos[['Product Name', 'Categoria', '30 Day Sales', 'Total Sold', 'Price', 'Seller']]

Unnamed: 0,Product Name,Categoria,30 Day Sales,Total Sold,Price,Seller
340,adidas women Rapidmove Training Shoes,Athletic Shoes,891,891,49.0,adidas_official
158,adidas women Rapidmove Training Shoes,boots,887,887,30.0,adidas_official
1126,adidas women Essentials 3-Stripes Open Hem Fre...,Pants,579,655,25.0,adidas_official
952,Levis Womens Mid-Rise 94s Baggy Straight Leg J...,Jeans,396,433,11.99,bullseye_deals
113,Crocs Unisex Adult Classic Clogs Slip On Shoes...,comfort shoes,393,495,19.89,olekmi-50
270,Crocs Unisex Adult Classic Clogs Slip On Shoes...,sandals,393,495,19.89,olekmi-50
1004,Levis 501 Original Womens High-Rise Distressed...,Shorts,348,485,18.99,bullseye_deals
1005,adidas women Pacer Training 3-Stripes Woven Hi...,Shorts,313,859,27.0,adidas_official
341,adidas women Crazyflight Womens Volleyball Shoes,Athletic Shoes,293,337,89.0,adidas_official
342,"Hoka Clifton 9 Running Shoes, Womens Hoka One ...",Athletic Shoes,281,528,74.99,goodbyeretail


Los productos más vendidos en eBay durante los últimos 30 días están claramente dominados por dos marcas: **Adidas** y **Crocs**.

- **Adidas** lidera el ranking con su modelo *Rapidmove Training Shoes*, que aparece en dos categorías (`Athletic Shoes` y `Boots`). Entre ambas, este modelo acumula casi **1800 ventas**, consolidándose como el producto más popular del periodo.

- También destacan otros artículos de la marca como los *3-Stripes Pants* y las zapatillas *Crazyflight Volleyball*, lo que confirma que Adidas no solo lidera en calzado, sino también en ropa deportiva.

- **Crocs** ocupa dos posiciones con distintos modelos muy similares: `Comfort Shoes` y `Sandals`, ambos con **493 ventas cada uno** y el mismo precio. Esto sugiere que podrían ser variaciones del mismo modelo, pero en distintas categorías.

- Aparecen también dos productos de **Levi’s**, concretamente unos jeans y unos shorts, lo que demuestra que la ropa básica y de marca sigue teniendo un lugar importante entre los artículos más vendidos.

* Finalmente, **olekmi-50** entra al ranking con dos modelos de Crocs, mostrando que no solo las tiendas oficiales venden mucho, también algunos revendedores especializados.

Este ranking deja claro que los productos de marcas reconocidas y categorías deportivas/casuales dominan el mercado, y que tanto las tiendas oficiales como algunos vendedores independientes están sabiendo aprovechar la demanda actual.


## **3.2. Análisis de ventas y comportamiento por categoría**
* ¿Qué categorías concentran más ventas?

In [None]:
# Promedio de ventas por producto en cada categoría
df_completo.groupby('Categoria')['30 Day Sales'].mean().sort_values(ascending=False)

Unnamed: 0_level_0,30 Day Sales
Categoria,Unnamed: 1_level_1
Athletic Shoes,52.298507
Shorts,39.218182
Jeans,37.019231
comfort shoes,31.511111
Pants,25.466667
Tops,25.184211
Activewear,22.444444
sandals,20.449275
flats,19.975
boots,18.380952


Al analizar las ventas promedio por categoría, lo que salta a la vista es que la gente está comprando sobre todo zapatillas deportivas (60 ventas promedio por producto), zapatos cómodos y jeans, con más de 45 ventas promedio cada uno. Son las **categorías estrella**, las que se venden con fuerza. Esto tiene mucho sentido: son productos prácticos, cómodos y que se usan a diario.

También hay buen movimiento en cosas como shorts, sandalias, vestidos o tops que están en un rango de 30 a 40 ventas promedio. No son tan top como las primeras, pero están funcionando bien.

En cambio, cuando bajamos por la tabla vemos categorías que se mueven muy poco: cinturones, gafas, accesorios, conjuntos completos... apenas registran ventas. No es que no interesen en absoluto, pero sí está claro que no están entre las prioridades de los compradores en este momento.

**la tendencia está en lo funcional, cómodo y fácil de combinar. Los básicos mandan.**

## **3.3 Análisis de precios y ventas**:

* ¿Cuál es el rango ideal?

In [None]:
# Agrupamos por rangos de precio
df_completo['Rango_Precio'] = pd.cut(df_completo['Price'], bins=[0, 10, 20, 30, 50, 100, 200],
                           labels=['0-10$', '10-20$', '20-30$', '30-50$', '50-100$', '100-200$'])

df_completo.groupby('Rango_Precio')['30 Day Sales'].mean().sort_values(ascending=False)


  df_completo.groupby('Rango_Precio')['30 Day Sales'].mean().sort_values(ascending=False)


Unnamed: 0_level_0,30 Day Sales
Rango_Precio,Unnamed: 1_level_1
50-100$,30.52381
30-50$,30.25
20-30$,19.354839
10-20$,16.984252
0-10$,10.061333
100-200$,6.8


Los productos con un precio entre **50 y 100 dólares** son los que más se venden en promedio, seguidos muy de cerca por los de **30 a 50 dólares**. Esto sugiere que los compradores en eBay están dispuestos a invertir un poco más si el producto lo vale, y que los artículos de **precio medio-alto** son los que mejor rendimiento tienen.

Aunque podríamos pensar que los productos más baratos (menos de 10 o 20 dólares) se venderían más, en realidad no es así. Tienen menos ventas promedio que los productos de precio medio.

Por otro lado, los productos más caros (entre 100 y 200 dólares) son los que menos se venden.

Finalmente podemos decir que **el rango de precio más exitoso está entre los 30 y 100 dólares**, lo que muestra que los compradores tienden a buscar un **buen equilibrio entre precio y calidad**, y están dispuestos a gastar más si el producto realmente lo justifica.


## **3.4. Vendedores destacados por categoría**
*  ¿Qué vendedores tienen más ventas totales?

In [None]:
## Total de ventas por vendedor
# Agrupamos por vendedor y sumamos las ventas totales
ventas_por_vendedor = df_completo.groupby('Seller')['30 Day Sales'].sum().sort_values(ascending=False).reset_index()
ventas_por_vendedor.head(10)

Unnamed: 0,Seller,30 Day Sales
0,bullseye_deals,4616
1,adidas_official,3584
2,officialpumastore,1644
3,islandwearhawaii,952
4,bhfo,929
5,olekmi-50,786
6,goodbyeretail,510
7,theperfectpart,458
8,official_shoeba...,253
9,topshoesusinc,246


In [None]:
# Top 5 vendedores
top5 = ventas_por_vendedor.head(5)['Seller'].tolist()

# Para cada uno, mostramos sus categorías principales
for seller in top5:
    print(f'\n📦 Vendedor: {seller}')
    print(df_completo[df_completo['Seller'] == seller].groupby('Categoria')['30 Day Sales'].sum().sort_values(ascending=False))



📦 Vendedor: bullseye_deals
Categoria
Jeans                             1711
Shorts                             867
Swimwear                           469
Sweaters                           398
3.Clothing_Jumpsuits & Rompers     312
Skirts                             269
Pants                              208
comfort shoes                      169
Activewear                          82
Dresses                             71
flats                               39
Tops                                21
Name: 30 Day Sales, dtype: int64

📦 Vendedor: adidas_official
Categoria
 Athletic Shoes    1344
boots               887
Pants               579
Activewear          461
Shorts              313
Name: 30 Day Sales, dtype: int64

📦 Vendedor: officialpumastore
Categoria
 Athletic Shoes    1122
flats               221
comfort shoes       151
Activewear           76
Tops                 68
Shorts                6
Name: 30 Day Sales, dtype: int64

📦 Vendedor: islandwearhawaii
Categoria
Shorts     

Analizando a los 5 vendedores con más ventas totales, se pueden observar estrategias distintas según el perfil de cada uno:

- **bullseye_deals** se enfoca fuertemente en ropa casual y de verano, destacando en *jeans (más de 2.400 unidades vendidas), shorts, vestidos y trajes de baño*.
  
- **adidas_official** domina claramente en *calzado deportivo*, con más de 2.000 unidades vendidas, seguido por pantalones y botas.

- **officialpumastore** Otra marca deportiva que lidera en calzado deportivo (más de 1.300 unidades), pero también ofrece algunos productos de ropa como *Activewear* y *Tops*. Tiene un perfil similar a adidas.

- **islandwearhawaii** Un vendedor más enfocado en ropa veraniega y relajada, especialmente *tops* y *shorts*.

- **bhfo**: Vendedor desconocido que se enfoca en distintas categorias, destacando en *sandalias*, *botas* y *vestidos*

## **3.5. Análisis de concentración de ventas**
* ¿Qué porcentaje de productos genera el 80% de las ventas?

In [None]:
df_sorted = df_completo.sort_values(by='30 Day Sales', ascending=False)
df_sorted['Cumulative Sales %'] = df_sorted['30 Day Sales'].cumsum() / df_sorted['30 Day Sales'].sum() * 100
df_sorted.head(5)


Unnamed: 0,Categoria,Seller,Feedback,30 Day Sales,Product Name,Total Sold,Price,Rango_Precio,Cumulative Sales %
340,Athletic Shoes,adidas_official,549,891,adidas women Rapidmove Training Shoes,891,49.0,30-50$,3.851641
158,boots,adidas_official,549,887,adidas women Rapidmove Training Shoes,887,30.0,20-30$,7.68599
1126,Pants,adidas_official,549,579,adidas women Essentials 3-Stripes Open Hem Fre...,655,25.0,20-30$,10.188908
952,Jeans,bullseye_deals,476,396,Levis Womens Mid-Rise 94s Baggy Straight Leg J...,433,11.99,10-20$,11.900748
113,comfort shoes,olekmi-50,194,393,Crocs Unisex Adult Classic Clogs Slip On Shoes...,495,19.89,10-20$,13.59962


Este análisis muestra cómo un pequeño grupo de productos representa una parte significativa de las ventas totales en eBay.

Por ejemplo, solo el primer producto, unas zapatillas *Adidas Rapidmove Training Shoes* (categoría: Athletic Shoes), ya representa un **3,85%** del total de las ventas del mes. Si sumamos el segundo producto (el mismo modelo clasificado como `boots`), ya se alcanza un **7,69%** del total.

El tercer producto, también de Adidas (`Essentials 3-Stripes Open Hem Pants`), eleva el acumulado al **10,19%**. Y tras añadir dos productos más, unos jeans de Levi's y un modelo de Crocs vendido por `olekmi-50`, los primeros cinco productos más vendidos ya acumulan **más del 13,5% de todas las ventas recientes**.

Esto significa que **solo 5 productos** de un catálogo de más de 1.300 ya concentran una parte notable del volumen total de ventas, lo que refleja un patrón típico en e-commerce: **las ventas están muy concentradas en unos pocos artículos muy populares**.

Este fenómeno está relacionado con la conocida **ley de Pareto**, donde una pequeña parte del catálogo genera una gran parte del negocio.



In [None]:
# Convertimos el DataFrame df_completo a un archivo CSV para crear las visualizaciones en looker
# Especificamos index=False para no escribir el índice del DataFrame como una columna en el CSV
#df_completo.to_csv('df_completo_final.csv', index=False)
#print("DataFrame convertido y guardado como 'df_completo_final.csv'")



---

