In [None]:
pip install seaborn
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# Lee el archivo CSV
df = pd.read_csv('amz_uk_price_prediction_dataset.csv')

df

### Part 1: Understanding Product Categories

In [None]:
df_category_frequency = df.category.value_counts()

df_category_frequency

In [None]:
df.category.value_counts(normalize=True)

In [None]:
# Graficar el barplot directamente con las 20 categorías más comunes
sns.barplot(x=df_category_frequency.index[:10], y=df_category_frequency.values[:10], palette="Set3")

# Mostrar la gráfica
plt.xticks(rotation=90)  # Rotar etiquetas para que no se solapen
plt.show()

In [None]:
# Crear un gráfico de pastel con las 10 categorías más comunes
plt.figure(figsize=(8, 8))
plt.pie(df_category_frequency.values[:10], labels=df_category_frequency.index[:10], autopct='%1.1f%%', colors=sns.color_palette("Set3", 10))

# Mostrar el gráfico
plt.axis('equal')  # Asegurar que el gráfico sea un círculo
plt.show()

Las cinco categorías de producto más populares son:

- Sports & Outdoors
- Beauty
- Handmade Clothing, Shoes & Accessories
- Bath & Body
- Birthday Gifts

La primera de ellas tiene un porcentaje aplastantemente alto sobre el resto: un 34 % del total.

### Part 2: Delving into Product Pricing

In [None]:
df.price.describe().round(2)

In [None]:
df.price.mode()

In [None]:
# Visualización de la distribución de precios
plt.figure(figsize=(12, 6))
sns.histplot(df.price, kde=True, bins=50)
plt.title('Distribución de Precios')
plt.xlabel('Precio')
plt.ylabel('Frecuencia')
plt.show()

# Visualización de la distribución de precios (escala logarítmica)
plt.figure(figsize=(12, 6))
sns.histplot(df.price, kde=True, bins=50, log_scale=True)
plt.title('Distribución de Precios (Escala Logarítmica)')
plt.xlabel('Precio (log)')
plt.ylabel('Frecuencia')
plt.show()

# Boxplot de precios
plt.figure(figsize=(12, 6))
sns.boxplot(x=df.price)
plt.title('Boxplot de Precios')
plt.xlabel('Precio')
plt.show()

# Análisis de los precios por categoría (top 10 categorías)
top_10_categories = df_category_frequency.index[:10]
df_top_10 = df[df.category.isin(top_10_categories)]

plt.figure(figsize=(14, 8))
sns.boxplot(x='category', y='price', data=df_top_10)
plt.title('Distribución de Precios por Categoría (Top 10)')
plt.xticks(rotation=90)
plt.ylabel('Precio')
plt.show()

In [None]:
# Interpretación de los resultados
print("Análisis de la variable 'price':")
print("1. La distribución de precios es altamente sesgada hacia la derecha, con una gran cantidad de productos de bajo precio y algunos productos de precio muy alto.")
print("2. La mediana del precio es de £14.99, lo que significa que el 50% de los productos tienen un precio igual o inferior a este valor.")
print("3. El precio promedio es de £24.97, significativamente más alto que la mediana debido a la influencia de los productos de alto precio.")
print("4. El 75% de los productos tienen un precio de £24.99 o menos (tercer cuartil).")
print("5. El precio máximo en el conjunto de datos es de £999.99, lo que explica la gran diferencia entre la media y la mediana.")
print("6. La visualización en escala logarítmica muestra que la distribución de precios es multimodal, con picos alrededor de £10, £20 y £30.")
print("7. El boxplot muestra una gran cantidad de valores atípicos en la parte superior de la distribución.")
print("8. Al analizar los precios por categoría, observamos que algunas categorías como 'Handmade Clothing, Shoes & Accessories' tienen una mayor variabilidad en los precios y tienden a tener precios más altos en comparación con otras categorías como 'Beauty' o 'Bath & Body'.")

# Conclusión
print("\nConclusión:")
print("El análisis de precios revela una gran variabilidad en los productos ofrecidos en Amazon UK. La mayoría de los productos tienen precios relativamente bajos, pero hay una cola larga de productos de alto precio que afectan significativamente el precio promedio. Las diferentes categorías de productos muestran patrones de precios distintos, lo que sugiere que el precio está fuertemente influenciado por la categoría del producto. Esta información puede ser valiosa para la predicción de precios, ya que indica que la categoría del producto debería ser un factor importante en cualquier modelo predictivo.")