Este conjunto de datos tiene la finalidad de analizar patrones de compra, segmentar clientes, optimizar estrategias de precios y promociones, y predecir ventas futuras utilizando técnicas de data science y machine learning.

In [1]:
import pandas as pd
import numpy as np

# Crear datos ficticios
np.random.seed(42)
num_rows = 2000
product_categories = ['Electrónica', 'Ropa', 'Hogar', 'Juguetes', 'Libros']
payment_methods = ['Tarjeta de crédito', 'PayPal', 'Transferencia bancaria', 'Bitcoin']

data = {
    'product_category': np.random.choice(product_categories, num_rows),
    'price': np.random.uniform(10, 500, num_rows),
    'quantity': np.random.randint(1, 11, num_rows),
    'shipping_cost': np.random.uniform(5, 50, num_rows),
    'customer_location': ['Ubicación_{}'.format(i) for i in np.random.randint(1, 101, num_rows)],
    'payment_method': np.random.choice(payment_methods, num_rows),
    'purchase_date': pd.date_range(start='2020-01-01', periods=num_rows, freq='D'),
    'return_rate': np.random.uniform(0, 1, num_rows),
}

# Crear DataFrame
online_sales_data = pd.DataFrame(data)

# Calcular ingresos
online_sales_data['revenue'] = online_sales_data['price'] * online_sales_data['quantity']

# Ver las primeras 10 filas
print(online_sales_data.head(10))


  product_category       price  quantity  shipping_cost customer_location  \
0         Juguetes  307.476078         9      17.400505      Ubicación_26   
1           Libros  277.881732         6      19.947763      Ubicación_72   
2            Hogar  123.654077         3      36.536379      Ubicación_99   
3           Libros  201.543938         7      39.439233      Ubicación_27   
4           Libros  301.293404         9      46.823157      Ubicación_89   
5             Ropa  253.415761         3      14.216108      Ubicación_18   
6            Hogar  494.014905         2      40.909912      Ubicación_54   
7            Hogar   76.855479         7      38.234572       Ubicación_1   
8            Hogar  350.620831         7       7.870755      Ubicación_61   
9           Libros  208.116196         4      22.425041       Ubicación_3   

           payment_method purchase_date  return_rate      revenue  
0                 Bitcoin    2020-01-01     0.990176  2767.284699  
1               

In [3]:
# Guardar el dataframe en un archivo .CSV

online_sales_data.to_csv('online_sales_data.csv')

In [4]:
# Ventas totales por categoría de producto:

total_sales_by_category = online_sales_data.groupby('product_category')['revenue'].sum()
print(total_sales_by_category)


product_category
Electrónica    608347.936565
Hogar          555183.457462
Juguetes       557799.651101
Libros         611570.007328
Ropa           514592.012511
Name: revenue, dtype: float64


In [5]:
# Ventas promedio por método de pago:

average_sales_by_payment_method = online_sales_data.groupby('payment_method')['revenue'].mean()
print(average_sales_by_payment_method)


payment_method
Bitcoin                   1385.277439
PayPal                    1430.203912
Tarjeta de crédito        1403.756264
Transferencia bancaria    1481.134079
Name: revenue, dtype: float64


In [6]:
# Total de ventas por ubicación del cliente:

total_sales_by_location = online_sales_data.groupby('customer_location')['revenue'].sum()
print(total_sales_by_location)


customer_location
Ubicación_1      29770.973321
Ubicación_10     35150.578324
Ubicación_100    38769.078147
Ubicación_11     19622.516459
Ubicación_12     19973.364241
                     ...     
Ubicación_95     28015.877828
Ubicación_96     23874.467151
Ubicación_97     39403.953721
Ubicación_98     24029.074822
Ubicación_99     28341.682843
Name: revenue, Length: 100, dtype: float64


In [7]:
# Cantidad promedio de productos vendidos por categoría de producto:

average_quantity_by_category = online_sales_data.groupby('product_category')['quantity'].mean()
print(average_quantity_by_category)


product_category
Electrónica    5.568675
Hogar          5.643799
Juguetes       5.747475
Libros         5.665037
Ropa           5.329177
Name: quantity, dtype: float64


In [8]:
# Tasa de devolución promedio por categoría de producto:

average_return_rate_by_category = online_sales_data.groupby('product_category')['return_rate'].mean()
print(average_return_rate_by_category)


product_category
Electrónica    0.492741
Hogar          0.523380
Juguetes       0.479831
Libros         0.491085
Ropa           0.492160
Name: return_rate, dtype: float64
