In [6]:
import pandas as pd
import numpy as np
from faker import Faker
import random
from datetime import timedelta
from sqlalchemy import create_engine

fake = Faker("zh_CN")
Faker.seed(42)
random.seed(42)
np.random.seed(42)
n_users = 3000
n_items = 500
n_orders = 30000
n_behaviors = 30000
n_campaigns = 50

# 用户表
def generate_users(n):
    genders = ['男', '女']
    devices = ['手机', '电脑', '平板']
    provinces = ['北京', '上海', '广东', '浙江', '四川']
    data = []
    for i in range(n):
        data.append({
            "用户ID": f"user_{i+1}",
            "性别": random.choice(genders),
            "年龄": np.random.randint(16, 70),
            "注册时间": fake.date_between(start_date='-2y', end_date='today'),
            "省份": random.choice(provinces),
            "设备类型": random.choice(devices),
            "是否会员": random.choice([0, 1])
        })
    return pd.DataFrame(data)

# 商品表
def generate_items(n):
    categories = ['电子产品', '服装', '家居', '美妆', '图书']
    brands = ['品牌A', '品牌B', '品牌C', '品牌D']
    data = []
    for i in range(n):
        data.append({
            "商品ID": f"item_{i+1}",
            "品类": random.choice(categories),
            "品牌": random.choice(brands),
            "售价": round(np.random.uniform(10, 1000), 2),
            "库存": np.random.randint(10, 500),
            "上架时间": fake.date_between(start_date='-2y', end_date='-30d'),
            "是否在售": random.choice([0, 1])
        })
    return pd.DataFrame(data)

# 订单表
def generate_orders(n, user_ids, item_ids):
    payment_types = ['微信', '支付宝', '信用卡']
    statuses = ['已完成', '已取消', '已退款']
    data = []
    for i in range(n):
        item = random.choice(item_ids)
        quantity = np.random.randint(1, 5)
        price = round(np.random.uniform(10, 1000), 2)
        data.append({
            "订单ID": f"order_{i+1}",
            "用户ID": random.choice(user_ids),
            "商品ID": item,
            "下单时间": fake.date_time_between(start_date='-1y', end_date='now'),
            "数量": quantity,
            "支付金额": round(quantity * price, 2),
            "支付方式": random.choice(payment_types),
            "订单状态": random.choices(statuses, weights=[0.8, 0.1, 0.1])[0]
        })
    return pd.DataFrame(data)

# 用户行为表
def generate_behaviors(n, user_ids, item_ids):
    behaviors = ['浏览', '加购', '收藏', '下单']
    sources = ['自然流量', '广告', '活动']
    devices = ['手机', '电脑', '平板']
    data = []
    for i in range(n):
        data.append({
            "用户ID": random.choice(user_ids),
            "行为时间": fake.date_time_between(start_date='-1y', end_date='now'),
            "商品ID": random.choice(item_ids),
            "行为类型": random.choices(behaviors, weights=[0.5, 0.2, 0.2, 0.1])[0],
            "流量来源": random.choice(sources),
            "设备类型": random.choice(devices)
        })
    return pd.DataFrame(data)

# 5. 营销活动表
def generate_campaigns(n, item_ids):
    types = ['折扣', '限时秒杀', '拼团']
    data = []
    for i in range(n):
        start_date = fake.date_between(start_date='-6mo', end_date='-1mo')
        end_date = start_date + timedelta(days=random.randint(3, 10))
        data.append({
            "活动ID": f"camp_{i+1}",
            "商品ID": random.choice(item_ids),
            "活动类型": random.choice(types),
            "开始时间": start_date,
            "结束时间": end_date,
            "折扣力度": round(np.random.uniform(0.1, 0.5), 2),
            "曝光量": np.random.randint(1000, 10000),
            "点击量": np.random.randint(100, 5000),
            "转化次数": np.random.randint(50, 2000)
        })
    return pd.DataFrame(data)

# 生成数据
users_df = generate_users(n_users)
items_df = generate_items(n_items)
orders_df = generate_orders(n_orders, users_df["用户ID"].tolist(), items_df["商品ID"].tolist())
behaviors_df = generate_behaviors(n_behaviors, users_df["用户ID"].tolist(), items_df["商品ID"].tolist())
campaigns_df = generate_campaigns(n_campaigns, items_df["商品ID"].tolist())

# 保存到 MySQL数据库
engine = create_engine('mysql+pymysql://root:123456@localhost/sale_datas')
users_df.to_sql('users', engine, index=False, if_exists='replace')
items_df.to_sql('items', engine, index=False, if_exists='replace')
orders_df.to_sql('orders', engine, index=False, if_exists='replace')
behaviors_df.to_sql('behaviors', engine, index=False, if_exists='replace')
campaigns_df.to_sql('campaigns', engine, index=False, if_exists='replace')

50

In [7]:
engine = create_engine('sqlite:///data/sale_datas.db')
users_df.to_sql('users', engine, index=False, if_exists='replace')
items_df.to_sql('items', engine, index=False, if_exists='replace')
orders_df.to_sql('orders', engine, index=False, if_exists='replace')
behaviors_df.to_sql('behaviors', engine, index=False, if_exists='replace')
campaigns_df.to_sql('campaigns', engine, index=False, if_exists='replace')

for table in ['users', 'items', 'orders', 'behaviors', 'campaigns']: 
    query = f'select * from {table} limit 5'
    print()
    print(f'数据表——{table}：\n{pd.read_sql_query(query, engine)}\n')


数据表——users：
     用户ID 性别  年龄        注册时间  省份 设备类型  是否会员
0  user_1  男  54  2024-11-05  北京   平板     1
1  user_2  男  67  2023-09-22  上海   手机     0
2  user_3  男  44  2023-07-17  四川   电脑     0
3  user_4  男  30  2025-01-23  北京   手机     0
4  user_5  男  58  2024-01-27  四川   手机     1


数据表——items：
     商品ID    品类   品牌      售价   库存        上架时间  是否在售
0  item_1    家居  品牌A  640.83  299  2024-09-29     1
1  item_2  电子产品  品牌C  392.49  223  2024-09-21     0
2  item_3    图书  品牌A  640.30   88  2023-10-25     0
3  item_4    服装  品牌B  890.50  352  2023-11-07     1
4  item_5    服装  品牌B  523.22  476  2024-11-20     1


数据表——orders：
      订单ID       用户ID      商品ID                        下单时间  数量     支付金额 支付方式  \
0  order_1  user_1323   item_66  2024-08-29 10:28:31.000000   2   826.94  信用卡   
1  order_2  user_2514  item_490  2024-12-02 20:33:48.000000   2    68.50  信用卡   
2  order_3  user_2019  item_245  2025-03-21 20:28:34.000000   3  1065.99  信用卡   
3  order_4   user_804  item_293  2025-01-09 13:38:12.00000