In [61]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# 設定隨機種子，方便重現
np.random.seed(42)
random.seed(42)

n = 200  # 紀錄數

# 生成訂單編號，格式為 ORD0001, ORD0002, ...
order_ids = [f"ORD{str(i+1).zfill(4)}" for i in range(n)]

# 客戶名稱列表（可自由調整）
customer_names = ["王小明", "李小華", "陳大文", "林小美",None, "張大偉", "劉德華", "周杰倫", "鄧紫棋", "蔡依林", "郭富城"]
customers = [random.choice(customer_names) for _ in range(n)]

# 生成隨機訂單日期：介於 2023-01-01 與 2023-12-31 之間
start_date = datetime.strptime("2023-01-01", "%Y-%m-%d")
end_date = datetime.strptime("2023-12-31", "%Y-%m-%d")
date_range = (end_date - start_date).days
order_dates = [start_date + timedelta(days=random.randint(0, date_range)) for _ in range(n)]
order_dates = [d.strftime("%Y-%m-%d") for d in order_dates]

# 產品名稱列表
products = ["筆記型電腦", "手機", "平板", None, "耳機", "鍵盤", "滑鼠", "顯示器", "打印機", "相機", "智慧手錶"]
product_choices = [random.choice(products) for _ in range(n)]

# 隨機數量：介於 1 到 10
quantities = np.random.randint(1, 11, n)

# 單價：介於 1000 到 10000 之間，取小數點後 2 位
unit_prices = [round(random.uniform(1000, 10000), 2) for _ in range(n)]

# 總價 = 數量 * 單價（取小數點後 2 位）
total_prices = [round(q * p, 2) for q, p in zip(quantities, unit_prices)]

# 付款方式列表
payment_methods = ["信用卡", "現金",None, "轉帳", "電子支付"]
payment_choices = [random.choice(payment_methods) for _ in range(n)]

# 訂單狀態列表
order_statuses = ["已出貨", "處理中", None,"已取消", "退貨"]
status_choices = [random.choice(order_statuses) for _ in range(n)]

# 備註：隨機選擇，部分可能為缺失值 (None)
remarks_options = ["", "急件", "贈品包裝", None, "需揀貨", "加急處理"]
remarks = [random.choice(remarks_options) for _ in range(n)]

# 建立 DataFrame
df = pd.DataFrame({
    "訂單編號": order_ids,
    "客戶名稱": customers,
    "訂單日期": order_dates,
    "產品": product_choices,
    "數量": quantities,
    "單價": unit_prices,
    "總價": total_prices,
    "付款方式": payment_choices,
    "訂單狀態": status_choices,
    "備註": remarks
})


df.head(100)


Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0001,郭富城,2023-08-05,鍵盤,7,2582.98,18080.86,,已取消,加急處理
1,ORD0002,李小華,2023-04-19,,4,9621.69,38486.76,信用卡,已取消,加急處理
2,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
3,ORD0004,,2023-12-20,智慧手錶,5,1451.97,7259.85,,處理中,贈品包裝
4,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
...,...,...,...,...,...,...,...,...,...,...
95,ORD0096,王小明,2023-07-14,筆記型電腦,10,2794.25,27942.50,現金,已取消,贈品包裝
96,ORD0097,林小美,2023-01-02,手機,9,1183.42,10650.78,信用卡,處理中,急件
97,ORD0098,王小明,2023-07-19,相機,7,2371.44,16600.08,信用卡,處理中,需揀貨
98,ORD0099,張大偉,2023-05-16,滑鼠,9,2135.99,19223.91,現金,退貨,


In [62]:
#刪除遺失值 
results = df.dropna()

results = results.reset_index(drop=True)

results.head() 


Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
1,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
2,ORD0007,陳大文,2023-07-24,顯示器,3,5108.16,15324.48,現金,處理中,加急處理
3,ORD0009,郭富城,2023-11-29,筆記型電腦,8,7008.2,56065.6,信用卡,處理中,
4,ORD0010,鄧紫棋,2023-07-11,手機,5,9891.03,49455.15,電子支付,退貨,加急處理


In [63]:
#填充遺失值
results = df

results["客戶名稱"] = results["客戶名稱"].fillna("其它")

print("出現最多",df["產品"].value_counts().idxmax())

results["產品"] = results["產品"].fillna(df["產品"].value_counts().idxmax())

print("出現最少",df["付款方式"].value_counts().idxmin())

results["付款方式"] = results["付款方式"].fillna(df["付款方式"].value_counts().idxmin())

results["訂單狀態"] = results["訂單狀態"].fillna("現金")

results["數量"] = results["數量"].fillna(results["數量"].mean())

results.head(100)

出現最多 智慧手錶
出現最少 現金


Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0001,郭富城,2023-08-05,鍵盤,7,2582.98,18080.86,現金,已取消,加急處理
1,ORD0002,李小華,2023-04-19,智慧手錶,4,9621.69,38486.76,信用卡,已取消,加急處理
2,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
3,ORD0004,其它,2023-12-20,智慧手錶,5,1451.97,7259.85,現金,處理中,贈品包裝
4,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
...,...,...,...,...,...,...,...,...,...,...
95,ORD0096,王小明,2023-07-14,筆記型電腦,10,2794.25,27942.50,現金,已取消,贈品包裝
96,ORD0097,林小美,2023-01-02,手機,9,1183.42,10650.78,信用卡,處理中,急件
97,ORD0098,王小明,2023-07-19,相機,7,2371.44,16600.08,信用卡,處理中,需揀貨
98,ORD0099,張大偉,2023-05-16,滑鼠,9,2135.99,19223.91,現金,退貨,


In [64]:
results = df["客戶名稱"].duplicated() 
results.head(100) 

0     False
1     False
2     False
3     False
4     False
      ...  
95     True
96     True
97     True
98     True
99     True
Name: 客戶名稱, Length: 100, dtype: bool

In [65]:
results = df["客戶名稱"].value_counts() 
results.head(100) 




客戶名稱
李小華    24
郭富城    22
鄧紫棋    22
林小美    21
其它     19
陳大文    18
蔡依林    16
張大偉    16
王小明    15
劉德華    15
周杰倫    12
Name: count, dtype: int64

In [66]:
results = df.drop_duplicates(["客戶名稱"])
results = results.reset_index(drop=True)
results.head(100)

Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0001,郭富城,2023-08-05,鍵盤,7,2582.98,18080.86,現金,已取消,加急處理
1,ORD0002,李小華,2023-04-19,智慧手錶,4,9621.69,38486.76,信用卡,已取消,加急處理
2,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
3,ORD0004,其它,2023-12-20,智慧手錶,5,1451.97,7259.85,現金,處理中,贈品包裝
4,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
5,ORD0007,陳大文,2023-07-24,顯示器,3,5108.16,15324.48,現金,處理中,加急處理
6,ORD0010,鄧紫棋,2023-07-11,手機,5,9891.03,49455.15,電子支付,退貨,加急處理
7,ORD0012,蔡依林,2023-09-22,滑鼠,8,9550.36,76402.88,現金,處理中,
8,ORD0013,劉德華,2023-08-20,耳機,8,9022.83,72182.64,信用卡,已出貨,
9,ORD0028,周杰倫,2023-11-20,平板,3,3471.38,10414.14,信用卡,已取消,急件


In [67]:
#  取代replace

df["客戶名稱"] = df["客戶名稱"].replace(["其它",None],"遺失客戶")
df.head(100)

Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0001,郭富城,2023-08-05,鍵盤,7,2582.98,18080.86,現金,已取消,加急處理
1,ORD0002,李小華,2023-04-19,智慧手錶,4,9621.69,38486.76,信用卡,已取消,加急處理
2,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
3,ORD0004,遺失客戶,2023-12-20,智慧手錶,5,1451.97,7259.85,現金,處理中,贈品包裝
4,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
...,...,...,...,...,...,...,...,...,...,...
95,ORD0096,王小明,2023-07-14,筆記型電腦,10,2794.25,27942.50,現金,已取消,贈品包裝
96,ORD0097,林小美,2023-01-02,手機,9,1183.42,10650.78,信用卡,處理中,急件
97,ORD0098,王小明,2023-07-19,相機,7,2371.44,16600.08,信用卡,處理中,需揀貨
98,ORD0099,張大偉,2023-05-16,滑鼠,9,2135.99,19223.91,現金,退貨,


In [68]:
results = df.groupby(by=["客戶名稱"]).sum().reset_index() 

results.head()

Unnamed: 0,客戶名稱,訂單編號,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,劉德華,ORD0013ORD0026ORD0033ORD0041ORD0051ORD0068ORD0...,2023-08-202023-02-062023-06-192023-10-042023-0...,耳機手機打印機鍵盤平板智慧手錶鍵盤鍵盤耳機手機鍵盤打印機滑鼠智慧手錶智慧手錶,97,94584.25,642339.84,信用卡現金轉帳現金電子支付現金現金現金現金現金信用卡現金轉帳信用卡信用卡,已出貨已取消已取消已取消退貨已取消已出貨已取消處理中現金處理中已出貨退貨現金處理中,加急處理加急處理需揀貨急件贈品包裝急件加急處理需揀貨需揀貨加急處理需揀貨贈品包裝
1,周杰倫,ORD0028ORD0048ORD0070ORD0088ORD0108ORD0111ORD0...,2023-11-202023-07-282023-10-022023-03-272023-0...,平板打印機顯示器打印機智慧手錶滑鼠耳機智慧手錶顯示器智慧手錶相機平板,55,51445.02,231423.9,信用卡電子支付現金電子支付轉帳電子支付現金現金現金現金電子支付信用卡,已取消已取消現金現金退貨退貨現金現金退貨退貨處理中已出貨,急件加急處理贈品包裝需揀貨贈品包裝急件加急處理贈品包裝
2,張大偉,ORD0034ORD0038ORD0043ORD0044ORD0057ORD0072ORD0...,2023-02-062023-12-092023-10-202023-10-232023-0...,平板耳機智慧手錶智慧手錶平板耳機智慧手錶筆記型電腦耳機滑鼠手機相機滑鼠相機智慧手錶筆記型電腦,94,76842.93,448024.63,轉帳現金現金信用卡轉帳信用卡信用卡轉帳現金現金信用卡現金電子支付轉帳現金信用卡,已取消退貨現金已取消退貨已取消已取消退貨現金退貨已出貨已出貨處理中已取消退貨現金,加急處理需揀貨急件急件急件加急處理
3,李小華,ORD0002ORD0008ORD0011ORD0016ORD0039ORD0040ORD0...,2023-04-192023-12-102023-08-132023-04-262023-0...,智慧手錶耳機智慧手錶鍵盤鍵盤筆記型電腦智慧手錶相機智慧手錶智慧手錶滑鼠顯示器手機滑鼠打印機智...,134,125320.98,675754.63,信用卡現金現金現金現金電子支付信用卡現金轉帳電子支付現金信用卡現金電子支付電子支付現金轉帳現...,已取消已取消退貨現金已取消處理中已出貨處理中退貨處理中現金退貨處理中處理中已取消已取消已取消...,加急處理贈品包裝急件贈品包裝贈品包裝加急處理急件贈品包裝加急處理急件贈品包裝需揀貨加急處理需...
4,林小美,ORD0005ORD0006ORD0017ORD0018ORD0023ORD0027ORD0...,2023-04-132023-06-092023-02-022023-06-232023-1...,耳機打印機平板智慧手錶滑鼠手機筆記型電腦滑鼠平板筆記型電腦智慧手錶滑鼠平板手機相機滑鼠智慧手...,137,112994.44,678723.15,現金現金現金轉帳轉帳現金信用卡電子支付信用卡現金轉帳現金現金信用卡現金轉帳電子支付電子支付現...,已取消退貨退貨現金退貨退貨處理中已出貨已出貨現金已出貨已取消現金處理中處理中退貨現金已取消現...,需揀貨需揀貨急件加急處理急件贈品包裝急件加急處理急件需揀貨急件需揀貨加急處理需揀貨急件


In [69]:
results = df[["客戶名稱","總價"]].groupby(by=["客戶名稱"]).mean().reset_index() 

results.head()

Unnamed: 0,客戶名稱,總價
0,劉德華,42822.656
1,周杰倫,19285.325
2,張大偉,28001.539375
3,李小華,28156.442917
4,林小美,32320.15


In [70]:
results = df.groupby(by=["客戶名稱"]).agg({
    "總價":['sum',"mean"],
    "數量":['sum'],
})
results.head(100000)

Unnamed: 0_level_0,總價,總價,數量
Unnamed: 0_level_1,sum,mean,sum
客戶名稱,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
劉德華,642339.84,42822.656,97
周杰倫,231423.9,19285.325,55
張大偉,448024.63,28001.539375,94
李小華,675754.63,28156.442917,134
林小美,678723.15,32320.15,137
王小明,354925.61,23661.707333,76
蔡依林,605126.72,37820.42,97
遺失客戶,595736.23,31354.538421,112
郭富城,685895.46,31177.066364,121
鄧紫棋,748605.63,34027.528636,124


In [71]:

results = df.groupby(by=['客戶名稱']).value_counts()

print(results.to_string())

客戶名稱  訂單編號     訂單日期        產品     數量  單價       總價        付款方式  訂單狀態  備註  
劉德華   ORD0013  2023-08-20  耳機     8   9022.83  72182.64  信用卡   已出貨           1
      ORD0033  2023-06-19  打印機    5   5861.37  29306.85  轉帳    已取消           1
      ORD0041  2023-10-04  鍵盤     9   4741.97  42677.73  現金    已取消   加急處理    1
      ORD0051  2023-02-19  平板     3   4165.83  12497.49  電子支付  退貨    加急處理    1
      ORD0068  2023-04-09  智慧手錶   8   2148.65  17189.20  現金    已取消   需揀貨     1
      ORD0089  2023-07-28  鍵盤     8   9999.17  79993.36  現金    已出貨   急件      1
      ORD0100  2023-08-21  鍵盤     8   7025.13  56201.04  現金    已取消   贈品包裝    1
      ORD0109  2023-06-01  耳機     6   8373.71  50242.26  現金    處理中   急件      1
      ORD0120  2023-09-15  手機     9   6645.18  59806.62  現金    現金    加急處理    1
      ORD0122  2023-03-22  鍵盤     10  7952.33  79523.30  信用卡   處理中   需揀貨     1
      ORD0135  2023-05-07  打印機    2   1949.85  3899.70   現金    已出貨   需揀貨     1
      ORD0138  2023-01-21  滑鼠     5   8458.37  42291.85  

In [72]:

results = df.groupby(by=['客戶名稱'])

results = results[['產品' , '付款方式']].value_counts()

print(results.to_string())

客戶名稱  產品     付款方式
劉德華   鍵盤     現金      3
      手機     現金      2
      智慧手錶   信用卡     2
      平板     電子支付    1
      打印機    現金      1
             轉帳      1
      智慧手錶   現金      1
      滑鼠     轉帳      1
      耳機     信用卡     1
             現金      1
      鍵盤     信用卡     1
周杰倫   平板     信用卡     2
      打印機    電子支付    2
      智慧手錶   現金      2
      顯示器    現金      2
      智慧手錶   轉帳      1
      滑鼠     電子支付    1
      相機     電子支付    1
      耳機     現金      1
張大偉   平板     轉帳      2
      智慧手錶   信用卡     2
             現金      2
      耳機     現金      2
      手機     信用卡     1
      滑鼠     現金      1
             電子支付    1
      相機     現金      1
             轉帳      1
      筆記型電腦  信用卡     1
             轉帳      1
      耳機     信用卡     1
李小華   智慧手錶   信用卡     3
             轉帳      3
             現金      2
      滑鼠     電子支付    2
      鍵盤     現金      2
      手機     現金      1
      打印機    現金      1
             電子支付    1
      智慧手錶   電子支付    1
      滑鼠     現金      1
      相機     信用卡     1
             現金 

In [73]:
#客戶資料表 (df1),
df1 = pd.DataFrame({
    '客戶編號': [1, 2, 3, 4, 5, 7],
    '客戶名稱': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
    '地址': ['台北市中山區', '新北市板橋區', '台中市西區', '高雄市鼓山區', '台南市中西區', '桃園市中壢區'],
    '電話': ['02-12345678', '02-23456789', '04-34567890', '07-45678901', '06-56789012', '03-67890123'],
    '會員等級': ['金卡', '普通', '白金', '金卡', '普通', '白金']
})
df1.head(100)

Unnamed: 0,客戶編號,客戶名稱,地址,電話,會員等級
0,1,Alice,台北市中山區,02-12345678,金卡
1,2,Bob,新北市板橋區,02-23456789,普通
2,3,Charlie,台中市西區,04-34567890,白金
3,4,David,高雄市鼓山區,07-45678901,金卡
4,5,Eva,台南市中西區,06-56789012,普通
5,7,Frank,桃園市中壢區,03-67890123,白金


In [74]:
#訂單資料表 (df2),
df2 = pd.DataFrame({
    '訂單編號': ['ORD001', 'ORD002', 'ORD003', 'ORD004', 'ORD005', 'ORD006'],
    '客戶編號': [1, 2, 2, 6, 3, 7],  # 注意：客戶編號 6 不存在於 df1 中
    '訂單日期': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05', '2023-02-10'],
    '產品': ['筆記型電腦', '手機', '平板', '耳機', '鍵盤', '滑鼠'],
    '數量': [2, 1, 3, 5, 1, 4],
    '總價': [56000.00, 15000.00, 23000.00, 4500.00, 3200.00, 2800.00],
    '付款方式': ['信用卡', '現金', '轉帳', '電子支付', '信用卡', '現金'],
    '訂單狀態': ['已出貨', '處理中', '已取消', '已出貨', '退貨', '已出貨']
})
df2.head(100)

Unnamed: 0,訂單編號,客戶編號,訂單日期,產品,數量,總價,付款方式,訂單狀態
0,ORD001,1,2023-01-01,筆記型電腦,2,56000.0,信用卡,已出貨
1,ORD002,2,2023-01-02,手機,1,15000.0,現金,處理中
2,ORD003,2,2023-01-03,平板,3,23000.0,轉帳,已取消
3,ORD004,6,2023-01-04,耳機,5,4500.0,電子支付,已出貨
4,ORD005,3,2023-01-05,鍵盤,1,3200.0,信用卡,退貨
5,ORD006,7,2023-02-10,滑鼠,4,2800.0,現金,已出貨


In [75]:
#left join 
df = df2.merge(df1, on ='客戶編號',how="left")
df.head(100)

Unnamed: 0,訂單編號,客戶編號,訂單日期,產品,數量,總價,付款方式,訂單狀態,客戶名稱,地址,電話,會員等級
0,ORD001,1,2023-01-01,筆記型電腦,2,56000.0,信用卡,已出貨,Alice,台北市中山區,02-12345678,金卡
1,ORD002,2,2023-01-02,手機,1,15000.0,現金,處理中,Bob,新北市板橋區,02-23456789,普通
2,ORD003,2,2023-01-03,平板,3,23000.0,轉帳,已取消,Bob,新北市板橋區,02-23456789,普通
3,ORD004,6,2023-01-04,耳機,5,4500.0,電子支付,已出貨,,,,
4,ORD005,3,2023-01-05,鍵盤,1,3200.0,信用卡,退貨,Charlie,台中市西區,04-34567890,白金
5,ORD006,7,2023-02-10,滑鼠,4,2800.0,現金,已出貨,Frank,桃園市中壢區,03-67890123,白金


In [76]:
#inner join (只會合併兩邊都有的值)
df = df2.merge(df1, on ='客戶編號')
df.head(100)

Unnamed: 0,訂單編號,客戶編號,訂單日期,產品,數量,總價,付款方式,訂單狀態,客戶名稱,地址,電話,會員等級
0,ORD001,1,2023-01-01,筆記型電腦,2,56000.0,信用卡,已出貨,Alice,台北市中山區,02-12345678,金卡
1,ORD002,2,2023-01-02,手機,1,15000.0,現金,處理中,Bob,新北市板橋區,02-23456789,普通
2,ORD003,2,2023-01-03,平板,3,23000.0,轉帳,已取消,Bob,新北市板橋區,02-23456789,普通
3,ORD005,3,2023-01-05,鍵盤,1,3200.0,信用卡,退貨,Charlie,台中市西區,04-34567890,白金
4,ORD006,7,2023-02-10,滑鼠,4,2800.0,現金,已出貨,Frank,桃園市中壢區,03-67890123,白金


In [77]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# 固定隨機種子，確保每次產生的隨機資料一致
np.random.seed(42)
random.seed(42)

# ------------------------------
# 1. 客戶資料表 (20 筆) - 使用真實姓名
# ------------------------------
customer_names = [
    "王小明", "陳大文", "李大同", "林志玲", "周杰倫",
    "吳彥祖", "徐若瑄", "蔡依林", "楊丞琳", "張學友",
    "劉德華", "郭富城", "張曼玉", "梁朝偉", "周潤發",
    "黎明", "鄧麗君", "葉倩文", "梅艷芳", "范冰冰"
]

df_customers = pd.DataFrame({
    '客戶編號': list(range(1, 21)),
    '客戶名稱': customer_names,
    '地址': np.random.choice(['台北市', '新北市', '台中市', '高雄市', '台南市'], 20).tolist(),
    '會員等級': np.random.choice(['金卡', '普通', '白金'], 20).tolist()
})

# ------------------------------
# 2. 訂單資料表 (20 筆)
# ------------------------------
order_ids = [f"ORD{str(i).zfill(3)}" for i in range(1, 21)]
order_customer_ids = np.random.randint(1, 21, 20)  # 客戶編號從 1 到 20

# 訂單日期隨機介於 2023-01-01 與 2023-04-30
start_date = datetime(2023, 1, 1)
end_date = datetime(2023, 4, 30)
days_range = (end_date - start_date).days
order_dates = [(start_date + timedelta(days=random.randint(0, days_range))).strftime("%Y-%m-%d")
               for _ in range(20)]
products = ['筆記型電腦', '手機', '平板', '耳機', '鍵盤', '滑鼠', '顯示器']
order_products = [random.choice(products) for _ in range(20)]
order_quantities = np.random.randint(1, 6, 20)  # 數量 1 到 5

# 每筆訂單的單價隨機 10,000 到 60,000 之間，總價 = 數量 * 單價
unit_prices = [round(random.uniform(10000, 60000), 2) for _ in range(20)]
order_total_prices = [round(q * p, 2) for q, p in zip(order_quantities, unit_prices)]

df_orders = pd.DataFrame({
    '訂單編號': order_ids,
    '客戶編號': order_customer_ids,
    '訂單日期': pd.to_datetime(order_dates),
    '產品': order_products,
    '數量': order_quantities,
    '總價': order_total_prices
})

# ------------------------------
# 3. 付款資料表 (20 筆)
# ------------------------------
# 假設每筆訂單均有對應的付款記錄，付款日期為訂單日期後 1~10 天，付款金額與訂單總價一致
payment_ids = [f"PAY{str(i).zfill(3)}" for i in range(1, 21)]
payment_dates = [(datetime.strptime(date, "%Y-%m-%d") + timedelta(days=random.randint(1, 10))).strftime("%Y-%m-%d")
                 for date in order_dates]
payment_amounts = order_total_prices.copy()  # 一次全額付款

df_payments = pd.DataFrame({
    '付款編號': payment_ids,
    '訂單編號': order_ids,
    '付款日期': pd.to_datetime(payment_dates),
    '付款金額': payment_amounts
})

df_orders.head(100)

# 1. 請以 df_orders 為主 ， 合併  df_payments df_customers

# 2. 並以「客戶編號」與「客戶名稱」分組，計算每位客戶的

    # a. 總訂單數
    # b. 總訂單金額
    # c. 平均付款延遲天數


# 3. 分組結果新增一個名為「VIP」的欄位，「總訂單金額」大於 300000 且「總訂單數」大於 2，則標記為「VIP」否則普通

# 4. 過濾出會員等級為「白金」或「金卡」的客戶

# 5. 「總訂單金額」對結果進行遞減排序


Unnamed: 0,訂單編號,客戶編號,訂單日期,產品,數量,總價
0,ORD001,7,2023-03-23,手機,4,201163.84
1,ORD002,9,2023-01-15,手機,2,89813.94
2,ORD003,7,2023-01-04,鍵盤,2,54025.06
3,ORD004,18,2023-04-05,鍵盤,4,71095.88
4,ORD005,4,2023-02-05,筆記型電腦,5,289303.25
5,ORD006,14,2023-02-01,鍵盤,2,53659.46
6,ORD007,18,2023-01-29,手機,2,29274.58
7,ORD008,9,2023-01-18,滑鼠,4,59343.28
8,ORD009,2,2023-04-05,滑鼠,2,104749.44
9,ORD010,20,2023-01-14,滑鼠,2,80372.6


In [78]:
#1
df = df_customers
df.head(20)
#df = df_customers.merge(df_orders, on ='客戶編號')
#df.head(100)

Unnamed: 0,客戶編號,客戶名稱,地址,會員等級
0,1,王小明,高雄市,普通
1,2,陳大文,台南市,普通
2,3,李大同,台中市,金卡
3,4,林志玲,台南市,金卡
4,5,周杰倫,台南市,金卡
5,6,吳彥祖,新北市,白金
6,7,徐若瑄,台中市,白金
7,8,蔡依林,台中市,白金
8,9,楊丞琳,台中市,普通
9,10,張學友,台南市,白金


In [79]:
#2
df = df_orders
df.head(20)

Unnamed: 0,訂單編號,客戶編號,訂單日期,產品,數量,總價
0,ORD001,7,2023-03-23,手機,4,201163.84
1,ORD002,9,2023-01-15,手機,2,89813.94
2,ORD003,7,2023-01-04,鍵盤,2,54025.06
3,ORD004,18,2023-04-05,鍵盤,4,71095.88
4,ORD005,4,2023-02-05,筆記型電腦,5,289303.25
5,ORD006,14,2023-02-01,鍵盤,2,53659.46
6,ORD007,18,2023-01-29,手機,2,29274.58
7,ORD008,9,2023-01-18,滑鼠,4,59343.28
8,ORD009,2,2023-04-05,滑鼠,2,104749.44
9,ORD010,20,2023-01-14,滑鼠,2,80372.6


In [80]:
#3
df = df_payments
df.head(20)

Unnamed: 0,付款編號,訂單編號,付款日期,付款金額
0,PAY001,ORD001,2023-03-25,201163.84
1,PAY002,ORD002,2023-01-16,89813.94
2,PAY003,ORD003,2023-01-08,54025.06
3,PAY004,ORD004,2023-04-10,71095.88
4,PAY005,ORD005,2023-02-07,289303.25
5,PAY006,ORD006,2023-02-05,53659.46
6,PAY007,ORD007,2023-01-31,29274.58
7,PAY008,ORD008,2023-01-25,59343.28
8,PAY009,ORD009,2023-04-10,104749.44
9,PAY010,ORD010,2023-01-22,80372.6


In [95]:
#1
df = df_orders.merge(df_payments, on ='訂單編號',how="left")
df = df.merge(df_customers, on ='客戶編號',how="left")

df.head(20)

Unnamed: 0,訂單編號,客戶編號,訂單日期,產品,數量,總價,付款編號,付款日期,付款金額,客戶名稱,地址,會員等級
0,ORD001,7,2023-03-23,手機,4,201163.84,PAY001,2023-03-25,201163.84,徐若瑄,台中市,白金
1,ORD002,9,2023-01-15,手機,2,89813.94,PAY002,2023-01-16,89813.94,楊丞琳,台中市,普通
2,ORD003,7,2023-01-04,鍵盤,2,54025.06,PAY003,2023-01-08,54025.06,徐若瑄,台中市,白金
3,ORD004,18,2023-04-05,鍵盤,4,71095.88,PAY004,2023-04-10,71095.88,葉倩文,台南市,白金
4,ORD005,4,2023-02-05,筆記型電腦,5,289303.25,PAY005,2023-02-07,289303.25,林志玲,台南市,金卡
5,ORD006,14,2023-02-01,鍵盤,2,53659.46,PAY006,2023-02-05,53659.46,梁朝偉,新北市,普通
6,ORD007,18,2023-01-29,手機,2,29274.58,PAY007,2023-01-31,29274.58,葉倩文,台南市,白金
7,ORD008,9,2023-01-18,滑鼠,4,59343.28,PAY008,2023-01-25,59343.28,楊丞琳,台中市,普通
8,ORD009,2,2023-04-05,滑鼠,2,104749.44,PAY009,2023-04-10,104749.44,陳大文,台南市,普通
9,ORD010,20,2023-01-14,滑鼠,2,80372.6,PAY010,2023-01-22,80372.6,范冰冰,高雄市,白金


In [96]:
#2 
df['平均付款延遲天數'] = df['付款日期'] - df['訂單日期']
df["總訂單數"] = df["數量"]
df["總訂單金額"] = df["總價"]
#df.head(20)
results = df.groupby(by=['客戶編號']).agg({
    "總訂單數":['sum'],
    "總訂單金額":['sum'],
    "平均付款延遲天數":['mean'],
})
#results["總訂單數"] = results["數量"]
#results["總訂單金額"] = results["總價"]
#results = results.drop(["數量","總價","平均付款延遲"], axis = "columns")
df = results
df.head(100000)



Unnamed: 0_level_0,總訂單數,總訂單金額,平均付款延遲天數
Unnamed: 0_level_1,sum,sum,mean
客戶編號,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2,2,104749.44,5 days 00:00:00
3,2,75204.06,5 days 00:00:00
4,6,342388.6,2 days 12:00:00
7,10,441135.26,3 days 00:00:00
8,5,293278.95,6 days 00:00:00
9,6,149157.22,4 days 00:00:00
12,1,36811.4,6 days 00:00:00
14,7,311010.61,3 days 00:00:00
15,9,346059.24,5 days 00:00:00
17,2,81851.98,10 days 00:00:00


In [99]:
#3
df['VIP'] = df.apply(lambda row : "VIP" if (row["總訂單金額"] > 300000 and row["總訂單數"] >2) else" 普通" ,axis = 1)
df.head(20)

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().