In [1]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# 設定隨機種子，方便重現
np.random.seed(42)
random.seed(42)

n = 200  # 紀錄數

# 生成訂單編號，格式為 ORD0001, ORD0002, ...
order_ids = [f"ORD{str(i+1).zfill(4)}" for i in range(n)]

# 客戶名稱列表（可自由調整）
customer_names = ["王小明", "李小華", "陳大文", "林小美",None, "張大偉", "劉德華", "周杰倫", "鄧紫棋", "蔡依林", "郭富城"]
customers = [random.choice(customer_names) for _ in range(n)]

# 生成隨機訂單日期：介於 2023-01-01 與 2023-12-31 之間
start_date = datetime.strptime("2023-01-01", "%Y-%m-%d")
end_date = datetime.strptime("2023-12-31", "%Y-%m-%d")
date_range = (end_date - start_date).days
order_dates = [start_date + timedelta(days=random.randint(0, date_range)) for _ in range(n)]
order_dates = [d.strftime("%Y-%m-%d") for d in order_dates]

# 產品名稱列表
products = ["筆記型電腦", "手機", "平板", None, "耳機", "鍵盤", "滑鼠", "顯示器", "打印機", "相機", "智慧手錶"]
product_choices = [random.choice(products) for _ in range(n)]

# 隨機數量：介於 1 到 10
quantities = np.random.randint(1, 11, n)

# 單價：介於 1000 到 10000 之間，取小數點後 2 位
unit_prices = [round(random.uniform(1000, 10000), 2) for _ in range(n)]

# 總價 = 數量 * 單價（取小數點後 2 位）
total_prices = [round(q * p, 2) for q, p in zip(quantities, unit_prices)]

# 付款方式列表
payment_methods = ["信用卡", "現金",None, "轉帳", "電子支付"]
payment_choices = [random.choice(payment_methods) for _ in range(n)]

# 訂單狀態列表
order_statuses = ["已出貨", "處理中", None,"已取消", "退貨"]
status_choices = [random.choice(order_statuses) for _ in range(n)]

# 備註：隨機選擇，部分可能為缺失值 (None)
remarks_options = ["", "急件", "贈品包裝", None, "需揀貨", "加急處理"]
remarks = [random.choice(remarks_options) for _ in range(n)]

# 建立 DataFrame
df = pd.DataFrame({
    "訂單編號": order_ids,
    "客戶名稱": customers,
    "訂單日期": order_dates,
    "產品": product_choices,
    "數量": quantities,
    "單價": unit_prices,
    "總價": total_prices,
    "付款方式": payment_choices,
    "訂單狀態": status_choices,
    "備註": remarks
})


df.head(100)


Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0001,郭富城,2023-08-05,鍵盤,7,2582.98,18080.86,,已取消,加急處理
1,ORD0002,李小華,2023-04-19,,4,9621.69,38486.76,信用卡,已取消,加急處理
2,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
3,ORD0004,,2023-12-20,智慧手錶,5,1451.97,7259.85,,處理中,贈品包裝
4,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
...,...,...,...,...,...,...,...,...,...,...
95,ORD0096,王小明,2023-07-14,筆記型電腦,10,2794.25,27942.50,現金,已取消,贈品包裝
96,ORD0097,林小美,2023-01-02,手機,9,1183.42,10650.78,信用卡,處理中,急件
97,ORD0098,王小明,2023-07-19,相機,7,2371.44,16600.08,信用卡,處理中,需揀貨
98,ORD0099,張大偉,2023-05-16,滑鼠,9,2135.99,19223.91,現金,退貨,


In [3]:
#刪除遺失值 
results = df.dropna()

results = results.reset_index(drop=True)

results.head() 


Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
1,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
2,ORD0007,陳大文,2023-07-24,顯示器,3,5108.16,15324.48,現金,處理中,加急處理
3,ORD0009,郭富城,2023-11-29,筆記型電腦,8,7008.2,56065.6,信用卡,處理中,
4,ORD0010,鄧紫棋,2023-07-11,手機,5,9891.03,49455.15,電子支付,退貨,加急處理


In [15]:
#填充遺失值
results = df

results["客戶名稱"] = results["客戶名稱"].fillna("其它")

print("出現最多",df["產品"].value_counts().idxmax())

results["產品"] = results["產品"].fillna(df["產品"].value_counts().idxmax())

print("出現最少",df["付款方式"].value_counts().idxmin())

results["付款方式"] = results["付款方式"].fillna(df["付款方式"].value_counts().idxmin())

results["訂單狀態"] = results["訂單狀態"].fillna("現金")

results["數量"] = results["數量"].fillna(remarks["數量"].mean())

results.head(100)

出現最多 智慧手錶
出現最少 電子支付


Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0001,郭富城,2023-08-05,鍵盤,7,2582.98,18080.86,現金,已取消,加急處理
1,ORD0002,李小華,2023-04-19,智慧手錶,4,9621.69,38486.76,信用卡,已取消,加急處理
2,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
3,ORD0004,其它,2023-12-20,智慧手錶,5,1451.97,7259.85,現金,處理中,贈品包裝
4,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
...,...,...,...,...,...,...,...,...,...,...
95,ORD0096,王小明,2023-07-14,筆記型電腦,10,2794.25,27942.50,現金,已取消,贈品包裝
96,ORD0097,林小美,2023-01-02,手機,9,1183.42,10650.78,信用卡,處理中,急件
97,ORD0098,王小明,2023-07-19,相機,7,2371.44,16600.08,信用卡,處理中,需揀貨
98,ORD0099,張大偉,2023-05-16,滑鼠,9,2135.99,19223.91,現金,退貨,


In [16]:
results = df["客戶名稱"].duplicated() 
results.head(100) 

0     False
1     False
2     False
3     False
4     False
      ...  
95     True
96     True
97     True
98     True
99     True
Name: 客戶名稱, Length: 100, dtype: bool

In [17]:
results = df["客戶名稱"].value_counts() 
results.head(100) 




客戶名稱
李小華    24
郭富城    22
鄧紫棋    22
林小美    21
其它     19
陳大文    18
蔡依林    16
張大偉    16
王小明    15
劉德華    15
周杰倫    12
Name: count, dtype: int64

In [18]:
results = df.drop_duplicates(["客戶名稱"])
results = results.reset_index(drop=True)
results.head(100)

Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0001,郭富城,2023-08-05,鍵盤,7,2582.98,18080.86,現金,已取消,加急處理
1,ORD0002,李小華,2023-04-19,智慧手錶,4,9621.69,38486.76,信用卡,已取消,加急處理
2,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
3,ORD0004,其它,2023-12-20,智慧手錶,5,1451.97,7259.85,現金,處理中,贈品包裝
4,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
5,ORD0007,陳大文,2023-07-24,顯示器,3,5108.16,15324.48,現金,處理中,加急處理
6,ORD0010,鄧紫棋,2023-07-11,手機,5,9891.03,49455.15,電子支付,退貨,加急處理
7,ORD0012,蔡依林,2023-09-22,滑鼠,8,9550.36,76402.88,現金,處理中,
8,ORD0013,劉德華,2023-08-20,耳機,8,9022.83,72182.64,信用卡,已出貨,
9,ORD0028,周杰倫,2023-11-20,平板,3,3471.38,10414.14,信用卡,已取消,急件


In [19]:
#  取代replace

df["客戶名稱"] = df["客戶名稱"].replace(["其它",None],"遺失客戶")
df.head(100)

Unnamed: 0,訂單編號,客戶名稱,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,ORD0001,郭富城,2023-08-05,鍵盤,7,2582.98,18080.86,現金,已取消,加急處理
1,ORD0002,李小華,2023-04-19,智慧手錶,4,9621.69,38486.76,信用卡,已取消,加急處理
2,ORD0003,王小明,2023-10-04,智慧手錶,8,5661.62,45292.96,現金,已取消,加急處理
3,ORD0004,遺失客戶,2023-12-20,智慧手錶,5,1451.97,7259.85,現金,處理中,贈品包裝
4,ORD0005,林小美,2023-04-13,耳機,7,3242.78,22699.46,現金,已取消,需揀貨
...,...,...,...,...,...,...,...,...,...,...
95,ORD0096,王小明,2023-07-14,筆記型電腦,10,2794.25,27942.50,現金,已取消,贈品包裝
96,ORD0097,林小美,2023-01-02,手機,9,1183.42,10650.78,信用卡,處理中,急件
97,ORD0098,王小明,2023-07-19,相機,7,2371.44,16600.08,信用卡,處理中,需揀貨
98,ORD0099,張大偉,2023-05-16,滑鼠,9,2135.99,19223.91,現金,退貨,


In [20]:
results = df.groupby(by=["客戶名稱"]).sum().reset_index() 

results.head()

Unnamed: 0,客戶名稱,訂單編號,訂單日期,產品,數量,單價,總價,付款方式,訂單狀態,備註
0,劉德華,ORD0013ORD0026ORD0033ORD0041ORD0051ORD0068ORD0...,2023-08-202023-02-062023-06-192023-10-042023-0...,耳機手機打印機鍵盤平板智慧手錶鍵盤鍵盤耳機手機鍵盤打印機滑鼠智慧手錶智慧手錶,97,94584.25,642339.84,信用卡現金轉帳現金電子支付現金現金現金現金現金信用卡現金轉帳信用卡信用卡,已出貨已取消已取消已取消退貨已取消已出貨已取消處理中現金處理中已出貨退貨現金處理中,加急處理加急處理需揀貨急件贈品包裝急件加急處理需揀貨需揀貨加急處理需揀貨贈品包裝
1,周杰倫,ORD0028ORD0048ORD0070ORD0088ORD0108ORD0111ORD0...,2023-11-202023-07-282023-10-022023-03-272023-0...,平板打印機顯示器打印機智慧手錶滑鼠耳機智慧手錶顯示器智慧手錶相機平板,55,51445.02,231423.9,信用卡電子支付現金電子支付轉帳電子支付現金現金現金現金電子支付信用卡,已取消已取消現金現金退貨退貨現金現金退貨退貨處理中已出貨,急件加急處理贈品包裝需揀貨贈品包裝急件加急處理贈品包裝
2,張大偉,ORD0034ORD0038ORD0043ORD0044ORD0057ORD0072ORD0...,2023-02-062023-12-092023-10-202023-10-232023-0...,平板耳機智慧手錶智慧手錶平板耳機智慧手錶筆記型電腦耳機滑鼠手機相機滑鼠相機智慧手錶筆記型電腦,94,76842.93,448024.63,轉帳現金現金信用卡轉帳信用卡信用卡轉帳現金現金信用卡現金電子支付轉帳現金信用卡,已取消退貨現金已取消退貨已取消已取消退貨現金退貨已出貨已出貨處理中已取消退貨現金,加急處理需揀貨急件急件急件加急處理
3,李小華,ORD0002ORD0008ORD0011ORD0016ORD0039ORD0040ORD0...,2023-04-192023-12-102023-08-132023-04-262023-0...,智慧手錶耳機智慧手錶鍵盤鍵盤筆記型電腦智慧手錶相機智慧手錶智慧手錶滑鼠顯示器手機滑鼠打印機智...,134,125320.98,675754.63,信用卡現金現金現金現金電子支付信用卡現金轉帳電子支付現金信用卡現金電子支付電子支付現金轉帳現...,已取消已取消退貨現金已取消處理中已出貨處理中退貨處理中現金退貨處理中處理中已取消已取消已取消...,加急處理贈品包裝急件贈品包裝贈品包裝加急處理急件贈品包裝加急處理急件贈品包裝需揀貨加急處理需...
4,林小美,ORD0005ORD0006ORD0017ORD0018ORD0023ORD0027ORD0...,2023-04-132023-06-092023-02-022023-06-232023-1...,耳機打印機平板智慧手錶滑鼠手機筆記型電腦滑鼠平板筆記型電腦智慧手錶滑鼠平板手機相機滑鼠智慧手...,137,112994.44,678723.15,現金現金現金轉帳轉帳現金信用卡電子支付信用卡現金轉帳現金現金信用卡現金轉帳電子支付電子支付現...,已取消退貨退貨現金退貨退貨處理中已出貨已出貨現金已出貨已取消現金處理中處理中退貨現金已取消現...,需揀貨需揀貨急件加急處理急件贈品包裝急件加急處理急件需揀貨急件需揀貨加急處理需揀貨急件


In [22]:
results = df[["客戶名稱","總價"]].groupby(by=["客戶名稱"]).mean().reset_index() 

results.head()

Unnamed: 0,客戶名稱,總價
0,劉德華,42822.656
1,周杰倫,19285.325
2,張大偉,28001.539375
3,李小華,28156.442917
4,林小美,32320.15


In [25]:
results = df.groupby(by=["客戶名稱"]).agg({
    "總價":['sum',"mean"],
    "數量":['sum'],
})
results.head(100000)

Unnamed: 0_level_0,總價,總價,數量
Unnamed: 0_level_1,sum,mean,sum
客戶名稱,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
劉德華,642339.84,42822.656,97
周杰倫,231423.9,19285.325,55
張大偉,448024.63,28001.539375,94
李小華,675754.63,28156.442917,134
林小美,678723.15,32320.15,137
王小明,354925.61,23661.707333,76
蔡依林,605126.72,37820.42,97
遺失客戶,595736.23,31354.538421,112
郭富城,685895.46,31177.066364,121
鄧紫棋,748605.63,34027.528636,124
