In [1]:
# 初始化：載入套件與建立示範資料
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 設定中文字型
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 建立示範資料
np.random.seed(42)
categories = ['Monitor', 'Keyboard', 'Mouse', 'Headset']
products = ['Product A', 'Product B', 'Product C', 'Product D']
regions = ['Taipei', 'Taichung', 'Kaohsiung']
channels = ['Online', 'Store']

data = {
    'order_id': range(1, 201),
    'date': pd.date_range('2024-01-01', periods=200, freq='D'),
    'category': np.random.choice(categories, 200),
    'product': np.random.choice(products, 200),
    'price': np.random.randint(500, 5000, 200),
    'quantity': np.random.randint(1, 5, 200),
    'region': np.random.choice(regions, 200),
    'channel': np.random.choice(channels, 200)
}

df2 = pd.DataFrame(data)
df2['date'] = pd.to_datetime(df2['date'])
df2['revenue'] = df2['price'] * df2['quantity']

# 如果有 sales_data.csv，可以用以下方式讀取：
# df2 = pd.read_csv('sales_data.csv')
# df2['date'] = pd.to_datetime(df2['date'])
# df2['revenue'] = df2['price'] * df2['quantity']

print("資料已準備完成！")
print(f"共有 {len(df2)} 筆資料")

資料已準備完成！
共有 200 筆資料


## A. 讀取與檢查（題目 1–5）

題目 1：顯示 df2 的前 5 筆資料

In [5]:
df2.head()

Unnamed: 0,order_id,date,category,product,price,quantity,region,channel,revenue
0,1,2024-01-01,Mouse,Product C,4491,4,Taipei,Store,17964
1,2,2024-01-02,Headset,Product D,2148,2,Taipei,Store,4296
2,3,2024-01-03,Monitor,Product C,1945,1,Taichung,Online,1945
3,4,2024-01-04,Mouse,Product A,4699,2,Kaohsiung,Online,9398
4,5,2024-01-05,Mouse,Product D,4423,1,Kaohsiung,Online,4423


題目 2：印出 df2 的筆數與欄位數（shape）

In [4]:
print(df2.shape)

(200, 9)


題目 3：列出 df2 的所有欄位名稱（columns）

In [None]:
print(df2.columns.tolist())

題目 4：使用 df2.info() 檢查資料型別與缺失值概況

In [None]:
df2.info()

題目 5：使用 df2.describe() 取得數值欄位的統計摘要

In [None]:
df2.describe()

## B. 篩選與排序（題目 6–10）

題目 6：篩選 category == "Keyboard" 的資料

In [None]:
df2[df2['category'] == 'Keyboard']

題目 7：篩選 revenue > 3000 的資料

In [None]:
df2[df2['revenue'] > 3000]

題目 8：篩選 region == "Taipei" 且 channel == "Online" 的資料

In [None]:
df2[(df2['region'] == 'Taipei') & (df2['channel'] == 'Online')]

題目 9：依 revenue 由大到小排序，取前 3 筆

In [None]:
df2.sort_values('revenue', ascending=False).head(3)

題目 10：找出 price 最高的那筆資料

In [None]:
df2[df2['price'] == df2['price'].max()]

## C. 欄位運算（題目 11–15）

題目 11：新增 unit_price_check = revenue / quantity 欄位

In [None]:
df2['unit_price_check'] = df2['revenue'] / df2['quantity']
df2.head()

題目 12：新增 is_bulk 欄位（quantity >= 2 為 True）

In [None]:
df2['is_bulk'] = df2['quantity'] >= 2
df2.head()

題目 13：使用 np.where 新增 revenue_level（revenue >= 6000 為 "High" 否則 "Normal"）

In [None]:
df2['revenue_level'] = np.where(df2['revenue'] >= 6000, 'High', 'Normal')
df2.head()

題目 14：計算總營收（revenue.sum）

In [None]:
print(f"總營收：{df2['revenue'].sum()}")

題目 15：計算平均單筆營收（revenue.mean）

In [None]:
print(f"平均單筆營收：{df2['revenue'].mean():.2f}")

## D. 分組統計（題目 16–20）

題目 16：依 category 分組，計算總營收（revenue.sum）

In [None]:
df2.groupby('category')['revenue'].sum()

題目 17：依 region 分組，計算平均營收（revenue.mean）

In [None]:
df2.groupby('region')['revenue'].mean()

題目 18：依 product 分組，找出總營收最高的產品

In [None]:
df2.groupby('product')['revenue'].sum().idxmax()

題目 19：使用 pivot_table 製作 region x category 的營收表（sum）

In [None]:
df2.pivot_table(values='revenue', index='region', columns='category', aggfunc='sum')

題目 20：依 date 分組，計算每日總營收並依日期排序

In [None]:
df2.groupby('date')['revenue'].sum().sort_index()

## E. Numpy 統計（題目 21–25）

題目 21：使用 np.max 計算 revenue 最大值

In [None]:
print(f"Revenue 最大值：{np.max(df2['revenue'])}")

題目 22：使用 np.percentile 計算 revenue 的 90 分位數

In [None]:
print(f"Revenue 90 分位數：{np.percentile(df2['revenue'], 90)}")

題目 23：找出 revenue 大於 90 分位數的訂單資料

In [None]:
p90 = np.percentile(df2['revenue'], 90)
df2[df2['revenue'] > p90]

題目 24：使用 np.std 計算 revenue 的標準差

In [None]:
print(f"Revenue 標準差：{np.std(df2['revenue']):.2f}")

題目 25：計算 revenue 超過平均值的訂單數量（提示：np.mean + 布林索引）

In [None]:
avg = np.mean(df2['revenue'])
print(f"超過平均值的訂單數量：{len(df2[df2['revenue'] > avg])}")

## F. Matplotlib 視覺化（題目 26–30）

題目 26：繪製 revenue 的直方圖（hist，bins=10）

In [None]:
plt.figure(figsize=(8, 5))
plt.hist(df2['revenue'], bins=10)
plt.title('Revenue 分布直方圖')
plt.xlabel('Revenue')
plt.ylabel('次數')
plt.show()

題目 27：繪製 category 總營收長條圖（bar）

In [None]:
category_revenue = df2.groupby('category')['revenue'].sum()
plt.figure(figsize=(8, 5))
category_revenue.plot(kind='bar')
plt.title('各類別總營收')
plt.xlabel('Category')
plt.ylabel('Total Revenue')
plt.xticks(rotation=45)
plt.show()

題目 28：繪製每日總營收折線圖（line）

In [None]:
daily_revenue = df2.groupby('date')['revenue'].sum()
plt.figure(figsize=(12, 5))
daily_revenue.plot(kind='line')
plt.title('每日總營收趨勢')
plt.xlabel('Date')
plt.ylabel('Total Revenue')
plt.show()

題目 29：繪製 quantity 的次數長條圖（value_counts().plot(kind="bar")）

In [None]:
plt.figure(figsize=(8, 5))
df2['quantity'].value_counts().sort_index().plot(kind='bar')
plt.title('Quantity 次數分布')
plt.xlabel('Quantity')
plt.ylabel('次數')
plt.show()

題目 30：繪製 region 總營收長條圖，並加上 title/xlabel/ylabel

In [None]:
region_revenue = df2.groupby('region')['revenue'].sum()
plt.figure(figsize=(8, 5))
region_revenue.plot(kind='bar')
plt.title('各地區總營收')
plt.xlabel('Region')
plt.ylabel('Total Revenue')
plt.xticks(rotation=0)
plt.show()