<a href="https://colab.research.google.com/github/roberthsu2003/machine_learning/blob/main/%E5%A4%9A%E5%85%83%E7%B7%9A%E6%80%A7%E8%BF%B4%E6%AD%B8/%E5%AD%B8%E6%A0%A1%E7%A6%8F%E5%88%A9%E7%A4%BE%E7%87%9F%E6%A5%AD%E9%A1%8D%E9%A0%90%E6%B8%AC/generate_dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 資料集生成

In [None]:
# 教學目的：生成學校福利社營業額預測的模擬資料集
# 這個步驟展示了如何創建一個完整的機器學習資料集
# 學生需要學習：
# 1. 資料集設計：如何設計符合實際情況的模擬資料
# 2. 特徵工程：選擇影響營業額的關鍵因素
# 3. 資料生成：使用程式碼自動生成大量資料
# 4. 真實性模擬：建立符合邏輯的資料關係
# 5. 資料保存：將生成的資料保存為 CSV 檔案
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 設定隨機種子以確保可重現
np.random.seed(42)

# 生成日期（星期一至星期五，30週）
start_date = datetime(2025, 2, 3)  # 假設學期從2025年2月3日開始
dates = []
weekdays = []
for i in range(150):  # 150天，約30週
    current_date = start_date + timedelta(days=i)
    if current_date.weekday() < 5:  # 僅星期一至星期五
        dates.append(current_date.strftime("%Y-%m-%d"))
        weekdays.append(current_date.weekday() + 1)  # 1=星期一, 5=星期五

# 生成特徵數據
n_samples = len(dates)
data = {
    "日期": dates,
    "星期": weekdays,
    "氣溫": np.random.uniform(15, 35, n_samples),  # 氣溫15-35°C
    "降雨量": np.random.uniform(0, 50, n_samples),  # 降雨量0-50mm
    "請假人數": np.random.randint(0, 200, n_samples),  # 請假人數0-200
    "活動日": np.random.choice([0, 1], n_samples, p=[0.8, 0.2]),  # 20%機率有活動
}

# 生成營業額（模擬真實情況）
base_sales = 10000  # 基礎營業額
data["營業額"] = (
    base_sales
    + data["氣溫"] * 200  # 氣溫高，營業額略增
    - data["降雨量"] * 50  # 降雨量高，營業額下降
    - data["請假人數"] * 30  # 請假人數多，營業額下降
    + data["活動日"] * 3000  # 活動日營業額增加
    + np.random.normal(0, 1000, n_samples)  # 隨機噪聲
)
data["營業額"] = np.clip(data["營業額"], 5000, 20000)  # 限制範圍5000-20000

# 創建DataFrame
df = pd.DataFrame(data)

# 保存為CSV檔案
df.to_csv("Welfare_Club_Sales.csv", index=False, encoding="utf-8-sig")

print("資料集已生成並保存為 'Welfare_Club_Sales.csv'")

資料集已生成並保存為 'Welfare_Club_Sales.csv'
