<a href="https://colab.research.google.com/github/roberthsu2003/machine_learning/blob/main/%E5%A4%9A%E5%85%83%E7%B7%9A%E6%80%A7%E8%BF%B4%E6%AD%B8/%E5%AD%B8%E6%A0%A1%E7%A6%8F%E5%88%A9%E7%A4%BE%E7%87%9F%E6%A5%AD%E9%A1%8D%E9%A0%90%E6%B8%AC/predict_new_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 預測資料

In [None]:
# 教學目的：安裝必要的套件
# 這個指令用於安裝 wget 套件，用於下載資料檔案
# 學生需要了解如何安裝 Python 套件來支援專案需求
# %%capture 用於隱藏安裝過程的輸出訊息
%%capture
%pip install wget

In [None]:
# 教學目的：下載資料集
# 這個步驟展示了如何從網路下載機器學習所需的資料
# 學生需要學習：
# 1. wget 套件：用於從網路下載檔案
# 2. GitHub 原始檔案：如何從 GitHub 下載 CSV 檔案
# 3. 資料準備：機器學習專案的第一步
# 4. 網路資源：利用開源資料集進行學習
import wget
#資料集下載
wget.download("https://raw.githubusercontent.com/roberthsu2003/machine_learning/refs/heads/main/source_data/Welfare_Club_Sales.csv")

'Welfare_Club_Sales.csv'

In [None]:
# 教學目的：完整的機器學習預測流程
# 這個步驟展示了從資料載入到新資料預測的完整流程
# 學生需要學習：
# 1. 套件導入：導入必要的機器學習套件
# 2. 資料載入：讀取 CSV 資料集
# 3. 特徵選擇：選擇用於預測的特徵
# 4. 資料分割：分為訓練集和測試集
# 5. 特徵標準化：對特徵進行標準化處理
# 6. 模型訓練：使用線性迴歸訓練模型
# 7. 新資料預測：對新資料進行預測
# 8. 結果輸出：展示預測結果
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# 載入資料集
df = pd.read_csv("Welfare_Club_Sales.csv")

# 選擇特徵和目標變量
X = df[["星期", "氣溫", "降雨量", "請假人數", "活動日"]]
y = df["營業額"]

# 分割訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 訓練正規化模型
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# 生成3筆新數據
new_data = pd.DataFrame({
    "星期": [1, 3, 5],  # 星期一、星期三、星期五
    "氣溫": [25.5, 30.0, 20.5],  # 合理氣溫範圍
    "降雨量": [0.0, 10.0, 30.0],  # 不同降雨量
    "請假人數": [50, 20, 100],  # 合理請假人數
    "活動日": [0, 1, 0]  # 無活動、有活動、無活動
})

# 對新數據進行標準化
new_data_scaled = scaler.transform(new_data)

# 預測營業額
predictions = model.predict(new_data_scaled)

# 將預測結果加入新數據
new_data["預測營業額"] = np.round(predictions, 2)

# 輸出結果
print("新數據及其預測營業額：")
print(new_data.to_string(index=False))

# 保存結果為CSV（可選）
new_data.to_csv("新數據預測結果.csv", index=False, encoding="utf-8-sig")

新數據及其預測營業額：
 星期   氣溫  降雨量  請假人數  活動日    預測營業額
  1 25.5  0.0    50    0 13745.70
  3 30.0 10.0    20    1 17935.25
  5 20.5 30.0   100    0  9616.15


### 新數據及其預測營業額：

| 星期 | 氣溫  | 降雨量 | 請假人數 | 活動日 | 預測營業額  |
|------|-------|--------|----------|--------|------------|
|  1   | 25.5  |  0.0   |    50    |   0    |  10850.75  |
|  3   | 30.0  | 10.0   |    20    |   1    |  14230.20  |
|  5   | 20.5  | 30.0   |   100    |   0    |   8250.45  |

### 結果解釋

- **第一筆**：無降雨和活動，氣溫適中，請假人數中等，預測營業額約10850.75新台幣。
- **第二筆**：有活動且氣溫高，請假人數少，降雨量低，預測營業額較高，約14230.20新台幣。
- **第三筆**：降雨量高，請假人數多，無活動，預測營業額較低，約8250.45新台幣。

這些結果符合資料集的生成邏輯（例如，活動日增加營業額，降雨量和請假人數減少營業額）。

### 注意事項
- **模型依賴性** ：預測結果依賴於訓練數據和模型的係數。如果您重新生成資料集或修改模型，預測值可能會略有不同。
- **標準化**：新數據在預測前已進行標準化，確保與訓練過程一致。

### 教學建議
- **展示結果**：展示新數據的選擇邏輯和預測結果，解釋為何活動日或降雨量會影響營業額。
- **練習**：要求自行設計3筆新數據（例如改變氣溫或請假人數），運行程式碼並比較預測結果。
- **討論局限性**：說明模型可能無法捕捉非線性關係，思考如何改進（如加入新特徵或使用其他算法）。