
# 💻 Cybersecurity Threat Financial Loss Prediction
### CRISP-DM Workflow Implementation Notebook
---
**Author:** [Your Name]  
**Course:** 資訊安全 / AI Data Science  
**Goal:** 預測各項資安事件造成的財務損失（Financial Loss in Million $）  
**Framework:** CRISP-DM + Streamlit Deployment



## 1️⃣ Business Understanding
---
### 🎯 目標說明
- 探討哪些因素會影響資安事件造成的財務損失。  
- 建立可預測 Financial Loss 的回歸模型。

### 📌 任務重點
- 明確定義 Target：`Financial Loss (in Million $)`  
- 其餘欄位為 features（9 欄），需進行類別與數值型特徵處理。



## 2️⃣ Data Understanding
---
### 🧩 任務
- 載入資料集 (`.csv`)
- 瞭解欄位資訊、缺失值與統計摘要
- 視覺化資料分布與關聯性


In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 載入資料集
df = pd.read_csv("Global_Cybersecurity_Threats_2015-2024.csv")
df.head()


In [None]:

# 檢查欄位資訊與缺失值
df.info()
df.isnull().sum()


In [None]:

# 基本統計摘要
df.describe()


In [None]:

# 可視化欄位分布與關聯
plt.figure(figsize=(8,5))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="coolwarm")
plt.title("Feature Correlation Heatmap")
plt.show()



## 3️⃣ Data Preparation
---
### 🧮 任務
- 缺失值處理
- One-Hot Encoding 類別特徵
- 標準化數值欄位
- 資料切分 (Train/Test)


In [None]:

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 設定 target 與 features
target = "Financial Loss (in Million $)"
X = df.drop(columns=[target])
y = df[target]

# 類別欄位轉換
X = pd.get_dummies(X, drop_first=True)

# 數值標準化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 訓練/測試集切分
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)



## 4️⃣ Modeling
---
### 🧠 任務
- 建立多元線性回歸模型
- 使用 RFE 進行特徵選擇


In [None]:

from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE

model = LinearRegression()
rfe = RFE(model, n_features_to_select=10)
rfe.fit(X_train, y_train)

selected_features = X.columns[rfe.support_]
selected_features


In [None]:

# 使用選擇後特徵重新訓練模型
model.fit(X_train[:, rfe.support_], y_train)



## 5️⃣ Evaluation
---
### 📊 任務
- 評估模型表現 (R², RMSE, MAE)
- 可視化實際 vs 預測、殘差圖


In [None]:

from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
import numpy as np

y_pred = model.predict(X_test[:, rfe.support_])

r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)

print(f"R²: {r2:.3f}, RMSE: {rmse:.3f}, MAE: {mae:.3f}")


In [None]:

# 可視化
plt.figure(figsize=(6,6))
sns.scatterplot(x=y_test, y=y_pred)
plt.xlabel("Actual")
plt.ylabel("Predicted")
plt.title("Actual vs Predicted Financial Loss")
plt.show()



## 6️⃣ Deployment (Streamlit Demo)
---
### 🚀 任務
- 使用 `Streamlit` 建立互動式預測應用。  
- 提供輸入欄位（攻擊類型、產業別、受害人數等），即時顯示預測結果。

> 💡 本 Notebook 僅示範部署概念，可將最終程式放入 `app.py` 並使用 `streamlit run app.py` 執行。


In [None]:

import joblib

# 儲存模型
joblib.dump(model, "cyber_risk_model.pkl")
joblib.dump(scaler, "scaler.pkl")

print("✅ 模型與 scaler 已儲存，可於 Streamlit 應用中載入使用。")



---
## 📘 Appendix
- NotebookLM 摘要（至少 100 字）
- GPT 對話記錄摘要（若需附錄 PDF 可截圖匯出）
