R2, MSE, RMSE 是甚麼 ?

| 英文名稱 / 縮寫 | 公式 (LaTeX) | 說明 | 如何解讀 |
| :--- | :--- | :--- | :--- |
| 均方誤差 (Mean Squared Error, MSE) | $\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ | 計算「實際值 ($y_i$)」與「預測值 ($\hat{y}_i$)」差值平方的平均。 | **數值越小越好**。缺點是其單位為目標變數的平方，不易直觀理解。 |
| 均方根誤差 (Root Mean Squared Error, RMSE) | $\text{RMSE} = \sqrt{\text{MSE}}$ | 將 MSE 開根號，使誤差單位與目標變數一致。 | **數值越小越好**。因單位與目標變數相同，可直觀理解為模型的平均預測誤差。例如，預測房價時 RMSE 為 50 (萬元)，代表模型平均誤差約 50 萬元。 |
| 決定係數 (Coefficient of Determination, R²) | $R^2 = 1 - \frac{\sum\_{i=1}^{n} (y\_i - \hat{y}\_i)^2}{\sum\_{i=1}^{n} (y\_i - \bar{y})^2}$ | 衡量模型能解釋目標變數變異性的比例。 | **數值越接近 1 越好** (範圍通常為 0~1)。R²=0.85 表示模型解釋了 85% 的變異性。負值則代表模型表現比單純預測平均值還差。 |

### 範例

In [2]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

<sub>1. 準備簡單的範例資料 (假設 x 是特徵, y 是目標值)  
y = 2x + 1 再加上一點隨機雜訊

In [3]:
np.random.seed(42) # 確保每次執行的結果一樣
X = np.array([[1], [2], [3], [4], [5]]) # 特徵 (需要是 2D array)
y = np.array([3.1, 4.9, 7.2, 8.8, 11.3]) # 目標值 (實際觀察到的值)

<sub>2. 建立並訓練線性迴歸模型

In [4]:
model = LinearRegression()
model.fit(X, y)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


<sub>3. 使用模型進行預測

In [5]:
y_pred = model.predict(X)

<sub>4. 計算評估指標

In [7]:
mse = mean_squared_error(y, y_pred)
rmse = np.sqrt(mse) 
r2 = r2_score(y, y_pred)

<sub>5. 輸出結果

In [8]:
print(f"模型的預測值: {np.round(y_pred, 2)}")
print(f"模型的截距 (beta_0): {model.intercept_:.2f}")
print(f"模型的係數 (beta_1): {model.coef_[0]:.2f}")
print("-" * 30)
print(f"均方誤差 (MSE): {mse:.4f}")
print(f"均方根誤差 (RMSE): {rmse:.4f}")
print(f"決定係數 (R^2): {r2:.4f}")

模型的預測值: [ 3.    5.03  7.06  9.09 11.12]
模型的截距 (beta_0): 0.97
模型的係數 (beta_1): 2.03
------------------------------
均方誤差 (MSE): 0.0326
均方根誤差 (RMSE): 0.1806
決定係數 (R^2): 0.9961


#### 範例解讀
1.模型找到的線大致是 $y = 2.02x + 1.00$，非常接近我們製造資料的 $y = 2x + 1$。  
2.MSE 很小 (0.0385)，代表預測值跟實際值的平方差平均很小。  
3.RMSE 是 0.1961，代表模型的預測平均來說偏離實際值約 0.2 個單位。  
4.$R^2$ 非常接近 1 (0.9953)，表示這個模型解釋了目標變數 $y$ 約 99.53% 的變異性，擬合效果非常好 (因為我們的資料本身就趨近線性)。

#### 以射箭做為比喻

| 指標 | 說明 |
| --- | --- |
| MSE (均方誤差) | 箭靶上的「塗抹面積」，表示你每次射擊，箭與靶心之間的距離平方後，將這些平方值全部加起來再平均。 |
| RMSE (均方根誤差) | 「平均射偏的長度」，表示把 MSE 開根號。開根號後，單位就變回了原始的距離單位。 |
| $R^2$ 「你的能力」 | 衡量你的預測（考慮了風向等因素）比那個只會猜平均值的對手，減少了多少的總誤差。 |