### Ordinary Least Squares (OLS) is a linear regression method that minimizes the sum of squared differences between the observed targets and the predicted targets. 
---

# Ordinary Least Squares (OLS) 回歸介紹

**Ordinary Least Squares (OLS)** 是線性回歸中最常用的方法，目的是找出一條最佳直線，使預測值與實際值之間的**誤差平方和（Sum of Squared Errors, SSE）最小**。

---
線性模型假設為：
$$y = X\beta + \varepsilon$$

給定資料集：
<ul>
  <li>\( y \in \mathbb{R}^n \)：目標變數（response vector）</li>
  <li>\( X \in \mathbb{R}^{n \times p} \)：解釋變數矩陣（design matrix）</li>
  <li>\( \beta \in \mathbb{R}^p \)：模型參數</li>
  <li>\( \varepsilon \in \mathbb{R}^n \)：誤差項</li>
</ul>


---

最佳化目標，OLS 要最小化的損失函數（誤差平方和）為：$ \min_{\beta} \; \| y - X\beta \|^2 $

---

導出解（Closed-form solution），將損失函數對 $\beta$ 微分並設為 0，得到 OLS 的封閉解為：$ \hat{\beta} = (X^\top X)^{-1} X^\top y $

> **條件**：$X^\top X$ 必須為可逆矩陣（通常需滿足 X 無完全共線性）

---

### 應用場景

OLS 廣泛應用於：
- 預測與解釋變數間線性關係
- 特徵選擇與初步建模
- 經濟學、社會科學、機器學習中的基礎模型

---

### 參考

- Hastie, Tibshirani, and Friedman, *The Elements of Statistical Learning*
- ISLR, *An Introduction to Statistical Learning*



#### Let's start by fitting a linear regression model using OLS.

In [1]:
from sklearn import linear_model

reg = linear_model.LinearRegression()
X = [[0, 0], [1, 1], [2, 2]]
y = [0, 1, 2]
reg.fit(X, y)

print(reg.coef_)

[0.5 0.5]


*  We import the linear_model module from scikit-learn.
*  We create an instance of LinearRegression.
*  We use the fit method to fit the model to the training data.
*  We print the coefficients of the linear model.

---

# Ridge Regression

Ridge regression is a linear regression method that adds a penalty term to the ordinary least squares objective function. This penalty term helps to reduce overfitting by shrinking the coefficients towards zero. The complexity of the model can be controlled by the regularization parameter.

Let's fit a ridge regression model.

# Ridge Regression（脊回歸）介紹

**Ridge Regression** 是一種改進的線性回歸方法，在 Ordinary Least Squares (OLS) 的目標函數中加入懲罰項（penalty term），用來抑制模型過度擬合（overfitting）。它透過將模型係數向 0 收縮，達到簡化模型與提高泛化能力的目的。

---

## 目標函數（Objective Function）

Ridge Regression 的最小化目標為：

$$\min_{\beta} \; \| y - X\beta \|^2 + \lambda \| \beta \|^2$$

其中：

- $y$ 是響應變數（response variable）
- $X$ 是特徵矩陣（feature matrix）
- $\beta$ 是模型參數（regression coefficients）
- $\lambda$ 是正則化參數（regularization parameter），控制懲罰項的強度
- $\| \beta \|^2$ 是 L2 範數平方（即 $\sum \beta_i^2$）

---

## 模型特性

- 當 $\lambda = 0$，Ridge Regression 等同於 OLS。
- 隨著 $\lambda$ 增加，模型係數會越接近 0。
- 能有效處理共線性問題，並防止模型對訓練資料過度擬合。

---

## 與 OLS 的比較

| 項目         | OLS 回歸           | Ridge 回歸                      |
|--------------|--------------------|---------------------------------|
| 目標         | 最小化殘差平方和    | 殘差平方和 + 正則化項          |
| 過擬合控制    | 無                  | 有，透過 $\lambda$ 控制        |
| 解的形式      | $(X^\top X)^{-1} X^\top y$ | $(X^\top X + \lambda I)^{-1} X^\top y$ |

---

## 應用場景

- 高維資料中（特徵數多於樣本數）
- 特徵之間有高度共線性
- 希望模型更穩定並具備更強的泛化能力

---



In [11]:
reg = linear_model.Ridge(alpha=0.5)
reg.fit([[0, 0], [0, 0], [1, 1]], [0, 0.1, 1])

print(reg.coef_)

[0.34545455 0.34545455]


* We create an instance of Ridge with the regularization parameter alpha set to 0.5.
* We use the fit method to fit the model to the training data.
* We print the coefficients of the ridge regression model.
* Continue

---

# Lasso
Lasso is a linear regression method that adds a penalty term to the ordinary least squares objective function. The penalty term has the effect of setting some coefficients to exactly zero, thus performing feature selection. Lasso can be used for sparse model estimation.

# Lasso Regression（套索回歸）介紹

**Lasso Regression** 是一種線性回歸方法，它在 Ordinary Least Squares (OLS) 的目標函數中加入 L1 正則化（L1 penalty）。這種懲罰會導致部分係數縮小至「**完全為 0**」，因此具有 **特徵選擇（feature selection）** 的能力。

---

## 目標函數（Objective Function）

Lasso 的優化目標為：

$$ \min_{\beta} \; \| y - X\beta \|^2 + \lambda \| \beta \|_1 $$

其中：

- $y$：響應變數（response variable）
- $X$：特徵矩陣（feature matrix）
- $\beta$：回歸係數（regression coefficients）
- $\lambda$：正則化參數（regularization parameter）
- $\| \beta \|_1 = \sum |\beta_i|$：L1 範數（絕對值之和）

---

## 特性與優點

- 可以將不重要的特徵係數縮為 **0**，達到變數選擇效果
- 在特徵數量遠大於樣本數的情況下非常有效
- 適合建立稀疏模型（sparse model）

---

## 與 Ridge Regression 比較

| 項目         | Ridge 回歸         | Lasso 回歸                     |
|--------------|--------------------|--------------------------------|
| 懲罰類型      | L2 範數             | L1 範數                         |
| 係數縮小      | 係數趨近於 0         | 係數可以變為 0（特徵選擇）      |
| 適用情境      | 共線性處理          | 稀疏特徵建模／特徵選擇          |

---

## 準備建立 Lasso 模型

我們接下來可以嘗試使用 Python 建立一個 Lasso 回歸模型。


In [12]:
from sklearn.linear_model import Lasso
from sklearn.datasets import make_regression

# 建立模擬資料
X, y = make_regression(n_samples=100, n_features=20, noise=0.1, random_state=42)

# 建立並訓練 Lasso 模型
model = Lasso(alpha=0.1)
model.fit(X, y)

# 印出模型係數
print(model.coef_)

[ 6.45386948 94.67737779 40.55794675  0.         -0.         -0.
 10.98839003 95.40225582 80.67610577 34.83198456 -0.          0.
  0.         -0.         -0.         29.82848069  7.12581798 -0.
  0.         52.17111821]


In [13]:
reg = linear_model.Lasso(alpha=0.1)
reg.fit([[0, 0], [1, 1]], [0, 1])

print(reg.coef_)

[0.6 0. ]


* We create an instance of Lasso with the regularization parameter alpha set to 0.1.
* We use the fit method to fit the model to the training data.
* We print the coefficients of the lasso model.

---

# Logistic Regression
Logistic regression is a classification method that estimates the probabilities of the possible outcomes using a logistic function. It is commonly used for binary classification tasks. Logistic regression can also be extended to handle multi-class classification problems.

# Logistic Regression（邏輯回歸）介紹

**Logistic Regression** 是一種用於分類任務的統計方法，透過 logistic 函數（S 型函數）將線性回歸輸出轉換為介於 0 與 1 之間的機率值。它最常用於 **二元分類（binary classification）** 問題，例如判斷是否會發生某事件。

---

## 模型概念

Logistic 回歸建模的是事件發生的 **機率**，模型形式為：

$$
P(y = 1 \mid X) = \frac{1}{1 + e^{-(X\beta)}}
$$

其中：

- $P(y = 1 \mid X)$ 是在給定輸入 $X$ 條件下，$y$ 為 1 的機率  
- $X$ 是特徵向量，$\beta$ 是參數向量  
- $e$ 是自然對數的底數  
- $\sigma(z) = \frac{1}{1 + e^{-z}}$ 為 sigmoid 函數

---

## 特性與擴充

- 模型輸出為機率，可根據閾值（通常為 0.5）轉換為類別預測
- 可延伸為多分類模型（multinomial logistic regression / softmax regression）
- 可加入 L1 或 L2 正則化項進行模型控制

---

## 與線性回歸的差異

| 項目             | 線性回歸               | 邏輯回歸                 |
|------------------|------------------------|----------------------------|
| 輸出範圍         | 任意實數               | 機率值（0 到 1）            |
| 問題類型         | 預測連續值             | 分類問題（機率/類別）       |
| 損失函數         | 殘差平方和（MSE）       | 邏輯損失（log loss / cross entropy） |

---

In [14]:
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 建立模擬資料（binary classification）
X, y = make_classification(n_samples=200, n_features=5, random_state=42)

# 分割訓練與測試資料
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 建立並訓練模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 預測與評估
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

Accuracy: 0.8666666666666667


In [15]:
clf = linear_model.LogisticRegression(random_state=0).fit(X, y)
print(clf.coef_)

[[ 0.39758121 -0.50380348  0.07252856  1.87977126  0.08573005]]


* We create an instance of LogisticRegression with the random_state parameter set to 0.
* We use the fit method to fit the model to the training data.
* We print the coefficients of the logistic regression model.

# Stochastic Gradient Descent (SGD)
Stochastic Gradient Descent (SGD) is a simple yet efficient approach for training linear models. It is particularly useful when the number of samples and features is very large. SGD updates the model parameters using a small subset of the training data at each iteration, which makes it suitable for online learning and out-of-core learning.

# Stochastic Gradient Descent (SGD) 介紹

**Stochastic Gradient Descent (SGD)** 是一種簡單而高效的模型訓練方法，特別適用於樣本數或特徵數非常龐大的情況。與傳統的批次梯度下降（Batch Gradient Descent）不同，SGD 每次僅使用一筆或少量資料來更新參數，這使得它特別適合：

- 線上學習（online learning）
- 流式資料處理（streaming data）
- 超大資料集（out-of-core learning）

---

## 基本概念

對於一個參數為 $\theta$ 的模型，若損失函數為 $L(\theta)$，則傳統梯度下降的更新公式為：

$$
\theta := \theta - \eta \cdot \nabla L(\theta)
$$

而 **SGD** 則是使用隨機選取的單筆資料 $(x_i, y_i)$ 來近似損失：

$$
\theta := \theta - \eta \cdot \nabla L_i(\theta)
$$

其中：

- $\eta$ 是學習率（learning rate）
- $L_i(\theta)$ 是對樣本 $i$ 的損失

這樣的更新速度快、記憶體需求低，但會帶來較高的參數震盪（不穩定性），通常可透過 mini-batch、動態學習率或動量法改善。

---

## 優點與特性

- ⚡ **快速更新**：適合即時學習與模型微調
- 📉 **低記憶體使用**：每次只載入少量資料
- 🔄 **可持續訓練**：支援 streaming / online learning 模式
- ⚠️ **收斂較不穩定**：需調整學習率與其他超參數

---

## 使用 SGD 訓練 Logistic Regression 模型

In [19]:
from sklearn.linear_model import SGDClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 建立模擬資料
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# 切分資料
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 建立並訓練 SGD 分類器（使用邏輯斯回歸損失）
model = SGDClassifier(loss="log_loss", max_iter=1000, learning_rate='optimal', random_state=42)
model.fit(X_train, y_train)

# 預測與評估
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))


Accuracy: 0.8066666666666666


In [20]:
clf = linear_model.SGDClassifier(loss="log_loss", max_iter=1000)
clf.fit(X, y)

print(clf.coef_)

[[ 0.11068527 -0.86440343  0.71723043 -0.8459125  -0.20550116  2.76668295
   0.04900348 -0.39310887 -0.60430234 -0.26534078  0.5088726   0.70344231
   0.0689058  -0.01342635 -0.8484677   0.52268594 -0.8268332  -0.49510664
  -1.3159977  -1.01810651]]


* We create an instance of SGDClassifier with the loss parameter set to "log_loss" to perform logistic regression.
* We use the fit method to fit the model to the training data.
* We print the coefficients of the logistic regression model obtained using SGD.