## Logistice Regression

記得我們之前所講的線性回歸(linear regression)，線性回歸模型幫助我們很好的找出自變數(independent variable)和因變數(dependent variable)，而我們要找出的target是一個連續性的輸出，例如：房價，分數，股價等等。

在現實生活中除了預測連續性的數值以外，還充斥著很多分類(classification)的問題，可以用來做分類的模型，被我們稱為分類模型(Classification model)，例如此前講過的Bayes Classifier就是一種。

這次要介紹的是由Linear Regress所演變出來的分類模型，邏輯回歸(Logistic Regression)模型
邏輯迴歸是用來處理分類問題，目標是找到一條直線可以將資料做分類

<img src="pics/Logistic regression v.s. Linear Regression.png" alt="Logistic regression v.s. Linear Regression" style="width: 600px">

logistic Regression 雖然被稱為迴歸，但實際上是分類模型，並常用於二分類。Logistic Regression 因其簡單、可並行化、可解釋強深受工業界喜愛。

我們先來複習一下回歸，他寫作一個人人都學過的方程式：

𝑦 = 𝑤<sub>0</sub>+𝑤<sub>1</sub> 𝑥<sub>1</sub>+𝑤<sub>2</sub> 𝑥<sub>2</sub>+ …𝑤<sub>n</sub> 𝑥<sub>n</sub>

在機器學習中我們用𝜃表示模型的參數，所以式子也可以寫成

𝑦 = 𝜃<sub>0</sub>+𝜃<sub>1</sub> 𝑥<sub>1</sub>+𝜃<sub>2</sub> 𝑥<sub>2</sub>+ …𝜃<sub>n</sub> 𝑥<sub>n</sub>

𝜃<sub>0</sub>就是截距(intercept)，𝜃<sub>1</sub>~𝜃<sub>n</sub>被稱為係數(coefficient)，如果我們用矩陣來表達方程式，則可以表示為

<img src="pics/array expression.png" alt="array expression" style="width: 300px">

線性回歸的任務，就是利用上面的式子來映射出x和y之間的關係，而預測的核心就是找出模型參數: 𝜃<sup>T</sup>和𝜃<sub>0</sub>，最常使用的方法就是最小平方法。

線性回歸可以通過輸入特徵矩陣X輸出**連續型**的標籤值。

那如果我們今天的標籤值y為**離散型**，尤其是滿足0-1分佈的離散型，那要怎麼辦，這是後我們會引進聯繫函數(Contact function)

*聯繫函數(Contact function)*

在回歸模型中，當標籤值y其自然參數的期望無法直接與預測值建立相等的關係，因此引進連接函數，作為建立這二者相等分佈的橋樑。

邏輯回歸中的聯繫函數會將ｙ透過g(y)的轉換，令值分佈(0,1)之間，也就是說當g(y)靠近0，則該類別就是0，g(y)靠近1，則該類別就是1，這樣我們就得到了一個二元分類模型，在邏輯回歸中，聯繫函數為sigmoid。

### sigmoid

Sigmoid函數是Logistic函數的一種特殊形式，通常以σ (x)或sig (x)來表示

<img src="pics/sigmoid.png" alt="sigmoid" style="width: 500px">

Sigmoid是一個S型的函數，當X越趨近無窮，結果也會用趨近於1，反之亦然，所以他能夠將任何實數都映射到(0,1)區間，所以適合用於二元分類的函數。

也因為這個性質，Sigmoid有時候也會被當成一種normalized的方式，類似前面教的MinMaxScaler，是屬於"縮放"的功能，最大的差別是Minmax是會真的出現0和1的值，而sigmoid只能無限趨近於0和1。

In [1]:
import math
def sigmoid(x):
    return 1/(1+math.exp(-x))

當我們今天把sigomid帶入標籤值y則會寫成

<img src="pics/sigmoid2.png" alt="sigmoid2" style="width: 150px">

我們先來了解發生比(Odds)，是指該事件的發生與不發生的機率，又稱為勝算
公式為 p/(1-p)，p是該事件發生的機率。

由於𝜎(x)和1-𝜎(x)相加必為1，因此可以去計算odds，並取對數。

<img src="pics/sigmoid odds.png" alt="sigmoid odds" style="width: 400px">

不難發現，sigmoid的對數結果其實就是我們的線性回歸，所以取其對數odds的結果來做擬合。

**邏輯回歸返回的是什麼？**

我們讓使用sigmoid讓回歸的結果能逼近0或1，並且此時𝜎(x)和1-𝜎(x)相加為1，我們可以看作二項式的機率，𝜎(x)為被預測為1的機率，1-𝜎(x)則為被預測為0的機率，這樣的說法是否合理?

機率是衡量事件發生的可能性數值，儘管Logistic regression的值取在(0,1)之間，相加之值也等於1，但是光憑這樣也不足以支撐返回值為機率的說法，就像Minmaxscaler也能將數值壓縮至[0,1]之間，並且任意特徵的取值，1-x和x相加也為1，但我們卻不認為該值為機率。

因此邏輯回歸返回機率這說法是不夠嚴謹的，但是長年以來大家都是以返回機率的方式去理解Logistic regression，並且這樣在使用它，因此可以說，Logistic regression返回的本質上不是機率，卻可以當成機率使用。

### Logistic regression implement

In [1]:
#import pandas
import pandas as pd
# load dataset
df = pd.read_csv("diabetes.csv")
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [2]:
X = df.drop("Outcome", axis=1) # Features
y = df["Outcome"]

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=16)

In [4]:
import copy
import numpy as np
import scipy.special  # For the sigmoid function

class LogisticReg:
    # Initialize training parameters
    def __init__(self, learning_rate=0.001, n_iters=10000):
        self.lr = learning_rate
        self.n_iters = n_iters
        self.weights = None
        self.bias = None

    def sigmoid(self, z):
        # Sigmoid activation function
        return 1 / (1 + np.exp(-z))

    def fit(self, X, y):
        n_samples, n_features = X.shape
        # Initialize weights with zeros
        self.weights = np.zeros(n_features)
        # Initialize bias
        self.bias = 0

        # Collect weight and bias changes during training
        self.weights_changes = [self.weights]
        self.bias_changes = [self.bias]

        # Gradient descent
        for _ in range(self.n_iters):
            # Compute the linear combination of inputs and weights
            linear_model = np.dot(X, self.weights) + self.bias
            # Apply sigmoid activation function to get probabilities
            y_predicted = self.sigmoid(linear_model)

            # Calculate gradients for weights and bias
            dw = (1 / n_samples) * np.dot(X.T, (y_predicted - y))
            db = (1 / n_samples) * np.sum(y_predicted - y)

            # Update weights and bias
            self.weights -= self.lr * dw
            self.weights_changes.append(copy.deepcopy(self.weights))
            self.bias -= self.lr * db
            self.bias_changes.append(copy.deepcopy(self.bias))

    def predict(self, X):
        # Predict probabilities for the positive class
        y_probabilities = self.sigmoid(np.dot(X, self.weights) + self.bias)
        # Threshold probabilities to get binary predictions (0 or 1)
        y_predicted = np.where(y_probabilities > 0.5, 1, 0)
        return y_predicted

In [5]:
lr = LogisticReg()
lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)

In [6]:
y_pred

array([1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1,
       0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1,
       1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1])

In [7]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

0.640625

In [9]:
# import the class
from sklearn.linear_model import LogisticRegression

# instantiate the model (using the default parameters)
logreg = LogisticRegression(max_iter=10000)

# fit the model with data
logreg.fit(X_train, y_train)

y_pred = logreg.predict(X_test)

In [10]:
y_pred

array([1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1,
       0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1,
       0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1])

In [11]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

0.8229166666666666

手刻的Logistic Regression得出的結果與sklearn有些微的出入，原因是因為我們使用的Gradient descent。

而sklearn使用的方法為
**solver{‘lbfgs’, ‘liblinear’, ‘newton-cg’, ‘newton-cholesky’, ‘sag’, ‘saga’}, default=’lbfgs’**，並且有加入regulation l2。

最後簡單的總結一下邏輯回歸的使用場景和優缺點：

邏輯迴歸（Logistic Regression）主要解決二分類問題，可以看做表示某件事情發生的機率

比如：

* 一封郵件是垃圾郵件的可能性（是、不是）
* 你買一件商品的可能性（買、不買）
* 廣告被點擊的可能性（點、不點）

優點：

* 實現簡單，廣泛的應用於工業問題；
* 分類時計算量非常小，速度很快，儲存資源低；
* 便利的觀測樣本機率分數；
* 多重共線性並不是問題，它可以結合L2正規化來解決這個問題；
* 計算成本低，易於理解；

缺點：

* 能很好地處理大量多類特徵或變數時，邏輯迴歸的表現不是很好；
* 容易欠擬合，一般準確度不太高
* 只能處理二元分類問題（在此基礎上衍生出來的softmax可以用於多分類, 且必須線性可分；
* 只能處理線性關係，對於非線性特徵，需要進行轉換；