Bài viết được lấy từ nguồn: [mmlab.uit](https://mmlab.uit.edu.vn/tutorials/ml/gradient-based-model/logistic_regression)

# Mô hình Logistic Regression

**Tổng quan**

Logistic Regression được gọi là phân lớp nhị phân - Binary Classification cụ thể mô hình này dùng để dự đoán output dựa vào các giá trị input đã cho. Hầu hết output của Losgistic Regression chỉ có 2 giá trị như: True/False, Yes/No, 0/1,... Một số ví dụ điển hình là phân loại mail có phải spam hay không, phân loại khách hàng có phải tiềm năng hay không.

**Ví dụ**

Một nhóm 20 sinh viên dành thời gian trong khoảng từ 0 đến 6 giờ cho việc ôn thi. Thời gian ôn thi này ảnh hưởng đến xác suất sinh viên vượt qua kỳ thi như thế nào?

| Hours | Pass | Hours | Pass |
| ----- | ---- | ----- | ---- |
| .5    | 0    | 2.75  | 1    |
| .75   | 0    | 3     | 0    |
| 1     | 0    | 3.25  | 1    |
| 1.25  | 0    | 3.5   | 0    |
| 2.25  | 1    | 5     | 1    |
| 2.5   | 0    | 5.5   | 1    |

Nếu áp dụng  Linear Regression  vào bài toán này, ta  khó có thể đạt kết quả tối ưu (xem hình dưới).

![](https://i.imgur.com/LKTj7Uy.png)


Do đó chúng ta cần một mô hình phù hợp hơn để giải quyết các bài toán tương tự: Logistic Regression.

## Sự giống và khác nhau giữa Linear Regression và Logistic Regression

Giống nhau:

- Linear Regression và Logistic Regression đều là những mô hình máy học có giám sát.
- Đều sử dụng phương trình tuyến tính cho dự đoán.

Khác nhau:

| Linear Regression                                          | Logistic Regression                                                      |
| ---------------------------------------------------------- | ------------------------------------------------------------------------ |
| Sử dụng cho các bài toán hồi quy                           | Sử dụng cho các bài toán phân lớp                                        |
| Dự đoán giá trị của biến liên tục                          | Dự đoán giá trị của biến rời rạc                                         |
| Sử dụng hàm độ lỗi Mean Square Error                       | Sử dụng hàm độ lỗi Cross Entropy                                         |
| Mục đích là tìm đường thẳng phù hợp để dự đoán các giá trị | Mục đích là tìm ra đường cong (đường cong sigmoid) để phân biệt các biến |
| Đầu ra là các giá trị liên tục                             | Đầu ra là các giá trị trong khoảng (0,1)                                 |

## Sigmoid function

Nhìn chung Logistic Regression khá giống với Linear Regression đều sử dụng hàm tuyến tính để biểu diễn dữ liệu

Hàm tuyến tính: $$ y = 𝑊_1 𝑥_1 + 𝑊_2 𝑥_2 + ... +𝑊_n 𝑥_n + 𝑏$$

Tuy nhiên Logistic Regression lại sử dụng thêm hàm sigmoid để chuẩn hoá dữ liệu y về khoảng (0,1)

Hàm sigmoid:    $$z = 𝑓(y)=\frac{1}{1+𝑒^{−y}}$$

Tính chất hàm số:

- Hàm liên tục, cho giá trị trong khoảng (0,1).
- Có đạo hàm trên mọi điểm.

<div style="display:flex">
    <p style="position: relative; top:100px; margin-right:90px">Đồ thị hàm sigmoid</p>
    <img src="https://i.imgur.com/WCoP88d.png" style="position: relative; margin-top: 20px;heigh:450px;width:450px; margin-bottom:20px">
</div>

## Hàm mất mát - Loss function

Hàm mất mát của bài toán sẽ thay đổi tùy thuộc vào ngữ cảnh bài toán

**1. Khi bài toán yêu cầu phân loại nhị phân (binary classification)**

$$Loss = ∑_{(x,y)\in D} -y \log(y') - (1-y) \log(1-y')$$

**1. Khi bài toán yêu cầu phân nhiều lớp (multi-class classification)**

$$ Loss = \frac{1}{n}∑y​ ⋅log(​y') $$

Trong đó: 
- $y$ là các nhãn đã biết trong tập dữ liệu
- $y'$ là nhãn mà chúng ta dự đoán

## Triển khai



**1. Import**

In [11]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split

**2. Data**

In [12]:
import pandas as pd

df =pd.read_csv('Bank_Personal_Loan_Modelling.csv')

X = np.array([0.5, 0.75, 1, 1.25, 1.5, 1.75, 1.75, 2, 2.25, 2.5, 2.75, 3, 3.25, 3.5, 4, 4.25, 4.5, 4.75, 5, 5.5])
y = np.array([0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1])


**3. Split data**

In [13]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

**3. Initialize sigmoid**


In [14]:
def sigmoid(x):
    return 1/(1+np.exp(-x))


**4. Initialize Loss**

In [15]:
def cross_entropy_loss(y_true, y_pred):
    # Clip predictions to avoid log(0) error
    y_pred = np.clip(y_pred, 1e-15, 1 - 1e-15)
    
    # Calculate the loss
    loss = -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))
    
    return loss

**5. Initialize parameter**


In [16]:
lr = 0.1 #learning late
W = np.random.uniform(0,1) # colom 1
b = 0.1
n_epochs = 100

**6. Run model**

In [17]:
for i in range(n_epochs):
    z = np.dot(X_train, W) + b
    y_pred = sigmoid(z)
    # print(cross_entropy_loss(predict(X_train, W, b), y_train))
    gradient_W = np.dot((y_pred-y_train).T, X_train)/X_train.shape[0]
    gradient_b = np.mean(y_pred-y_train)
    W = W - lr * gradient_W
    b = b - lr* gradient_b

**7. Predict**


In [18]:
def predict(X, W, b):
    z = np.dot(X, W) + b
    z = sigmoid(z)
    y_pred = [int(i > 0.5) for i in z]
    return np.array(y_pred)

In [19]:
print('Test:', f1_score(predict(X_test, W, b), y_test))
print('Train:', f1_score(predict(X_train, W, b), y_train))
print('data:', f1_score(predict(X, W, b), y))

Test: 0.8
Train: 0.75
data: 0.7619047619047619
