# Huấn Luyện Mô Hình Logistic Regression

Mục tiêu là huấn luyện một mô hình phân lớp nhị phân với dữ liệu có $M$ mẫu. Với mỗi mẫu, mô hình thực hiện:

**Mô hình:**  
  Với đầu vào $ \mathbf{x} $ (vector cột), tham số $ \mathbf{W} $ (trọng số) và $ b $ (bias) ta tính:
  
- $
  z = \mathbf{W} \cdot \mathbf{x} + b
  $
- 
  $
  \hat{y} = \sigma(z) = \frac{1}{1 + e^{-z}}
  $

**Hàm mất mát (Binary Cross-Entropy Loss):**  
  $
  J(\mathbf{W}, b) = -\frac{1}{M} \sum_{i=1}^M \left[ y^{(i)} \log \hat{y}^{(i)} + \bigl(1-y^{(i)}\bigr) \log \bigl(1-\hat{y}^{(i)}\bigr) \right]
  $

---

# 1. Tính Đạo Hàm Theo Giải Thuật Back-Propagation

Để cập nhật tham số $ \mathbf{W} $ và $ b $ bằng Gradient Descent, ta cần tính các đạo hàm thông qua giải thuật Back-Propagation theo các bước sau:

## 1.1. Định Nghĩa Mô Hình Và Hàm Mất Mát

- **Mô hình với mỗi mẫu $ i $:**  
  $
  z^{(i)} = \mathbf{W} \cdot x^{(i)} + b 
  $ 
$
  \quad A^{(i)} = \sigma(z^{(i)}) = \frac{1}{1+e^{-z^{(i)}}}
  $
  
- **Hàm mất mát cho mẫu $ i $:**  
  $
  J^{(i)} = -\Bigl[y^{(i)}\log A^{(i)} + \bigl(1-y^{(i)}\bigr)\log\bigl(1-A^{(i)}\bigr)\Bigr]
  $
  
- **Hàm mất mát trung bình:**  
  $
  J(\mathbf{W},b) = \frac{1}{M} \sum_{i=1}^M J^{(i)}
  $

## 1.2.  Qua Quy Tắc Chuỗi

### Bước 1: Đạo hàm của $ J^{(i)} $ theo $ A^{(i)} $
  
Từ hàm mất mát:
$
J^{(i)} = -\Bigl[y^{(i)}\log A^{(i)} + \bigl(1-y^{(i)}\bigr)\log\bigl(1-A^{(i)}\bigr)\Bigr]
$
ta có:
$
\frac{\partial J^{(i)}}{\partial A^{(i)}} = -\left[\frac{y^{(i)}}{A^{(i)}} - \frac{1-y^{(i)}}{1-A^{(i)}}\right]
$

### Bước 2: Đạo hàm của hàm sigmoid $ \sigma(z^{(i)}) $ theo $ z^{(i)} $

Hàm sigmoid:
$
A^{(i)} = \sigma(z^{(i)}) = \frac{1}{1+e^{-z^{(i)}}}
$
đạo hàm của nó là:
$
\frac{\partial A^{(i)}}{\partial z^{(i)}} = A^{(i)}\left(1-A^{(i)}\right)
$

### Bước 3: Áp dụng quy tắc chuỗi để tính đạo hàm của $ J^{(i)} $ theo $ z^{(i)} $

Áp dụng quy tắc chuỗi ta có:
$
\frac{\partial J^{(i)}}{\partial z^{(i)}} = \frac{\partial J^{(i)}}{\partial A^{(i)}} \cdot \frac{\partial A^{(i)}}{\partial z^{(i)}}
$
Thay các biểu thức vào:
$
\frac{\partial J^{(i)}}{\partial z^{(i)}} = -\left[\frac{y^{(i)}}{A^{(i)}} - \frac{1-y^{(i)}}{1-A^{(i)}}\right] \cdot A^{(i)}\left(1-A^{(i)}\right)
$
Sau khi biến đổi và rút gọn, ta được:
$
\frac{\partial J^{(i)}}{\partial z^{(i)}} = A^{(i)} - y^{(i)}
$

## 1.3. Tính Đạo Hàm Theo Các Tham Số $ \mathbf{W} $ Và $ b $

### Đạo hàm theo $ \mathbf{W} $

- Với:
$
z^{(i)} = \mathbf{W} \cdot x^{(i)} + b
$

- Đạo hàm của $ z^{(i)} $ theo $ \mathbf{W} $ là:
$
\frac{\partial z^{(i)}}{\partial \mathbf{W}} = x^{(i)}
$

- Áp dụng quy tắc chuỗi:
$
\frac{\partial J^{(i)}}{\partial \mathbf{W}} = \frac{\partial J^{(i)}}{\partial z^{(i)}} \cdot \frac{\partial z^{(i)}}{\partial \mathbf{W}} = \bigl(A^{(i)} - y^{(i)}\bigr) \, x^{(i)}
$

- Trung bình qua $ M $ mẫu:
          $
          \frac{\partial J}{\partial \mathbf{W}} = \frac{1}{M} \sum_{i=1}^M \bigl(A^{(i)} - y^{(i)}\bigr) \, x^{(i)}
          $

### Đạo hàm theo $ b $

- Với:
$
\frac{\partial z^{(i)}}{\partial b} = 1
$

- Áp dụng quy tắc chuỗi:
$
\frac{\partial J^{(i)}}{\partial b} = \frac{\partial J^{(i)}}{\partial z^{(i)}} \cdot \frac{\partial z^{(i)}}{\partial b} = A^{(i)} - y^{(i)}
$

- Trung bình qua $ M $ mẫu:
$
\frac{\partial J}{\partial b} = \frac{1}{M} \sum_{i=1}^M \bigl(A^{(i)} - y^{(i)}\bigr)
$

## 1.4. Dạng Vector Hóa

Giả sử:
- $ X $ có kích thước $ (n, M) $, với $ n $ là số đặc trưng và $ M $ là số mẫu.
- $ A $ và $ Y $ có kích thước $ (1, M) $.

Thì ta có:

- **Forward Propagation:**

   -  $
    Z = \mathbf{W} \cdot X + b \quad \text{(với } \mathbf{W} \text{ có kích thước } (1, n)\text{)}
    $
  
    - $
    A = \sigma(Z)
    $

- **Backward Propagation:**

   - Định nghĩa:
  $
  dZ = A - Y
  $

  - Các đạo hàm theo vector hóa:
  
    - $
    dW = \frac{1}{M} \, dZ \, X^T
    $

    - $
    db = \frac{1}{M} \sum dZ
    $

---

# 2. Thuật Toán Huấn Luyện Mô Hình Phân Lớp Nhị Phân


1. **Khởi tạo tham số:**  
   - Khởi tạo $ \mathbf{W} $ (có kích thước phù hợp với số đặc trưng) bằng vector 0.
   - Khởi tạo $ b $ bằng 0.

2. **Forward Propagation:**  
   - Tính $ Z = \mathbf{W} \cdot X + b $.
   - Tính $ A = \sigma(Z) $.

3. **Tính hàm mất mát (cost):**  
   $
   \text{cost} = -\frac{1}{M} \sum_{i=1}^M \Bigl[y^{(i)}\log A^{(i)} + \bigl(1-y^{(i)}\bigr)\log(1-A^{(i)})\Bigr]
   $

4. **Backward Propagation:**  
   - Tính $ dZ = A - Y $.
   - Tính gradient của $ \mathbf{W} $:  
     $
     dW = \frac{1}{M}\, dZ \, X^T
     $
   - Tính gradient của $ b $:  
     $
     db = \frac{1}{M}\sum dZ
     $

5. **Cập nhật tham số:**  
   Với learning rate $ \alpha $:
   $
   \mathbf{W} := \mathbf{W} - \alpha \, dW,\quad b := b - \alpha \, db
   $

6. **Lặp lại:**  
   Lặp quá trình trên cho số vòng lặp định sẵn (iterations).

---

# 3. Bài Toán AND

Bài toán AND có bảng chân trị như sau:

| $ x_1 $ | $ x_2 $ | $ y $ |
|:---------:|:---------:|:-------:|
|     0     |     0     |    0    |
|     0     |     1     |    0    |
|     1     |     0     |    0    |
|     1     |     1     |    1    |





In [2]:
import numpy as np

# Hàm sigmoid
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def train_logistic_regression(X, Y, learning_rate=0.1, num_iterations=10000):
    m = X.shape[1] 
    n = X.shape[0]  
    W = np.zeros((1, n))
    b = 0
    costs = []
    
    for i in range(num_iterations):
        Z = np.dot(W, X) + b         
        A = sigmoid(Z)             
        cost = - (1/m) * np.sum(Y * np.log(A + 1e-8) + (1 - Y) * np.log(1 - A + 1e-8))
        
        dZ = A - Y
        dW = (1/m) * np.dot(dZ, X.T)
        db = (1/m) * np.sum(dZ)
        
        W = W - learning_rate * dW
        b = b - learning_rate * db
        
        if i % 1000 == 0:
            costs.append(cost)
            print(f"Iteration {i}, cost: {cost:.6f}")
    
    return W, b, costs

def predict(X, W, b):
    Z = np.dot(W, X) + b
    A = sigmoid(Z)
    predictions = (A >= 0.5).astype(int)
    return predictions

def compute_accuracy(predictions, Y):
    accuracy = np.mean(predictions == Y) * 100
    return accuracy


X = np.array([[0, 0, 1, 1],
              [0, 1, 0, 1]])
Y = np.array([[0, 0, 0, 1]]) 

W, b, costs = train_logistic_regression(X, Y, learning_rate=0.1, num_iterations=10000)

predictions = predict(X, W, b)
print("Predicted labels:", predictions)

accuracy = compute_accuracy(predictions, Y)
print("Accuracy: {:.2f}%".format(accuracy))


Iteration 0, cost: 0.693147
Iteration 1000, cost: 0.143421
Iteration 2000, cost: 0.081623
Iteration 3000, cost: 0.056537
Iteration 4000, cost: 0.043058
Iteration 5000, cost: 0.034690
Iteration 6000, cost: 0.029007
Iteration 7000, cost: 0.024903
Iteration 8000, cost: 0.021805
Iteration 9000, cost: 0.019385
Predicted labels: [[0 0 0 1]]
Accuracy: 100.00%
