In [3]:
import numpy as np

# Hàm sigmoid dùng để tính xác suất
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Hàm tính xác suất dự đoán dựa trên trọng số w và đầu vào X
def prob(w, X):
    """
    X: mảng 2 chiều numpy có kích thước (N, d). N là số lượng điểm dữ liệu, d là số đặc trưng.
    w: mảng 1 chiều numpy có kích thước (d) - trọng số của mô hình.
    """
    return sigmoid(X.dot(w))

# Hàm tính hàm mất mát (loss) của hồi quy logistic, bao gồm cả regularization
def loss(w, X, y, lam):
    """
    X: mảng 2 chiều numpy có kích thước (N, d)
    w: mảng 1 chiều numpy có kích thước (d)
    y: mảng 1 chiều numpy có kích thước (N), mỗi phần tử là 0 hoặc 1
    lam: tham số regularization (số vô hướng)
    """
    z = prob(w, X)  # Tính xác suất dự đoán dựa trên w và X
    # Tính giá trị mất mát (cross-entropy) cộng thêm regularization
    return -np.mean(y * np.log(z + 1e-8) + (1 - y) * np.log(1 - z + 1e-8)) + 0.5 * lam / X.shape[0] * np.sum(w * w)

# Hàm huấn luyện mô hình hồi quy logistic bằng phương pháp gradient descent ngẫu nhiên (SGD)
def logistic_regression(w_init, X, y, lam=0.001, lr=0.1, nepoches=2000):
    """
    Hồi quy logistic sử dụng gradient descent ngẫu nhiên.
    w_init: vector trọng số khởi tạo ban đầu.
    X: các đặc trưng đầu vào.
    y: nhãn (0 hoặc 1).
    lam: tham số regularization (mặc định là 0.001).
    lr: tốc độ học (mặc định là 0.1).
    nepoches: số lần lặp (mặc định là 2000).
    """
    N, d = X.shape  # N là số điểm dữ liệu, d là số đặc trưng
    w = w_old = w_init  # Khởi tạo trọng số ban đầu
    loss_hist = [loss(w_init, X, y, lam)]  # Lưu lịch sử mất mát vào loss_hist
    ep = 0  # Biến đếm số lần lặp
    while ep < nepoches:  # Vòng lặp cho từng epoch
        ep += 1
        mix_ids = np.random.permutation(N)  # Trộn ngẫu nhiên thứ tự các điểm dữ liệu
        for i in mix_ids:
            xi = X[i]  # Lấy điểm dữ liệu thứ i
            yi = y[i]  # Lấy nhãn tương ứng của điểm dữ liệu thứ i
            zi = sigmoid(xi.dot(w))  # Tính xác suất dự đoán cho điểm dữ liệu này
            # Cập nhật trọng số theo SGD
            w = w - lr * ((zi - yi) * xi + lam * w)
        loss_hist.append(loss(w, X, y, lam))  # Cập nhật lịch sử mất mát
        # Kiểm tra điều kiện hội tụ
        if np.linalg.norm(w - w_old) / d < 1e-6:
            break
        w_old = w  # Cập nhật trọng số cũ cho vòng lặp tiếp theo
    return w, loss_hist  # Trả về trọng số và lịch sử mất mát

# Kiểm tra hồi quy logistic với bộ dữ liệu mẫu
X = np.array([[0.50, 0.75, 1.00, 1.25, 1.50, 1.75, 1.75, 2.00, 2.25, 2.50,
               2.75, 3.00, 3.25, 3.50, 4.00, 4.25, 4.50, 4.75, 5.00, 5.50]]).T  # Đặc trưng đầu vào (N x 1)
y = np.array([0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1])  # Nhãn tương ứng (0 hoặc 1)

# Thêm một cột bias vào X để tạo Xbar (X có thêm phần bias)
N = X.shape[0]  # Số lượng điểm dữ liệu N
Xbar = np.concatenate((X, np.ones((N, 1))), axis=1)  # Kết hợp X với cột bias (toàn 1)

# Khởi tạo trọng số ban đầu ngẫu nhiên
w_init = np.random.randn(Xbar.shape[1])
lam = 0.0001  # Tham số regularization

# Huấn luyện mô hình logistic regression
w, loss_hist = logistic_regression(w_init, Xbar, y, lam, lr=0.05, nepoches=500)

# In ra trọng số cuối cùng và giá trị mất mát cuối cùng
print(w)
print(loss(w, Xbar, y, lam))


[ 1.62827254 -4.06295992]
0.4092958357878465
