In [1]:
import numpy as np

# Hàm sigmoid để chuẩn hóa đầu ra về khoảng (0, 1), dùng trong logistic regression
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Hàm tính xác suất dựa trên trọng số w và các đặc trưng X
def prob(w, X):
    return sigmoid(X.dot(w))

# Hàm tính loss (hàm mất mát) của mô hình với regularization (là phần phạt để tránh overfitting)
# w: vector trọng số, X: ma trận đặc trưng, y: vector nhãn, lam: hệ số regularization
def loss(w, X, y, lam):
    z = prob(w, X)  # Xác suất dự đoán
    # Công thức loss là hàm log-likelihood với regularization
    return -np.mean(y*np.log(z) + (1-y)*np.log(1-z)) + 0.5*lam/X.shape[0]*np.sum(w*w)

# Hàm thực hiện logistic regression với gradient descent
# w_init: khởi tạo trọng số ban đầu, lam: hệ số regularization, lr: learning rate, nepoches: số vòng lặp tối đa
def logistic_regression(w_init, X, y, lam = 0.001, lr = 0.1, nepoches = 2000):
    N, d = X.shape[0], X.shape[1]  # N là số lượng dữ liệu, d là số lượng đặc trưng (features)
    w = w_old = w_init  # Khởi tạo trọng số w
    loss_hist = [loss(w_init, X, y, lam)]  # Khởi tạo danh sách lưu lịch sử loss
    ep = 0  # Số epoch hiện tại
    while ep < nepoches:
        ep += 1
        mix_ids = np.random.permutation(N)  # Shuffle dữ liệu ngẫu nhiên để cập nhật trọng số
        for i in mix_ids:
            xi = X[i]  # Lấy đặc trưng của mẫu dữ liệu thứ i
            yi = y[i]  # Lấy nhãn của mẫu dữ liệu thứ i
            zi = sigmoid(xi.dot(w))  # Dự đoán xác suất với trọng số w hiện tại
            # Cập nhật trọng số w bằng gradient descent (thêm regularization vào cập nhật)
            w = w - lr*((zi - yi)*xi + lam*w)
        # Cập nhật lịch sử của loss để theo dõi quá trình học
        loss_hist.append(loss(w, X, y, lam))
        # Dừng khi sự thay đổi của trọng số w giữa các vòng lặp nhỏ hơn ngưỡng 1e-6
        if np.linalg.norm(w - w_old)/d < 1e-6:
            break
        w_old = w  # Lưu lại trọng số của epoch hiện tại
    return w, loss_hist  # Trả về trọng số cuối cùng và lịch sử của loss

# Dữ liệu đầu vào X là chiều dài của các mẫu, y là nhãn (0 hoặc 1)
X = np.array([[0.50, 0.75, 1.00, 1.25, 1.50, 1.75, 1.75, 2.00, 2.25, 2.50,
2.75, 3.00, 3.25, 3.50, 4.00, 4.25, 4.50, 4.75, 5.00, 5.50]]).T

y = np.array([0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1])

N = X.shape[0]  # Số lượng mẫu dữ liệu
# Thêm bias term vào X (thêm cột 1s vào X để tính hệ số chặn)
Xbar = np.concatenate((X, np.ones((N, 1))), axis = 1)

# Khởi tạo trọng số ngẫu nhiên cho mô hình
w_init = np.random.randn(Xbar.shape[1])

# Hệ số regularization lam
lam = 0.0001

# Gọi hàm logistic_regression để tìm trọng số tối ưu và lưu lịch sử loss
w, loss_hist = logistic_regression(w_init, Xbar, y, lam, lr = 0.05, nepoches = 500)

# In ra trọng số cuối cùng
print(w)

# In ra giá trị của hàm mất mát cuối cùng
print(loss(w, Xbar, y, lam))
#Hàm dự đoán
def predict(input):
    input = np.concatenate((np.ones((1, input.shape[1])), input), axis = 0)
    z = sigmoid(np.dot(w[-1].T, input))
    #sai
    outcome = []
    for i in range(z.shape[1]):
        if z[0, i]<0.5: outcome.append("trượt")
        else: outcome.append("đỗ")
    return outcome

input = np.array([[3.35, 1.62, 1.00, 4.65]])
print(predict(input))

[ 1.46162991 -4.12263528]
0.40326888273100003
['trượt', 'trượt', 'trượt', 'trượt']
