In [1]:
import pandas as pd
import numpy as np 
from sklearn.model_selection import train_test_split

class LogisticRegression:
    def __init__(self, learning_rate=0.001, n_iters=1000):
        self.lr = learning_rate  # Tốc độ học
        self.n_iters = n_iters  # Số lần lặp lại
        self.weights = None  # Trọng số sẽ được khởi tạo sau
        self.bias = None  # Bias sẽ được khởi tạo sau

    def fit(self, X, y):
        n_samples, n_features = X.shape  # Lấy số lượng mẫu và đặc trưng từ dữ liệu đầu vào

        # Khởi tạo tham số
        self.weights = np.zeros(n_features)  # Khởi tạo trọng số bằng 0
        self.bias = 0  # Khởi tạo bias bằng 0

        # Gradient descent
        for _ in range(self.n_iters):
            # Gần đúng y bằng tổ hợp tuyến tính của trọng số và X, cộng bias
            linear_model = np.dot(X, self.weights) + self.bias
            # Áp dụng hàm sigmoid
            y_predicted = self._sigmoid(linear_model)

            # Tính toán gradient
            dw = (1 / n_samples) * np.dot(X.T, (y_predicted - y))  # Gradient của trọng số
            db = (1 / n_samples) * np.sum(y_predicted - y)  # Gradient của bias
            # Cập nhật tham số
            self.weights -= self.lr * dw  # Cập nhật trọng số
            self.bias -= self.lr * db  # Cập nhật bias

    def predict(self, X):
        linear_model = np.dot(X, self.weights) + self.bias  # Gần đúng y bằng tổ hợp tuyến tính của trọng số và X, cộng bias
        y_predicted = self._sigmoid(linear_model)  # Áp dụng hàm sigmoid
        y_predicted_cls = [1 if i > 0.5 else 0 for i in y_predicted]  # Chuyển đổi thành nhãn lớp
        return np.array(y_predicted_cls)

    def _sigmoid(self, x):
        return 1 / (1 + np.exp(-x))  # Hàm sigmoid


In [2]:
url = "./breast-cancer.csv"
data = pd.read_csv(url)
data.drop(columns=["id"], inplace=True)
data['diagnosis'] = data['diagnosis'].replace({'M': 1, 'B': 0})

# Split features and target variable
X = data.drop(columns=['diagnosis'])
y = data['diagnosis']

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=1234
)

  data['diagnosis'] = data['diagnosis'].replace({'M': 1, 'B': 0})


In [3]:

# Calculate accuracy function
def accuracy(y_true, y_pred):
    accuracy = np.sum(y_true == y_pred) / len(y_true)
    return accuracy

# Instantiate and fit the Logistic Regression model
regressor = LogisticRegression(learning_rate=0.0001, n_iters=1000)
regressor.fit(X_train, y_train)

# Make predictions
predictions = regressor.predict(X_test)

# Print accuracy
print("LR classification accuracy:", accuracy(y_test, predictions))

LR classification accuracy: 0.9298245614035088


In [4]:
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score

# Tính ma trận nhầm lẫn
conf_matrix = confusion_matrix(y_test, predictions)
print("Confusion Matrix:")
print(conf_matrix)

# Tính precision, recall và F1-score
precision = precision_score(y_test, predictions)
recall = recall_score(y_test, predictions)
f1 = f1_score(y_test, predictions)

print("Precision:", precision)
print("Recall:", recall)
print("F1-score:", f1)


Confusion Matrix:
[[67  2]
 [ 6 39]]
Precision: 0.9512195121951219
Recall: 0.8666666666666667
F1-score: 0.9069767441860465


Ma trận nhầm lẫn (Confusion Matrix):

Ma trận nhầm lẫn là một bảng mô tả hiệu suất của một mô hình phân loại trên một tập dữ liệu thử nghiệm, trong đó các hàng biểu diễn các nhãn thực tế và các cột biểu diễn các nhãn được dự đoán bởi mô hình.
Cụ thể, nó bao gồm bốn ô:
Ô chính xác dương (True Positive - TP): Các trường hợp mà mô hình dự đoán đúng là positive (1) khi thực tế chúng là positive.
Ô chính xác âm (True Negative - TN): Các trường hợp mà mô hình dự đoán đúng là negative (0) khi thực tế chúng là negative.
Ô sai dương (False Positive - FP): Các trường hợp mà mô hình dự đoán positive (1) nhưng thực tế chúng là negative (0).
Ô sai âm (False Negative - FN): Các trường hợp mà mô hình dự đoán negative (0) nhưng thực tế chúng là positive (1).
Precision (Độ chính xác):

Precision là tỷ lệ của các trường hợp positive được dự đoán đúng (TP) so với tổng số các trường hợp được dự đoán là positive (TP + FP).
Precision cung cấp thông tin về tỷ lệ các trường hợp dự đoán là positive thực sự là positive. Nó là một chỉ số quan trọng khi chi phí của việc dự đoán sai positive (FP) cao.
Recall (Tỷ lệ phát hiện đúng):

Recall là tỷ lệ của các trường hợp positive được dự đoán đúng (TP) so với tổng số các trường hợp thực tế là positive (TP + FN).
Recall cung cấp thông tin về khả năng của mô hình trong việc phát hiện tất cả các trường hợp positive. Điều này quan trọng khi việc bỏ sót các trường hợp positive (FN) có thể có hậu quả nghiêm trọng.
F1-score:

F1-score là một số đo kết hợp của precision và recall, được tính bằng trung bình điều hòa của chúng.
F1-score cung cấp một cách tổng quan về hiệu suất của mô hình, bằng cách cân nhắc cả precision và recall. Nó là một phép đo hữu ích khi bạn muốn cân nhắc cả sự chính xác và khả năng phát hiện của mô hình.