In [4]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [3]:
# Read data
# Change to data path on your computer
data = pd.read_csv('breast-cancer-wisconsin.data')
# Show the description of data
data.describe()

Unnamed: 0,1000025,2,5,1,1.1,1.2,2.1,1.3,3,1.4,1.5
count,698.0,698.0,698.0,698.0,698.0,698.0,698.0,698.0,698.0,698.0,698.0
mean,1071807.0,2.690544,4.416905,3.137536,3.210602,2.809456,3.217765,3.467049,3.438395,2.869628,1.590258
std,617532.3,0.951596,2.817673,3.052575,2.972867,2.856606,2.215408,3.642122,2.440056,3.055004,1.716162
min,61634.0,2.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0
25%,870258.2,2.0,2.0,1.0,1.0,1.0,2.0,1.0,2.0,1.0,1.0
50%,1171710.0,2.0,4.0,1.0,1.0,1.0,2.0,1.0,3.0,1.0,1.0
75%,1238354.0,4.0,6.0,5.0,5.0,4.0,4.0,5.0,5.0,4.0,1.0
max,13454350.0,4.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0


In [5]:
# Đặt tên cho các cột
data.columns = ['Sample code number', 'Class', 'Clump Thickness',
                'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                'Marginal Adhesion', 'Single Epithelial Cell Size',
                'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses']

# Tách riêng các mẫu lành tính và ác tính
benign_samples = data[data['Class'] == 2]  # Mẫu lành tính (Diagnosis = 2)
malignant_samples = data[data['Class'] == 4]  # Mẫu ác tính (Diagnosis = 4)

# Chọn ngẫu nhiên 80 mẫu lành tính và 40 mẫu ác tính cho tập test
benign_test = benign_samples.sample(n=80, random_state=42)
malignant_test = malignant_samples.sample(n=40, random_state=42)

# Phần còn lại là dữ liệu training
benign_train = benign_samples.drop(benign_test.index)
malignant_train = malignant_samples.drop(malignant_test.index)

# Gộp lại tập test và training
test_data = pd.concat([benign_test, malignant_test])
train_data = pd.concat([benign_train, malignant_train])

# Tách dữ liệu (X) và nhãn (y) cho tập training và test
X_train = train_data.drop(['Sample code number', 'Class'], axis=1)
y_train = train_data['Class'].apply(lambda x: 1 if x == 4 else 0)  # 1: ác tính, 0: lành tính

X_test = test_data.drop(['Sample code number', 'Class'], axis=1)
y_test = test_data['Class'].apply(lambda x: 1 if x == 4 else 0)

In [6]:
# Huấn luyện mô hình Gaussian Naive Bayes
classifier = GaussianNB()
classifier.fit(X_train, y_train)

# Dự đoán trên tập test
y_pred = classifier.predict(X_test)

In [7]:
# Tính toán các chỉ số Accuracy, Precision, và Recall
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1_score = f1_score(y_test, y_pred)

# In kết quả ra màn hình
print(f'Accuracy: {accuracy:.2f}')
print(f'Precision: {precision:.2f}')
print(f'Recall: {recall:.2f}') 
print(f'F1_score: {f1_score:.2f}')

Accuracy: 0.96
Precision: 0.91
Recall: 0.97
F1_score: 0.94
