## Đọc dữ liệu từ Kaggle

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, recall_score
from imblearn.over_sampling import SMOTE

url = "https://storage.googleapis.com/download.tensorflow.org/data/creditcard.csv"
data = pd.read_csv(url)

## Xem thông tin và phân phối của thuộc tính "Class"

In [3]:
class_distribution = data["Class"].value_counts()
print("Phân phối của thuộc tính 'Class':")
print(class_distribution)

Phân phối của thuộc tính 'Class':
0    284315
1       492
Name: Class, dtype: int64


## Chia dữ liệu thành tập huấn luyện và tập kiểm tra

In [4]:
X = data.drop("Class", axis=1)
y = data["Class"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)


## Huấn luyện mô hình Random Forest và đo chỉ số accuracy và recall trường hợp không xử lý gì cả

In [5]:
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

accuracy_no_balance = accuracy_score(y_test, y_pred)
recall_no_balance = recall_score(y_test, y_pred)

print("Kết quả trường hợp không xử lý cân bằng dữ liệu:")
print("Accuracy:", accuracy_no_balance)
print("Recall:", recall_no_balance)

Kết quả trường hợp không xử lý cân bằng dữ liệu:
Accuracy: 0.9995962220427653
Recall: 0.8163265306122449


## Sử dụng SMOTE để cân bằng dữ liệu

In [6]:
smt = SMOTE()
X_train_smt, y_train_smt = smt.fit_resample(X_train, y_train)

## Huấn luyện mô hình Random Forest và đo chỉ số accuracy và recall sau khi sử dụng SMOTE

In [7]:
clf_smt = RandomForestClassifier(random_state=42)
clf_smt.fit(X_train_smt, y_train_smt)
y_pred_smt = clf_smt.predict(X_test)

accuracy_with_balance = accuracy_score(y_test, y_pred_smt)
recall_with_balance = recall_score(y_test, y_pred_smt)

print("Kết quả sau khi xử lý cân bằng dữ liệu bằng SMOTE:")
print("Accuracy:", accuracy_with_balance)
print("Recall:", recall_with_balance)

Kết quả sau khi xử lý cân bằng dữ liệu bằng SMOTE:
Accuracy: 0.999403110845827
Recall: 0.826530612244898
