In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from transformers import BertTokenizer, BertForSequenceClassification, AdamW
from torch.utils.data import DataLoader, TensorDataset
import torch
from sklearn.metrics import classification_report

# Đọc dữ liệu từ file CSV
data = pd.read_csv('train_clean.csv')

# Chia dữ liệu thành features (X) và labels (y)
X = data["comment_text"]
y = data[["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate"]]

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Load pre-trained BERT tokenizer và mô hình
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=6)

# Tiền xử lý dữ liệu
max_length = 128
X_train_encoded = tokenizer(X_train.tolist(), truncation=True, padding=True, max_length=max_length, return_tensors="pt")
X_test_encoded = tokenizer(X_test.tolist(), truncation=True, padding=True, max_length=max_length, return_tensors="pt")
y_train_tensor = torch.tensor(y_train.values)
y_test_tensor = torch.tensor(y_test.values)

# Tạo DataLoader cho tập dữ liệu
train_dataset = TensorDataset(X_train_encoded["input_ids"], X_train_encoded["attention_mask"], y_train_tensor)
test_dataset = TensorDataset(X_test_encoded["input_ids"], X_test_encoded["attention_mask"], y_test_tensor)
train_loader = DataLoader(train_dataset, batch_size=32)
test_loader = DataLoader(test_dataset, batch_size=32)

# Huấn luyện mô hình
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
optimizer = AdamW(model.parameters(), lr=2e-5)
num_epochs = 3
for epoch in range(num_epochs):
    model.train()
    for batch in train_loader:
        input_ids, attention_mask, labels = batch
        input_ids, attention_mask, labels = input_ids.to(device), attention_mask.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()

# Đánh giá mô hình trên tập kiểm tra
model.eval()
y_true = []
y_pred = []
with torch.no_grad():
    for batch in test_loader:
        input_ids, attention_mask, labels = batch
        input_ids, attention_mask, labels = input_ids.to(device), attention_mask.to(device), labels.to(device)
        outputs = model(input_ids, attention_mask=attention_mask)
        logits = outputs.logits
        predictions = torch.sigmoid(logits)
        y_true.extend(labels.cpu().numpy())
        y_pred.extend(predictions.cpu().numpy())
y_true = torch.tensor(y_true).numpy()
y_pred = (torch.tensor(y_pred) > 0.5).numpy()  # Chuyển đổi thành dạng nhãn 0 hoặc 1 dựa trên ngưỡng 0.5
print(classification_report(y_true, y_pred))
