In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.multioutput import MultiOutputClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

In [2]:
data_path = 'facebook_comment_2k7.csv'
data = pd.read_csv(data_path)

In [3]:
data = data.drop(columns=['Unnamed: 0'])

In [4]:
mlb = MultiLabelBinarizer(classes=['harassment', 'hate_speech', 'sexaully_explixit', 'dangerous_content', 'normal'])
data['label'] = data['label'].apply(eval) 
y = mlb.fit_transform(data['label'])

In [5]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data['text'])

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
svm_model = SVC(kernel='linear', C=0.1, probability=True)
multi_output_classifier = MultiOutputClassifier(svm_model, n_jobs=-1)
multi_output_classifier.fit(X_train, y_train)

In [8]:
y_pred = multi_output_classifier.predict(X_test)
# Đánh giá mô hình
print("Accuracy:", accuracy_score(y_test, y_pred))
# print("Classification Report:", classification_report(y_test, y_pred, target_names=mlb.classes_))

Accuracy: 0.7592592592592593


In [None]:
test_indices = X_test.indices if hasattr(X_test, 'text') else range(len(y_test))
for i, index in enumerate(test_indices): 
    print("Text:", data.iloc[index]['text'])
    predicted_labels = mlb.inverse_transform(y_pred[i:i+1])[0]
    true_labels = mlb.inverse_transform(y_test[i:i+1])[0]
    print("Predicted label:", predicted_labels)
    print("True label:", true_labels)
    print("---")

Text: Noi cho biet k rãnh viet voi loai ng nhu chị cùng loai não ngắn như Bảo thoi ? K bt  thi im đừng khoe xau ho?
Predicted label: ('normal',)
True label: ('normal',)
---
Text: -Giải ngân cực nhanh
-mức vay lên đến 15tr
👉Duyệt tự động,nhanh chóng 
👉CẦN CMND+ATM
👉Hỗ trợ toàn quốc,K thẩm định,k gọi người thân 
💋ai cần vay đăng ký tại đây 
https://shorten.asia/XHHeYYhF
Predicted label: ()
True label: ('normal',)
---
Text: Thủ tục đơn giản đăng ký khoản vay giải ngân liền tay đăng ký vay theo link bên dưới
https://shorten.asia/HVBWJHf8
Predicted label: ('normal',)
True label: ('normal',)
---
Text: săn mãi con đen v5 cả tối k đc an ủi đc con be hjjjj
Predicted label: ('normal',)
True label: ('normal',)
---
Text: zalo 0375841653 ae nào mua kết bạn zalo đặt hàng Uy tín Tiền Giả 
Predicted label: ('normal',)
True label: ('normal',)
---
Text:  AE nào mua tiền giả kết bạn zalo 0375841653 Uy tín nhé 
Predicted label: ('normal',)
True label: ('normal',)
---
Text: Dạ M2 có ạ , mời bạn ghé qua chi

In [None]:
question_text = "Mày ngu quá"

question_vector = vectorizer.transform([question_text])
y_output = multi_output_classifier.predict(question_vector)

pred_labels = mlb.inverse_transform(y_output)
print("Predicted:", pred_labels[0])

Predicted: ('harassment',)


In [None]:
question_text = "sao mày ngu thế con đĩ"

question_vector = vectorizer.transform([question_text])
y_output = multi_output_classifier.predict(question_vector)

pred_labels = mlb.inverse_transform(y_output)
print("Predicted:", pred_labels[0])

Predicted: ('harassment',)


In [10]:
question_text = "hiếp dâm ẩm thực"

question_vector = vectorizer.transform([question_text])
y_output = multi_output_classifier.predict(question_vector)

pred_labels = mlb.inverse_transform(y_output)
print("Predicted:", pred_labels[0])

Predicted: ('normal',)
