In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
 
# 加载CSV 文件的路径
file_path = 'data/bully.csv'
data = pd.read_csv(file_path, encoding='gbk')

# 分割数据为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data['对话'], data['是否遭遇霸凌'], test_size=0.2, random_state=42)

# 使用TF-IDF向量化器将文本数据转换为数值特征
vectorizer = TfidfVectorizer(max_features=5000)
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# 使用多项式朴素贝叶斯模型进行训练
model = MultinomialNB()
model.fit(X_train_vec, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test_vec)

# 创建一个包含原始测试集和预测结果的 DataFrame
test_with_predictions = X_test.to_frame() 
test_with_predictions['是否遭遇霸凌'] = y_test
test_with_predictions['预测结果'] = y_pred

# 打印合并后的数据集
print(test_with_predictions[['对话', '是否遭遇霸凌', '预测结果']])

# 计算并输出准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

# 输出更详细的分类报告
print(classification_report(y_test, y_pred))

                  对话 是否遭遇霸凌 预测结果
521  你对即将到来的假期有什么计划？      否    否
737   你总是取笑我，这真的很伤人。      是    是
740  你对即将到来的假期有什么计划？      否    否
660   我需要告诉老师你的所作所为。      是    是
411  你的言语和行为让我感到被孤立。      是    是
..               ...    ...  ...
408         今天的天气真好。      否    否
332  你对即将到来的假期有什么计划？      否    否
208      为什么你总是挑我的错？      是    是
613   你总是取笑我，这真的很伤人。      是    是
78     你这样对待别人，真的好吗？      是    是

[200 rows x 3 columns]
Accuracy: 100.00%
              precision    recall  f1-score   support

           否       1.00      1.00      1.00        93
           是       1.00      1.00      1.00       107

    accuracy                           1.00       200
   macro avg       1.00      1.00      1.00       200
weighted avg       1.00      1.00      1.00       200



In [3]:
file_path2 = 'data/test.csv'
test_data = pd.read_csv(file_path, encoding='gbk')

In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# 加载CSV 文件的路径
file_path = 'data/bully.csv'
data = pd.read_csv(file_path, encoding='gbk')

# 分割数据为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data['对话'], data['是否遭遇霸凌'], test_size=0.2, random_state=42)

# 使用TF-IDF向量化器将文本数据转换为数值特征
vectorizer = TfidfVectorizer(max_features=5000)
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# 使用多项式朴素贝叶斯模型进行训练
model = MultinomialNB()
model.fit(X_train_vec, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test_vec)

# 创建一个包含原始测试集和预测结果的 DataFrame
test_with_predictions = X_test.to_frame()
test_with_predictions['是否遭遇霸凌'] = y_test
test_with_predictions['预测结果'] = y_pred

# 打印合并后的数据集
print(test_with_predictions[['对话', '是否遭遇霸凌', '预测结果']])

# 计算并输出准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

# 输出更详细的分类报告
print(classification_report(y_test, y_pred))

# 加载测试数据的路径
file_path2 = 'data/test.csv'
test_data = pd.read_csv(file_path2, encoding='gbk')

# 使用训练好的模型预测 test_data
X_test2 = vectorizer.transform(test_data['对话'])  # 直接使用向量化器进行转换
y_pred2 = model.predict(X_test2)

# 创建一个包含原始测试集和预测结果的 DataFrame
test_with_predictions2 = test_data.copy()
test_with_predictions2['预测结果'] = y_pred2

# 打印合并后的数据集
print(test_with_predictions2[['对话', '预测结果']])

# 计算并输出准确率
accuracy2 = accuracy_score(test_data['是否遭遇霸凌'], y_pred2)
print(f"Accuracy on test_data: {accuracy2 * 100:.2f}%")

# 输出更详细的分类报告
print(classification_report(test_data['是否遭遇霸凌'], y_pred2))


                  对话 是否遭遇霸凌 预测结果
521  你对即将到来的假期有什么计划？      否    否
737   你总是取笑我，这真的很伤人。      是    是
740  你对即将到来的假期有什么计划？      否    否
660   我需要告诉老师你的所作所为。      是    是
411  你的言语和行为让我感到被孤立。      是    是
..               ...    ...  ...
408         今天的天气真好。      否    否
332  你对即将到来的假期有什么计划？      否    否
208      为什么你总是挑我的错？      是    是
613   你总是取笑我，这真的很伤人。      是    是
78     你这样对待别人，真的好吗？      是    是

[200 rows x 3 columns]
Accuracy: 100.00%
              precision    recall  f1-score   support

           否       1.00      1.00      1.00        93
           是       1.00      1.00      1.00       107

    accuracy                           1.00       200
   macro avg       1.00      1.00      1.00       200
weighted avg       1.00      1.00      1.00       200

                             对话 预测结果
0                你好，你知道图书馆怎么走吗？    否
1             我迷路了，你能告诉我怎么去食堂吗？    否
2            我是新生，你能推荐我加入哪些社团吗？    否
3         听说学校有个很好的数学家教，你知道是谁吗？    否
4                你知道篮球场今天可以练习吗？    否
5            