In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 加载Excel文件
df = pd.read_excel('Task4_data.xlsx')

# 确保数据列存在
if 'Human_answers' not in df.columns or 'processed_AI_sentenc' not in df.columns:
    print("错误：数据文件中缺少必要的列名")
    exit()

# 将NaN值替换为空字符串
df['Human_answers'] = df['Human_answers'].fillna('')
df['processed_AI_sentenc'] = df['processed_AI_sentenc'].fillna('')

# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 所有文本列表
all_texts = list(df['Human_answers']) + list(df['processed_AI_sentenc'])

# 训练向量化器并转换所有文本
tfidf_matrix = vectorizer.fit_transform(all_texts)

# 分离出human和AI的向量
human_vectors = tfidf_matrix[:len(df)]
ai_vectors = tfidf_matrix[len(df):]

# 计算每一对文本之间的余弦相似度
similarities = []
for i in range(len(df)):
    # 计算当前行的human和AI文本之间的余弦相似度
    similarity = cosine_similarity(human_vectors[i], ai_vectors[i])[0][0]
    similarities.append(similarity)

# 将相似度值添加到DataFrame
df['cosine_similarity'] = similarities

# 打印基本统计信息
print(f"相似度平均值: {np.mean(similarities):.4f}")
print(f"相似度中位数: {np.median(similarities):.4f}")
print(f"相似度最大值: {np.max(similarities):.4f}")
print(f"相似度最小值: {np.min(similarities):.4f}")

# 将结果保存到新的Excel文件
df.to_excel('Task4_data_with_similarity.xlsx', index=False)

print(f"已将相似度结果保存到 'Task4_data_with_similarity.xlsx'")

# 打印前5行的相似度值示例
print("\n前5行的相似度值:")
for i in range(min(5, len(df))):
    print(f"行 {i+1}: {similarities[i]:.4f}")

相似度平均值: 0.1139
相似度中位数: 0.0405
相似度最大值: 0.7989
相似度最小值: 0.0000
已将相似度结果保存到 'Task4_data_with_similarity.xlsx'

前5行的相似度值:
行 1: 0.3838
行 2: 0.2534
行 3: 0.0000
行 4: 0.0000
行 5: 0.0771
