In [13]:
import pandas as pd
import numpy as np

In [14]:

def process_file(input_file, output_file):
    """
    处理单个CSV文件，计算道德维度的加权平均并保存结果
    
    参数:
    input_file (str): 输入CSV文件路径
    output_file (str): 输出CSV文件路径
    """
    # 读取CSV文件
    print(f"\n正在处理 {input_file}...")
    df = pd.read_csv(input_file)
    
    # 显示数据集基本信息
    print(f"数据集共 {df.shape[0]} 行，{df.shape[1]} 列")
    print("数据集的前5行:")
    print(df.head())
    
    # 定义道德维度列表
    moral_dimensions = ['care', 'fairness', 'loyalty', 'authority', 'purity']
    
    # 初始化结果字典
    results = {}
    
    # 计算每个道德维度的加权平均 bias 和 intensity
    print("计算加权平均值...")
    for dimension in moral_dimensions:
        # 计算加权 bias (bias × 频率的加权平均)
        bias_col = f"{dimension}_bias"
        weighted_bias = np.average(df[bias_col], weights=df['频率'])
        results[f"{dimension}_bias_avg"] = weighted_bias
        
        # 计算加权 intensity (intensity × 频率的加权平均)
        intensity_col = f"{dimension}_intensity"
        weighted_intensity = np.average(df[intensity_col], weights=df['频率'])
        results[f"{dimension}_intensity_avg"] = weighted_intensity
    
    # 将结果转换为DataFrame
    results_df = pd.DataFrame([results])
    
    # 定义输出列的顺序
    output_columns = []
    for dimension in moral_dimensions:
        output_columns.append(f"{dimension}_bias_avg")
        output_columns.append(f"{dimension}_intensity_avg")
    
    # 按指定顺序选择列
    results_df = results_df[output_columns]
    
    # 显示计算结果
    print("\n计算结果:")
    pd.set_option('display.float_format', '{:.6f}'.format)
    print(results_df)
    
    # 保存结果到CSV文件
    results_df.to_csv(output_file, index=False)
    print(f"结果已保存至 {output_file}")
    
    # 输出保存的CSV文件内容确认
    saved_df = pd.read_csv(output_file)
    print(f"已保存文件 {output_file} 的内容:")
    print(saved_df)
    
    return results_df

In [15]:

# 定义输入和输出文件路径
input_file1 = 'D:\pythonProject\C_MFD2.0_embedding\代码区域\FramAxis嵌入测试\GST单个词汇bias和intensity\projected_gst.csv'
output_file1 = 'gst_group_bias_intensity.csv'

input_file2 = 'D:\pythonProject\C_MFD2.0_embedding\代码区域\FramAxis嵌入测试\GNT单个词汇bias和intensity\projected_gnt.csv'
output_file2 = 'gnt_group_bias_intensity.csv'

# 处理第一个文件
results1 = process_file(input_file1, output_file1)

# 处理第二个文件
results2 = process_file(input_file2, output_file2)

print("\n两个文件处理完成!")


正在处理 D:\pythonProject\C_MFD2.0_embedding\代码区域\FramAxis嵌入测试\GST单个词汇bias和intensity\projected_gst.csv...
数据集共 1018 行，12 列
数据集的前5行:
   词语    频率  care_bias  care_intensity  fairness_bias  fairness_intensity  \
0  女性  4421   0.000560        0.000006       0.066420            0.085182   
1  女生  3635   0.005516        0.000575       0.037324            0.026327   
2  男性  3268   0.031863        0.020113       0.054522            0.058890   
3  女孩  2913   0.029512        0.014345       0.032634            0.017541   
4  男人  2144   0.011070        0.002255      -0.006724            0.000832   

   loyalty_bias  loyalty_intensity  authority_bias  authority_intensity  \
0     -0.049212           0.046762       -0.046526             0.041798   
1     -0.088733           0.148795        0.020044             0.007593   
2     -0.002357           0.000110        0.005887             0.000687   
3     -0.088503           0.129012       -0.067581             0.075224   
4     -0.016970           0.00530