In [1]:
# 读入数据
import pandas as pd
import numpy as np

path = r"326312325_按序号_决策与价值判断调查_150_106.xlsx"
data = pd.read_excel(path)

# ——（可选）若列名可能有前后空格/隐藏字符，做一次标准化——
data.columns = [c.strip() for c in data.columns]

# 找到“注意力题”列名（容错：包含“这题请选1”的那一列）
attn_col = None
for c in data.columns:
    if "这题请选1" in c:
        attn_col = c
        break
if attn_col is None:
    raise KeyError("未找到包含‘这题请选1’的注意力题列，请检查表头。")

# 过滤注意力题=1 的样本，并copy防止链式赋值
data = data[pd.to_numeric(data[attn_col], errors="coerce") == 1].copy()

# 把 0-100 的概率答案安全地映射到 [0,1]，带越界裁剪与非数值处理
def prob01(df, colname):
    # 转为数值，非法值->NaN；裁剪到0-100；再除以100到0-1
    return pd.to_numeric(df[colname], errors="coerce").clip(0, 100) / 100.0

s_1 = prob01(data, "7、假设你做出了以下选择，你认为问题被解决的概率有多大，请填写0-100之间的数值—直接举报")
s_2 = prob01(data, "7、匿名举报")
s_3 = prob01(data, "7、继续保持观察，等待时机或者搜集更多证据后再采取行动")
s_4 = prob01(data, "7、保持沉默，等待第三方想办法解决问题")

c_1 = prob01(data, "8、假设你做出了以下选择，你认为你有多大概率会承受难以承受的损失，请填写0-100之间的数值—直接举报")
c_2 = prob01(data, "8、匿名举报")
c_3 = prob01(data, "8、继续保持观察，等待时机或者搜集更多证据后再采取行动")
c_4 = prob01(data, "8、保持沉默，等待第三方想办法解决问题")

df_s_c = pd.DataFrame({
    "s_1": s_1, "s_2": s_2, "s_3": s_3, "s_4": s_4,
    "c_1": c_1, "c_2": c_2, "c_3": c_3, "c_4": c_4
})

# 基本健诊：确认全部在[0,1]（允许NaN）
assert ((df_s_c >= 0) & (df_s_c <= 1) | df_s_c.isna()).all().all(), "存在超出[0,1]的概率值"


In [2]:
def add_prob_columns(df_s_c, s_col, c_col, i, check_sum=True, tol=1e-9):
    s = pd.to_numeric(df_s_c[s_col], errors="coerce")
    c = pd.to_numeric(df_s_c[c_col], errors="coerce")
    mask = s.notna() & c.notna()

    # 先创建 NaN 列，防止把无效行写成0
    for k in range(1, 5):
        df_s_c[f"p{i}_{k}"] = np.nan

    # 仅对有效行计算
    s_m = s[mask]
    c_m = c[mask]
    df_s_c.loc[mask, f"p{i}_1"] = s_m * c_m                  # 成功 & 代价
    df_s_c.loc[mask, f"p{i}_2"] = s_m * (1 - c_m)            # 成功 & 无代价
    df_s_c.loc[mask, f"p{i}_3"] = (1 - s_m) * c_m            # 失败 & 代价
    df_s_c.loc[mask, f"p{i}_4"] = (1 - s_m) * (1 - c_m)      # 失败 & 无代价

    if check_sum:
        rowsum = df_s_c[[f"p{i}_1", f"p{i}_2", f"p{i}_3", f"p{i}_4"]].sum(axis=1)
        ok = (rowsum[mask] - 1.0).abs().le(tol)
        if not ok.all():
            bad = (~ok).sum()
            raise ValueError(f"第{i}组概率行和!=1 的行数: {bad}，请检查 s/c 是否已规范到[0,1] 或是否存在数据异常。")

add_prob_columns(df_s_c, 's_1', 'c_1', 1)
add_prob_columns(df_s_c, 's_2', 'c_2', 2)
add_prob_columns(df_s_c, 's_3', 'c_3', 3)
add_prob_columns(df_s_c, 's_4', 'c_4', 4)


In [3]:
def scale_1to5(series):
    # 转为数值型，非法值→NaN
    s = pd.to_numeric(series, errors="coerce")
    # 可选：裁剪到 1~5，防止意外越界
    s = s.clip(1, 5)
    return (s - 1) / 4.0

alpha   = scale_1to5(data["3、你能在多大水平上承担选择可能带来的风险？"])
lambda1 = scale_1to5(data["4、你在做决策时，对风险的考虑在多大程度上影响你的决定？"])
lambda2 = scale_1to5(data["5、你在做决策时，多大程度上在意收益是否稳定？"])

df_alpha_lambda = pd.DataFrame({
    "alpha": alpha,
    "lambda1": lambda1,
    "lambda2": lambda2
})


In [4]:
import numpy as np
import pandas as pd

def fractional_entropy(df_probs: pd.DataFrame, alpha: pd.Series, eps: float = 1e-12):
    # 1) alpha 数值化 + 裁剪 + 与 df_probs 行对齐
    a = pd.to_numeric(alpha, errors="coerce").clip(0, 1).reindex(df_probs.index)

    def H_for(cols):
        # 列存在性校验（也方便早报警）
        missing = [c for c in cols if c not in df_probs.columns]
        if missing:
            raise KeyError(f"缺少概率列: {missing}")

        # 2) 概率矩阵，保留 NaN；数值裁剪到 [eps, 1]
        P = df_probs[cols].astype(float)
        P = P.clip(lower=eps, upper=1.0)

        # 3) 计算：H = Σ P * (-log P)^{alpha}
        L = -np.log(P.to_numpy())          # (n, 4)
        A = a.to_numpy().reshape(-1, 1)    # (n, 1) 广播到 (n, 4)
        H = (P.to_numpy() * (L ** A)).sum(axis=1)

        # 若某行初始有 NaN，clip 不会修复它；希望该行 H=NaN 的话，下行可保持默认
        # 如果希望“忽略 NaN 的列再求和”，可用 np.nansum 代替 sum
        return pd.Series(H, index=df_probs.index)

    H = pd.DataFrame({
        'H_alpha_1': H_for(['p1_1','p1_2','p1_3','p1_4']),
        'H_alpha_2': H_for(['p2_1','p2_2','p2_3','p2_4']),
        'H_alpha_3': H_for(['p3_1','p3_2','p3_3','p3_4']),
        'H_alpha_4': H_for(['p4_1','p4_2','p4_3','p4_4']),
    })

    # 4) 基本数值自检（非负；允许 NaN）
    assert ((H >= 0) | H.isna()).all().all(), "存在负的熵值，请检查概率或 alpha。"
    return H

H_alpha_df = fractional_entropy(df_s_c, df_alpha_lambda['alpha'])
print(H_alpha_df.head())


   H_alpha_1  H_alpha_2  H_alpha_3     H_alpha_4
0   1.206727   0.392261   0.677050  3.615505e-11
1   1.001505   1.156162   1.040547  4.754065e-01
2   0.500402   1.193550   1.173414  3.250830e-01
3   1.086760   1.054612   1.165809  1.010070e+00
4   0.754059   0.759660   1.097667  8.963367e-01


In [5]:
def normalize(df, columns_to_normalize):
    for col in columns_to_normalize:
        min_val = df[col].min()
        max_val = df[col].max()
        rng = max_val - min_val
        if pd.isna(rng) or rng == 0:
            df[col] = 0.0  # 所有值一样或全 NaN
        else:
            df[col] = (df[col] - min_val) / rng
    return df


In [6]:
def s1to6(series):
    return pd.to_numeric(series, errors="coerce").clip(1, 6)

def sum_items(df, cols, min_valid=1):
    X = pd.concat([s1to6(df[c]) for c in cols], axis=1)
    valid = X.notna().sum(axis=1) >= min_valid
    s = X.sum(axis=1)
    s[~valid] = np.nan
    return s

# 公平价值 F_v（E 已删除）
F_cols = [
    "9、在你选择的案例中，你对以下说法有多认可，1代表完全不同意，6代表完全同意—A．\t相关人的行为损害了社会公正",
    "9、B．\t有些人没有得到他们应得的",
    "9、C．\t不公正战胜了公正",
    "9、D．\t遭受了不公正的人没有得到补偿",
    # "9、E．\t案例中的不公正是偶然的，而不是必然",  # 已删除
    "9、F．\t相关人员做决定时没有力求公正",
]
F_v = sum_items(data, F_cols, min_valid=3)  # 例如至少答3题才计分

# 忠诚成本 L_c
L_cols = [
    "10、在你选择的案例中，你对以下说法有多认可，1代表完全不同意，6代表完全同意—A．\t举报同事或朋友是一种对关系的背叛",
    "10、B．\t即使举报是正确的，也会削弱我对团队的忠诚感",
    "10、C．\t举报行为会被视为对团队利益的损害",
    "10、D．\t考虑到我和朋友、同事的关系，我会犹豫是否继续举报",
    "10、E．\t即使有不当行为，我仍会优先维护与团队的关系",
    "10、F．\t举报会让我感觉自己不再完全属于这个群体",
]
L_c = sum_items(data, L_cols, min_valid=4)

# 各行为的感知收益 P_k
P1_cols = [
    "11、假设你即将要采取直接举报的行动，那么你对下面的说法认可程度多高，1代表完全不同意，6代表完全同意—A.\t这会提高我在组织中的声望",
    "11、B.\t这会给我带来职业晋升机会",
    "11、C.\t这会使我获得满意的经济等物质奖励",
    "11、D.\t这会让我觉得我在做正确的事情",
    "11、E.\t这会使我获得心理上的满足或者释怀",
]
P2_cols = [
    "12、假设你即将要采取匿名举报的行动，那么你对下面的说法认可程度多高，1代表完全不同意，6代表完全同意—A.\t这会提高我在组织中的声望",
    "12、B.\t这会给我带来职业晋升机会",
    "12、C.\t这会使我获得满意的经济等物质奖励",
    "12、D.\t这会让我觉得我在做正确的事情",
    "12、E.\t这会使我获得心理上的满足或者释怀",
]
P3_cols = [
    "13、假设你即将要采取继续保持观察，等待时机或者搜集更多证据后再采取行动的行动，那么你对下面的说法认可程度多高，1代表完全不同意，6代表完全同意—A.\t这会提高我在组织中的声望",
    "13、B.\t这会给我带来职业晋升机会",
    "13、C.\t这会使我获得满意的经济等物质奖励",
    "13、D.\t这会让我觉得我在做正确的事情",
    "13、E.\t这会使我获得心理上的满足或者释怀",
]
P4_cols = [
    "14、假设你即将要采取保持沉默，等待第三方想办法解决问题的行动，那么你对下面的说法认可程度多高，1代表完全不同意，6代表完全同意—A.\t这会提高我在组织中的声望",
    "14、B.\t这会给我带来职业晋升机会",
    "14、C.\t这会使我获得满意的经济等物质奖励",
    "14、D.\t这会让我觉得我在做正确的事情",
    "14、E.\t这会使我获得心理上的满足或者释怀",
]

P_1p = sum_items(data, P1_cols, min_valid=3)
P_2p = sum_items(data, P2_cols, min_valid=3)
P_3p = sum_items(data, P3_cols, min_valid=3)
P_4p = sum_items(data, P4_cols, min_valid=3)

# 每一种行为的综合效用（方向：公平↑、忠诚成本↓、感知收益↑）
C1 = F_v - L_c + P_1p
C2 = F_v - L_c + P_2p
C3 = F_v - L_c + P_3p
C4 = F_v - L_c + P_4p

df_ci = pd.DataFrame({"C1": C1, "C2": C2, "C3": C3, "C4": C4})

# 列内 Min–Max 归一化到 [0,1]
df_ci = normalize(df_ci, ['C1', 'C2', 'C3', 'C4'])

# 汇总到 data2
data2 = pd.concat([df_alpha_lambda, df_ci], axis=1)
print(data2.describe())


            alpha     lambda1     lambda2          C1          C2          C3  \
count  104.000000  104.000000  104.000000  104.000000  104.000000  104.000000   
mean     0.600962    0.673077    0.668269    0.496102    0.617094    0.588287   
std      0.296663    0.309786    0.314385    0.243663    0.205760    0.219832   
min      0.000000    0.000000    0.000000    0.000000    0.000000    0.000000   
25%      0.500000    0.500000    0.500000    0.317568    0.483333    0.431818   
50%      0.500000    0.750000    0.750000    0.513514    0.644444    0.613636   
75%      0.750000    1.000000    1.000000    0.675676    0.777778    0.727273   
max      1.000000    1.000000    1.000000    1.000000    1.000000    1.000000   

               C4  
count  104.000000  
mean     0.572009  
std      0.206893  
min      0.000000  
25%      0.466667  
50%      0.600000  
75%      0.694444  
max      1.000000  


In [7]:
# 计算效用函数（平滑风险偏好）
# 假定 data2 里有列：alpha, C1..C4，且 Ck ∈ [0,1]
def utility_power(C_series: pd.Series, alpha_series: pd.Series):
    a = pd.to_numeric(alpha_series, errors="coerce").clip(0, 1).reindex(C_series.index)
    beta = 0.5 + a  # beta ∈ [0.5, 1.5]
    # 对齐索引逐元素幂运算；有 NaN 的地方保留 NaN
    return C_series.astype(float) ** beta

for i, col in enumerate(['C1', 'C2', 'C3', 'C4'], start=1):
    data2[f"U{i}"] = utility_power(data2[col], data2['alpha'])

print(data2[['alpha','C1','C2','C3','C4','U1','U2','U3','U4']].head())

# 合并熵项
data3 = pd.concat([data2, H_alpha_df], axis=1)
print(data3.head())


   alpha        C1        C2        C3        C4        U1        U2  \
0   0.75  0.108108  0.200000  0.136364  0.244444  0.061990  0.133748   
1   0.50  0.270270  0.444444  0.386364  0.444444  0.270270  0.444444   
2   1.00  0.513514  0.600000  0.545455  0.488889  0.367983  0.464758   
3   0.50  0.162162  0.311111  0.272727  0.222222  0.162162  0.311111   
4   0.75  0.459459  0.555556  0.409091  0.422222  0.378276  0.479633   

         U3        U4  
0  0.082865  0.171880  
1  0.386364  0.444444  
2  0.402845  0.341834  
3  0.272727  0.222222  
4  0.327171  0.340350  
   alpha  lambda1  lambda2        C1        C2        C3        C4        U1  \
0   0.75     0.50     0.50  0.108108  0.200000  0.136364  0.244444  0.061990   
1   0.50     0.75     0.25  0.270270  0.444444  0.386364  0.444444  0.270270   
2   1.00     1.00     1.00  0.513514  0.600000  0.545455  0.488889  0.367983   
3   0.50     0.75     1.00  0.162162  0.311111  0.272727  0.222222  0.162162   
4   0.75     1.00     1

In [8]:
# --- 1) 取列名 ---
U_cols = ['U1', 'U2', 'U3', 'U4']
H_cols = ['H_alpha_1', 'H_alpha_2', 'H_alpha_3', 'H_alpha_4']

# --- 2) 三项统一到 [0,1] 标度 ---
# 2.1 逐列 Min–Max 归一 U（这是行级数据）
U_norm = data3[U_cols].copy()
U_norm = normalize(U_norm, U_cols)  # 逐列到[0,1]

# 2.2 逐列 Min–Max 归一 H（这是行级数据）
H_norm = data3[H_cols].copy()
H_norm = normalize(H_norm, H_cols)

# 2.3 S：沿用你“列标准差”的思路（常量），再把4个常量缩放到 [0,1]
S_series = data3[U_cols].std(axis=0, ddof=0)  # 每个行为一值（列常量）
S_min, S_max = S_series.min(), S_series.max()
den = (S_max - S_min) if pd.notna(S_max - S_min) and (S_max - S_min) != 0 else 1.0
S_norm_scalar = (S_series - S_min) / den       # U1..U4 各一个标量

# --- 3) 行级权重（非负 + 归一化到和=1） ---
lam1 = data3['lambda1'].clip(0, 1)
lam2 = data3['lambda2'].clip(0, 1)
w3_raw = 1.0 - lam1 - lam2
w1 = lam1.clip(lower=0)         # 防止负
w2 = lam2.clip(lower=0)
w3 = w3_raw.clip(lower=0)

w_sum = (w1 + w2 + w3).replace(0, np.nan)  # 避免除零
w1n = w1 / w_sum
w2n = w2 / w_sum
w3n = w3 / w_sum

# 若某行 w_sum 为 NaN（极少数：λ1=λ2=0 且被裁剪导致全0），则默认给 U 项全部权重
w1n = w1n.fillna(0.0)
w2n = w2n.fillna(0.0)
w3n = w3n.fillna(1.0)

# --- 4) 组合打分 R1..R4（行级计算） ---
for i in range(4):
    U_col = U_cols[i]
    H_col = H_cols[i]
    S_scalar = float(S_norm_scalar[U_col])  # 标量

    # 注意三项方向：不确定性(H) ↑ 不好 → 加权加；离散度(S) ↑ 不好 → 加权加；
    # 收益(U) ↑ 好 → 加权“减去其负效应”相当于 +w3n*U 的好处（这里写成 -(-U) 更直观）
    # 统一到 R 是“代价/风险分数”，值越小越好（也可取相反号做“效用分数”）
    data3[f'R{i+1}'] = (
        w1n * H_norm[H_col]        # 熵的惩罚
        + w2n * S_scalar           # 方差的惩罚（常量）
        - w3n * U_norm[U_col]      # 收益的加分（以减法方式进入）
    )

# 可选：最终再把 R1..R4 逐列压回 [0,1] 便于比较/可视化
R_cols = [f'R{i}' for i in range(1,5)]
data3[R_cols] = normalize(data3[R_cols], R_cols)

print(data3[[*U_cols, *H_cols, *R_cols]].head())


         U1        U2        U3        U4  H_alpha_1  H_alpha_2  H_alpha_3  \
0  0.061990  0.133748  0.082865  0.171880   1.206727   0.392261   0.677050   
1  0.270270  0.444444  0.386364  0.444444   1.001505   1.156162   1.040547   
2  0.367983  0.464758  0.402845  0.341834   0.500402   1.193550   1.173414   
3  0.162162  0.311111  0.272727  0.222222   1.086760   1.054612   1.165809   
4  0.378276  0.479633  0.327171  0.340350   0.754059   0.759660   1.097667   

      H_alpha_4        R1        R2        R3        R4  
0  3.615505e-11  0.968661  0.680127  0.835602  0.579829  
1  4.754065e-01  0.893332  0.996143  0.936240  0.757810  
2  3.250830e-01  0.831772  0.896398  0.939335  0.660965  
3  1.010070e+00  0.953210  0.831432  0.926957  0.795913  
4  8.963367e-01  0.880932  0.779289  0.923505  0.803541  


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[col] = (df[col] - min_val) / rng


In [9]:
# —— 模型模拟选择：找每行最小 R 的列（1~4）
R_cols = ['R1','R2','R3','R4']
vals = data3[R_cols].to_numpy(dtype=float)

# 用 +inf 代替 NaN，这样 argmin 不会报错；全 NaN 的行依然会得到 +inf
vals_safe = np.where(np.isnan(vals), np.inf, vals)
idx0 = vals_safe.argmin(axis=1)           # 0-based
R_min = vals_safe[np.arange(len(vals_safe)), idx0]

# 标记全 NaN 的行：四列全是 NaN -> vals_safe 一整行都是 inf
all_nan = np.isinf(vals_safe).all(axis=1)
idx0[all_nan] = -1
R_min[all_nan] = np.nan

data3['R_min'] = R_min
data3['decision'] = np.where(idx0 >= 0, idx0 + 1, np.nan)  # 1..4

# —— 真实最终选择清洗为 1..4
# 若原始是数字 1-4：to_numeric 后直接用；若是中文选项：请按你的问卷选项映射
choice_raw = data["15、你最后会选择怎么办？"]

# 先尝试数值；如果是中文请改用下面的 mapping
y_true_num = pd.to_numeric(choice_raw, errors='coerce')

# 如果你的真实值是中文，请取消注释并按你的选项文字改：
# mapping = {
#     "直接举报": 1,
#     "匿名举报": 2,
#     "继续保持观察，等待时机或者搜集更多证据后再采取行动": 3,
#     "保持沉默，等待第三方想办法解决问题": 4
# }
# y_true_num = choice_raw.map(mapping)

data3["final_choice"] = y_true_num

# —— 评估：丢掉 y_true 或 y_pred 为 NaN 的行再计算
valid_mask = data3['final_choice'].notna() & data3['decision'].notna()
y_true = data3.loc[valid_mask, 'final_choice'].astype(int)
y_pred = data3.loc[valid_mask, 'decision'].astype(int)

print(f"用于评估的有效样本数: {len(y_true)} / 总样本: {len(data3)}")

from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

labels = [1, 2, 3, 4]
cm = confusion_matrix(y_true, y_pred, labels=labels)
cm_df = pd.DataFrame(cm, index=[f'True {l}' for l in labels],
                        columns=[f'Pred {l}' for l in labels])

print("混淆矩阵：\n", cm_df)
print("\n分类报告：")
print(classification_report(y_true, y_pred, labels=labels, zero_division=0))
acc = accuracy_score(y_true, y_pred)
print(f"总体准确率: {acc:.4f}")

# 可视化（彩色热力图）
plt.figure(figsize=(6, 5))
sns.heatmap(cm_df, annot=True, fmt='d', cmap='Blues', cbar=True)
plt.title(f'Confusion Matrix (Accuracy={acc:.2%})', fontsize=14)
plt.ylabel('True label')
plt.xlabel('Predicted label')
plt.tight_layout()
plt.show()


⚠️ 未找到‘最终选择’列。请在下列接近的列中确认：


KeyError: 'decision_int'