# 综合评价的基本概念

一个综合评价问题一般由<span style="color: orange">评价对象、评价指标、权重系数、综合评价模型、评价者</span>五个基本要素组成
## 综合评价体系的建立
### 1.评价指标和评价指标体系

从指标值的特征来看，指标可以分为定性指标和定量指标

从指标值的变化对评价目的的影响来看，可分为以下四类：
    
1. 极大型指标(又称为效益性指标)：是指标值越大越好的指标；
2. 极小型指标(又称为成本型指标)：是指标值越小越好的指标；
3. 居中型指标：是指标值既不是越大越好，也不是越小越好，而是适中为最好的指标；
4. 区间型指标：是指标值取在某个区间内为最好的指标
### 2.评价指标的筛选方法
1. 专家调研法(Delphi法)
2. 最小均方差法

    对于$n$个评价对象$S_1,S_2,···,S_n$，每个评价对象有$m$个指标，其观测值分别为$a_{ij}$    $(i = 1,2,···,n;j = 1,2,···,m)$

    如果$n$个评价对象关于某项指标的观测值都差不多，那么不管这个评价指标重要与否，对于这$n$个评价对象的评价结果所起的作用将是很小的。因此在评价过程中就可以删除这样的评价指标。

    最小均方误差的筛选过程如下
    1. 求出第$j$项指标的平均值和均方差

    $\mu_j = \frac{1}{n}\sum_{i=1}^{n}a_{ij} \quad s_j = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(a_{ij}-\mu_j)^2, j=1,2,···,m}$

    2. 求出最小均方差

    $s_{j_0} = min_{1\leq j\leq m}{\{s_j\}}$

    3. 如果最小均方差$s_{j_0} \approx 0$，则可删除与$s_{j_0}$对应的指标$x_{j_0}$。考察完所有指标即可得到最终的评价指标体系

示例一

In [2]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import MinMaxScaler
import pandas as pd

# 1. 准备样本数据
# 假设我们有10个城市的4个指标数据(已标准化)和综合评分(专家打分)
data = {
    'city': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
    'air_quality': [0.8, 0.6, 0.9, 0.7, 0.5, 0.4, 0.8, 0.6, 0.7, 0.9],
    'green_space': [0.7, 0.8, 0.6, 0.9, 0.5, 0.7, 0.8, 0.6, 0.4, 0.5],
    'commute_time': [0.2, 0.3, 0.4, 0.1, 0.5, 0.6, 0.3, 0.4, 0.7, 0.8],
    'medical_resources': [0.9, 0.7, 0.8, 0.6, 0.5, 0.7, 0.8, 0.9, 0.6, 0.4],
    'composite_score': [85, 80, 82, 88, 65, 70, 83, 81, 60, 55]  # 专家给出的综合评分
}

df = pd.DataFrame(data)  #会把字典转换成一个 DataFrame，列名就是字典的键，数据就是字典的值。
print(df)

# 2. 数据标准化(如果数据未标准化)
# scaler = MinMaxScaler()
# df[['air_quality', 'green_space', 'commute_time', 'medical_resources']] = scaler.fit_transform(
#     df[['air_quality', 'green_space', 'commute_time', 'medical_resources']])

# 3. 准备特征(X)和目标变量(y)
X = df[['air_quality', 'green_space', 'commute_time', 'medical_resources']]
y = df['composite_score']

# 4. 使用最小均方差法(线性回归)拟合模型
model = LinearRegression()
model.fit(X, y)

# 5. 获取各指标权重
weights = model.coef_
intercept = model.intercept_

# 6. 输出结果
print("各指标权重:")
print(f"空气质量: {weights[0]:.4f}")
print(f"绿地面积: {weights[1]:.4f}")
print(f"通勤时间: {weights[2]:.4f}")  # 注意这个权重应该是负的，因为通勤时间越长评分应该越低
print(f"医疗资源: {weights[3]:.4f}")
print(f"截距项: {intercept:.4f}")

# 7. 计算预测评分
df['predicted_score'] = model.predict(X)

# 8. 评估模型
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y, df['predicted_score'])
r2 = r2_score(y, df['predicted_score'])

print(f"\n模型评估:")
print(f"均方误差(MSE): {mse:.4f}")
print(f"R平方值: {r2:.4f}")

# 9. 权重归一化(如果需要权重总和为1)
normalized_weights = np.abs(weights) / np.sum(np.abs(weights))
print("\n归一化后的权重:")
print(f"空气质量: {normalized_weights[0]:.4f}")
print(f"绿地面积: {normalized_weights[1]:.4f}")
print(f"通勤时间: {normalized_weights[2]:.4f}")
print(f"医疗资源: {normalized_weights[3]:.4f}")
print(f"权重总和: {np.sum(normalized_weights):.4f}")

  city  air_quality  green_space  commute_time  medical_resources  \
0    A          0.8          0.7           0.2                0.9   
1    B          0.6          0.8           0.3                0.7   
2    C          0.9          0.6           0.4                0.8   
3    D          0.7          0.9           0.1                0.6   
4    E          0.5          0.5           0.5                0.5   
5    F          0.4          0.7           0.6                0.7   
6    G          0.8          0.8           0.3                0.8   
7    H          0.6          0.6           0.4                0.9   
8    I          0.7          0.4           0.7                0.6   
9    J          0.9          0.5           0.8                0.4   

   composite_score  
0               85  
1               80  
2               82  
3               88  
4               65  
5               70  
6               83  
7               81  
8               60  
9               55  
各指标权重:
空气

示例二

In [None]:
import numpy as np
import pandas as pd

# 1. 准备样本数据
data = {
    'city': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
    'air_quality': [0.8, 0.6, 0.9, 0.7, 0.5, 0.4, 0.8, 0.6, 0.7, 0.9],
    'green_space': [0.7, 0.8, 0.6, 0.9, 0.5, 0.7, 0.8, 0.6, 0.4, 0.5],
    'commute_time': [0.2, 0.3, 0.4, 0.1, 0.5, 0.6, 0.3, 0.4, 0.7, 0.8],
    'medical_resources': [0.9, 0.7, 0.8, 0.6, 0.5, 0.7, 0.8, 0.9, 0.6, 0.4],
    'constant_feature': [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]  # 添加一个恒定不变的指标用于演示
}

df = pd.DataFrame(data)
numeric_columns = ['air_quality', 'green_space', 'commute_time', 'medical_resources', 'constant_feature']
X = df[numeric_columns]  # 只选取数值型指标

# 2. 计算每个指标的平均值和均方差
means = X.mean()
stds = X.std()

print("各指标的平均值和标准差:")
stats_df = pd.DataFrame({'Mean': means, 'Std': stds})
print(stats_df)

# 3. 找到最小均方差
min_std = stds.min()
min_std_feature = stds.idxmin()  #返回最小值对应的索引（即列名或标签）

print(f"\n最小均方差: {min_std:.4f} (指标: {min_std_feature})")

# 4. 筛选指标(删除均方差≈0的指标)
threshold = 1e-6  # 设置一个很小的阈值
selected_features = []

for feature in numeric_columns:
    if stds[feature] > threshold:
        selected_features.append(feature)
    else:
        print(f"删除指标 {feature}，因为其均方差接近0 ({stds[feature]:.6f})")

# 5. 输出最终选定的指标
print("\n最终选定的评价指标:")
print(selected_features)

# 6. 可选：使用筛选后的指标构建新的DataFrame
filtered_df = df[['city'] + selected_features]
print("\n筛选后的数据:")
print(filtered_df.head())

各指标的平均值和标准差:
                   Mean       Std
air_quality        0.69  0.166333
green_space        0.65  0.158114
commute_time       0.43  0.221359
medical_resources  0.69  0.166333
constant_feature   1.00  0.000000

最小均方差: 0.0000 (指标: constant_feature)
删除指标 constant_feature，因为其均方差接近0 (0.000000)

最终选定的评价指标:
['air_quality', 'green_space', 'commute_time', 'medical_resources']

筛选后的数据:
  city  air_quality  green_space  commute_time  medical_resources
0    A          0.8          0.7           0.2                0.9
1    B          0.6          0.8           0.3                0.7
2    C          0.9          0.6           0.4                0.8
3    D          0.7          0.9           0.1                0.6
4    E          0.5          0.5           0.5                0.5


3. 极大极小离差法

    对于$n$个评价对象$S_1,S_2,···,S_n$，每个评价对象有$m$个指标，其观测值分别为$a_{ij}$    $(i = 1,2,···,n;j = 1,2,···,m)$

    极大极小离差法的筛选过程如下：
    1. 求出第$j$项指标的最大离差

    $d_j = max_{1\leq i<k\leq n}\{|a_{ij}-a_{kj}|\} \quad j = 1,2,···,m$

    2. 求出最小离差

    $d_{j_0} = min_{1\leq j\leq m}\{d_j\}$

    3. 如果最小离差$d_{j_0} \approx 0$，则可删除与$d_{j_0}$对应的指标$x_{j_0}$，考察完所有指标，即可得到最终的评价指标体系。

In [None]:
import numpy as np

def min_max_deviation_method(data):
    """
    极大极小离差法筛选评价指标体系
    
    参数:
        data: numpy数组，每行代表一个指标，每列代表一个样本
        
    返回:
        selected_features: 筛选后保留的指标索引列表
    """
    n_features, n_samples = data.shape
    max_deviations = np.zeros(n_features)
    
    # 1. 计算每个指标的最大离差
    for i in range(n_features):
        row = data[i, :]
        max_dev = np.max(np.abs(row[:, None] - row[None, :]))  #row[:, None] 将一维数组 row 转换为列向量（n_samples × 1）;row[None, :] 将一维数组 row 转换为行向量（1 × n_samples）;广播机制（Broadcasting） 使 row[:, None] - row[None, :] 计算所有样本两两之间的差值
        max_deviations[i] = max_dev
    
    # 2. 找出最小离差
    min_dev = np.min(max_deviations)
    
    # 3. 筛选指标：保留离差不近似为0的指标
    selected_features = [i for i in range(n_features) 
                        if not np.isclose(max_deviations[i], min_dev, atol=1e-8)]  #检查该指标的离差是否近似等于最小离差（d_j ≈ d_{j_0}）。atol=1e-8 是绝对容差，如果 |max_deviations[i] - min_dev| ≤ 1e-8，则认为它们近似相等。
    return selected_features

# 示例数据（3个指标，4个样本）
data = np.array([
    [1.2, 1.5, 1.3, 1.6],  # 指标1
    [3.4, 3.4, 3.4, 3.5],  # 指标2
    [5.6, 5.7, 5.6, 5.8]   # 指标3
])

# 应用极大极小离差法
selected = min_max_deviation_method(data)
print("筛选后保留的指标索引:", selected)  # 应删除离差最小的指标

筛选后保留的指标索引: [0, 2]
