# 熵权法

**熵权法**也是用来赋权重的一种算法。之前提到了层次分析法，主要的缺点就是完全靠个人的评价主观性太强了，用来挑男友还是可以的，毕竟是你自己挑不用管别人。这篇要讲一个新的，更加客观的赋权重的方法叫做熵权法。总结来说，熵权法是通过寻找数据本身的规律来赋权重的一种方法。

熵是热力学单位，在数学中，信息熵表示事件所包含的信息量的期望。根据定义，对于某项指标，可以用熵值来判断某个指标的离散程度，其熵值越小，指标的离散程度越大，该指标对综合评价的影响（权重）越大。


## 案例分析

下面用一个案例来分析：

用一篇高引用的核心期刊为例,针对各个银行的资产收益率，费用利润率，逾期贷款率，非生息资产率，流动性比率，资产使用率，自有资本率指标进行评价。设资产收益率为A，费用利润率为B，逾期贷款率为C，非生息资产率为D，流动性比率为E，资产使用率为F，自有资本率为G。数据表格图片如下：
![](https://cdn.jsdelivr.net/gh/GEAMING-CHN/images/blogimg/%E6%9D%82%E9%A1%B9/image-20220124130044285.png)
通过这些指标来评价银行

## 原理解析

1. 把指标正向化

    不同的指标代表含义不一样：
    - 有的指标越大越好，称为越大越优型指标。
    - 有的指标越小越好，称为越小越优型指标。
    - 有的指标在某个点最好，称为某点最优型指标。
    
为了方便评价，应把所有指标转化成越大越优型指标。

若先设有$m$个待评对象，$n$个评价指标，可以构成数据矩阵$X=(x_{ij})_{m\times n}$

设数据矩阵内元素$x_{ij}$，经过指标正向化处理后的元素为$x_{ij}^{\prime}$
- 越小越优型指标：C、D属于此类指标
$$x_{ij}^{\prime}=\mathrm{max}(x_j)-x_{ij}$$
还有其他处理方法可以自行变换，只要思想不变就可
- 某点最优型指标：$E$属于此类指标
设最优点为$a$，当$a=90$时$E$最优
$$x_{ij}^{\prime}=1-\frac{\left| x_{ij}-a\right|}{\mathrm{max}\left( \left| x_{ij}-a\right|\right)}$$
还有其他处理方法可以自行变换，只要思想不变就可
- 越大越优型指标：其余所有指标属于此类，可以不用处理
$$x_{ij}^{\prime}=x_{ij}$$
想要处理也可，只要指标性质不变

2. 数据标准化

因为每个指标的数量级不一样，需要把它们化到同一个范围内再比较。标准化的方法比较多，这里仅用最大最小值标准化方法

设标准化后的数据矩阵元素为$r_{ij}$，由上可得指标正向化后数据矩阵元素为$x_{ij}^{\prime}$
$$r_{ij}=\frac{x_{ij}^{\prime}-\mathrm{min}(x_{j}^{\prime})}{\mathrm{max}(x_{j}^{\prime})-\mathrm{min}(x_{j}^{\prime})}$$

3. 得到信息熵

处理过后可以构成数据矩阵$R=(r_{ij})_{m\times n}$，对某个指标$r_j$，信息熵为$E_j$
$$E_{j}=-\frac{1}{\mathrm{ln}m}\sum^m_{i=1}p_{ij}\mathrm{ln}p_{ij}$$
$$p_{ij}=\frac{r_{ij}}{\sum_{i=1}^m r_{ij}}$$
为避免$p_{ij}$零元素的出现导致计算错误，归一化最低区间可以从0.002开始。如果某个指标的信息熵$E_j$越小，就表明其指标值的变异程度越大，提供的信息量也越大，可以认为该指标在综合评价起到作用也越大。

4. 计算权重
$$w_j=\frac{(1-E_j)}{\sum_{j=1}^n(1-E_j)}$$

5. 计算得分
$$S_i=\sum_{j=1}^n w_j r_{ij}$$





In [1]:
import copy
import pandas as pd
import math
import numpy as np

In [2]:
data = pd.read_excel("熵权法.xlsx")
data

Unnamed: 0,序号,行名,A,B,C,D,E,F,G
0,1,交通,0.3433,8.9094,20.6813,3.5214,79.5984,4.5574,5.0023
1,2,中信,0.483,13.2682,0.0,1.9519,101.4817,4.3646,5.107
2,3,光大,0.4035,13.4909,39.0131,3.3498,78.4041,3.6151,5.5005
3,4,华夏,0.8377,17.404,0.0,3.2115,138.6181,5.9182,5.2022
4,5,民生,0.8383,25.0591,8.8965,2.8677,84.7411,4.5657,4.9068
5,6,广发,0.1487,3.1322,0.0,3.0434,99.1874,4.9233,3.5005
6,7,深发,1.2104,30.95,25.2866,6.8796,93.0129,5.6432,6.3242
7,8,招商,0.5927,16.0245,13.2935,3.0405,79.5027,4.4529,6.5913
8,9,兴业,0.6366,18.8541,12.5865,2.9842,105.6319,4.5043,7.2269
9,10,浦发,0.8979,25.776,9.0513,4.2382,120.7913,4.892,7.5342


In [8]:
#数据正向化
label_need = data.keys()[2:]
data1 = data[label_need].values
data2 = data1.copy()
#越小越优指标
index = [2,3]
for i in range(0,len(index)):
    data2[:,index[i]] = max(data1[:,index[i]])-data1[:,index[i]]
#某点最优型指标
index = [4]
a = 90 #最优型数值
for i in range(0,len(index)):
    data2[:,index[i]] = 1-abs(data1[:,index[i]]-a)/max(abs(data1[:,index[i]]-a))
data2

array([[3.43300000e-01, 8.90940000e+00, 1.83318000e+01, 3.37220000e+00,
        7.86054988e-01, 4.55740000e+00, 5.00230000e+00],
       [4.83000000e-01, 1.32682000e+01, 3.90131000e+01, 4.94170000e+00,
        7.63838982e-01, 4.36460000e+00, 5.10700000e+00],
       [4.03500000e-01, 1.34909000e+01, 0.00000000e+00, 3.54380000e+00,
        7.61490062e-01, 3.61510000e+00, 5.50050000e+00],
       [8.37700000e-01, 1.74040000e+01, 3.90131000e+01, 3.68210000e+00,
        0.00000000e+00, 5.91820000e+00, 5.20220000e+00],
       [8.38300000e-01, 2.50591000e+01, 3.01166000e+01, 4.02590000e+00,
        8.91832466e-01, 4.56570000e+00, 4.90680000e+00],
       [1.48700000e-01, 3.13220000e+00, 3.90131000e+01, 3.85020000e+00,
        8.11029226e-01, 4.92330000e+00, 3.50050000e+00],
       [1.21040000e+00, 3.09500000e+01, 1.37265000e+01, 1.40000000e-02,
        9.38029252e-01, 5.64320000e+00, 6.32420000e+00],
       [5.92700000e-01, 1.60245000e+01, 2.57196000e+01, 3.85310000e+00,
        7.84086585e-01, 4

In [9]:
#数据标准化
#0.002~1区间归一化
[m,n]=data2.shape
data3=copy.deepcopy(data2)
ymin=0.002
ymax=1
for j in range(0,n):
    d_max=max(data2[:,j])
    d_min=min(data2[:,j])
    data3[:,j]=(ymax-ymin)*(data2[:,j]-d_min)/(d_max-d_min)+ymin
data3

array([[0.20499237, 0.24909386, 0.47094854, 0.68303195, 0.83830961,
        0.12350864, 0.49229733],
       [0.33307745, 0.39759479, 1.        , 1.        , 0.81467327,
        0.09971294, 0.51329202],
       [0.26018723, 0.40518201, 0.002     , 0.7176874 , 0.81217418,
        0.00720839, 0.59219759],
       [0.658287  , 0.53849829, 1.        , 0.74561774, 0.002     ,
        0.29146085, 0.53238176],
       [0.65883712, 0.79930161, 0.77241729, 0.8150498 , 0.95084973,
        0.12453304, 0.47314744],
       [0.0265718 , 0.05226914, 1.        , 0.77956634, 0.86488052,
        0.16866863, 0.19115278],
       [1.        , 1.        , 0.35313967, 0.00482737, 1.        ,
        0.25751989, 0.75736789],
       [0.43365678, 0.4914998 , 0.65993697, 0.78015201, 0.83621536,
        0.11061107, 0.81092743],
       [0.47390684, 0.58790207, 0.67802284, 0.79152207, 0.7238525 ,
        0.11695495, 0.93837947],
       [0.71348186, 0.82372583, 0.76845733, 0.53827076, 0.39211223,
        0.16480553, 1. 

In [10]:
#计算信息熵
p=copy.deepcopy(data3)
for j in range(0,n):
    p[:,j]=data3[:,j]/sum(data3[:,j])
E=copy.deepcopy(data3[0,:])
for j in range(0,n):
    E[j]=-1/np.log(m)*sum(p[:,j]*np.log(p[:,j]))
E

array([0.86987992, 0.88656438, 0.94838007, 0.92377223, 0.95517581,
       0.78689395, 0.93733808])

In [11]:
#计算权重和得分
# 计算权重
w=(1-E)/sum(1-E)
#计算得分
s=np.dot(data3,w)
#转换为百分制
Score=100*s/max(s)
for i in range(0,len(Score)):
    print(f"第{i}个评价对象得分为：{Score[i]}")  

第0个评价对象得分为：55.22686968640612
第1个评价对象得分为：74.81285184231848
第2个评价对象得分为：51.22668707643592
第3个评价对象得分为：85.69451914502258
第4个评价对象得分为：92.15585777670678
第5个评价对象得分为：50.602000060864405
第6个评价对象得分为：100.0
第7个评价对象得分为：77.58956572233534
第8个评价对象得分为：83.03155607935086
第9个评价对象得分为：93.4089890356426
第10个评价对象得分为：82.55569710230515
第11个评价对象得分为：28.160943174434383
