# Explainable AI:Machine Learning Interpretability Methods

近年来，可解释人工智能(XAI)领域的科学兴趣被极大地重新点燃，该领域关注于explain and interpret 机器学习模型的新方法的开发。这里简单记录一下主要机器学习解释性方法分类，以及它们的编程实现的链接，详见[Explainable AI: A Review of Machine Learning Interpretability Methods](https://www.mdpi.com/1099-4300/23/1/18)

首先，了解一下基本概念
### Explainability and Interpretability
Explainability and Interpretability没有具体的数学定义，也没有用某种度量来衡量；然而，为了澄清这两个术语，以及诸如comprehensibility等相关概念，已经进行了许多尝试。尽管如此，所有这些定义都缺乏数学形式和严谨性。  

**Interpretability**最流行的定义之一将其定义为“以可理解的方式向人类解释或呈现的能力”。另一个流行的定义为“人类能够理解决策原因的程度”。**Interpretability**主要与模型输出背后的直觉有关。

**Explainability**与机器学习系统内部的逻辑和机制有关。模型的可解释性越高，人类对模型在训练或决策过程中所发生的内部过程的理解就越深刻。  

**Interpretable**的模型并不一定转化为人类能够理解其内部逻辑或其底层过程的模型。因此，对于机器学习系统，,**Interpretability**并不必然包含**Explainability**，反之亦然。**Interpretability**本身是不够的，**Explainability**的存在也是至关重要的。**Interpretability** 比**Explainability**更宽泛。
### model-specific/model agnostic
如果interpretability methods的应用仅限于一个特定的算法家族，那么这些方法被称为特定于模型（model-specific）的;如果可以应用于每一种可能的算法的方法称为模型不可知（model agnostic）的。  
### local/global
如果interpretability methods方法仅为特定的实例提供解释,那就是local；如果方法解释了整个模型，那就是global。
### types of data
tabular、images、 text等

![image.png](attachment:23509620-1de4-4f01-912d-4f0f90af3156.png)

# Interpretability Methods to Explain Black-Box Models
主要分为两类：一个专门用于深度学习方法，另一个涉及所有其他黑盒模型
## Interpretability Methods to Explain Deep Learning Models
### 1.Gradients:
 梯度解释技术，顾名思义，就是基于梯度的归因方法。根据这种方法，每个梯度量化了每个输入维度的变化会对输入周围小邻域的预测产生多大的影响。因此，该方法计算与输出神经元相对于输入的梯度对应的图像特定类显著性映射，突出显示给定图像的区域，相对于给定类有区别。
### 2.Integrated Gradients
 一种基于梯度的归因方法，它试图通过归因深度神经网络的输入特征来解释预测。它本质上是计算预测输出相对于输入特征的梯度的一种变体，由更简单的gradient方法实现。在这种变化下，满足了一个非常需要的属性，即完整性或效率或Delta的总和:属性的总和等于目标输出减去在基线上评估的目标输出。此外，还确定了归因方法应满足的两个基本公理:灵敏度和实现不变性。
### 3.DeepLIFT
设计用于深度神经网络预测。也称为“梯度x输入”方法的改进。使用梯度方法获得的显著性映射可以通过将梯度与输入信号相乘而大大增强——这是一个基本的一阶泰勒近似，即如果输入设为零，输出将如何变化。通过观察每个神经元的激活情况，它给它们分配贡献分数，这是通过比较某个参考输出的输出与它们的参考输入的输入的差异来计算的。
### 4.Guided BackPropagation
引导反向传播，也被称为引导显著性，是反卷积方法的变体，用于**可视化cnn**学习到的特征，它也可以应用于广泛的网络结构。
## 5.Deconvolution
一种利用反卷积网络(deconvtional Networks, DeconvNets或DCNNs)**可视化卷积神经网络**(Convolutional Neural Networks, CNNs或ConvNets)的技术。
### 6.Class Activation Maps, or CAMs
另一种用于**cnn**的深度学习解释性方法。更具体地说，它被用于指示CNN用来识别图像类别的图像的鉴别区域。特征向量是通过计算和连接位于最终输出层之前的卷积特征映射激活的平均值来创建的。随后，该向量的加权和被馈给最终的软最大损失层。使用这种简单的结构，图像区域的重要性，与它们的分类相关，因此，可以通过将输出层的权重投影到卷积特征映射上来识别。CAM有两个明显的缺点:首先，要应用它，神经网络的最后一层必须有一个非常特定的结构，而对于所有其他网络，这种结构需要改变，网络需要在新的架构下重新训练。其次，这种方法被限制在只可视化CNN最终的卷积层，只有在解释网络图像分类的最后阶段时才有用，而不能提供任何关于前几次凝视的洞察力。
### 7.Grad-CAM
Grad-CAM是CAM的严格概括，它可以为**任何CNN**产生视觉解释，无论其架构如何，从而克服了CAM的一个局限性。gradient- cam是一种基于梯度的方法，它利用CNN最后一个卷积层中包含的类特有的梯度信息，在分类时生成图像中重要区域的粗糙定位图，使得基于CNN的模型更加透明。Grad-CAM的作者还演示了如何将该技术与现有的像素空间可视化相结合，以创建高分辨率的区分类的可视化——Guided Grad-CAM。通过生成视觉解释，以便更好地理解流行网络的图像分类，尽管是对CAM的改进，但Grad-CAM也有其自身的局限性，最显著的是，由于其偏导数假设，它无法定位图像中多个出现的物体，无法准确确定图像中的类区域覆盖范围，以及连续上采样和下采样过程可能造成的信号损失。
### 8.Grad-CAM++ 
grad_cam ++是grad_cam方法的一个扩展，可以更好地解释**CNN**模型预测。更具体地说，对象定位被扩展到单个图像中的多个对象实例，同时使用最后一个卷积层特征映射相对于特定类别得分的正偏导数的加权组合作为权重，为相应的类别标签生成一个视觉解释。这在多标签分类问题中特别有用，而分配给每个像素的不同权重使得在梯度featurę地图中分别捕获每个像素的重要性成为可能。
### 9.Layer-wise Relevance Propagation (LRP)
层次关联传播(LRP)是一种“非线性分类器分解”技术，通过反向传播预测，为高度复杂的深度神经网络带来可解释性。所提出的传播过程满足一个守恒性质，即任何输出的幅度保持不变，因为它通过网络的较低层次反向传播:从输出神经元一直到输入层神经元，每个神经元将从上层接收到的信息量重新分配给下层神经元。该方法可以应用于各种数据类型，如图像、文本等，以及各种神经网络体系结构。
### 10.SmoothGrad
通过指出并利用**损失函数相对于输入的梯度**可以解释为灵敏度图这一事实，提出了SmoothGrad方法，该方法可以用于降低噪声，从而在视觉上锐化这种灵敏度图。SmoothGrad可以与其他的灵敏度图算法相结合，例如Integrated Gradients和Guided BackPropagation 以产生增强的灵敏度图。
### 11.RISE algorithm
为了解释深度神经网络对图像的预测，RISE算法为**任何黑箱模型**创建一个显著图，表明图像的每个像素对于网络预测的重要性。该方法遵循一种简单而强大的方法:每个输入图像与随机掩码相乘，然后将生成的图像输入模型进行分类。该模型根据每个可用的类别为掩码图像生成一个类似概率的分数，并作为掩码的线性组合创建原始图像的显著性映射。这个线性组合的系数是在使用模型对对应的目标类别的屏蔽输入产生的分数时计算的。

## Interpretability Methods to Explain Deep Learning Models
![image.png](attachment:c96e5e38-4264-4843-867e-6425c6fe6c85.png)  

下面以innvestigate package工具为例，对ImageNet样本图像上解释深度学习模型的可解释性方法展示
![image.png](attachment:d24cc0a2-8f27-4a96-a575-2436ddf375c3.png)




## Interpretability Methods to Explain any Black-Box Model
### 1.LIME
local interpretable model-agnostic explanations(LIME) 方法是最流行的黑盒模型可解释方法之一。遵循一种简单而强大的方法，LIME可以对任何分类器产生的单个预测分数产生解释。对于任何给定的实例及其对应的预测，生成了输入实例附近的模拟随机抽样数据。随后，在使用所讨论的模型时，将对生成的实例作出新的预测，并根据它们与输入实例的接近程度进行加权。最后，一个简单的、可解释的模型，如决策树，将在这个新创建的扰动实例数据集上进行训练。通过解释这个局部模型，最终解释了初始的黑盒模型。尽管LIME功能强大且简单，但它也有其缺点。在参数方面的糟糕选择可能导致LIME错过重要的特性。
### 2.SHAP
Shapley加法解释(Shapley Additive interpretation, SHAP)是一种博弈论启发的方法，它试图通过计算每个特征对单个预测的重要值来提高可解释性。首先，定义了加性特征属性方法的类，它统一了目前的6种方法，包括LIME、DeepLIFT和Layer-Wise correlation Propagation，这些方法都使用相同的解释模型。随后，他们提出SHAP值作为特征重要性的统一度量，它保持三个理想的属性:局部准确性、缺失性和一致性。
### 3.Ancors
 Ancors提出了另一种模型不可知的可解释性方法，该方法适用于任何具有高概率保证的黑盒模型。在这种方法下，创建并利用高精度的如果-那么规则(称为锚)来表示预测的局部充分条件。更具体地说，给定一个实例的预测，锚被定义为足以在局部决定预测的规则，这意味着对实例的其他特征值的任何更改不会本质上影响预测值。锚点是在使用自底向上的方法时逐步构建的。更具体地说，每个锚点都用一个空规则初始化，这个空规则适用于每个实例。随后，以迭代的方式生成新的候选规则，并以估计精度最高的候选规则替换该特定锚点之前的候选规则。如果当前候选规则在任何一点上满足锚点的定义，则需要的锚点已被识别，迭代过程终止。
### 4.CEM
contrastive explanations method (CEM)能够生成任何黑箱模型的对比解释。更具体地说，给定任何输入及其相应的预测，该方法不仅可以识别哪些特征应该最小且充分地呈现出来。具体的预测要产生，但也有哪些特征应该是最少的和必要的缺席。许多解释方法集中在前部分和忽略最低限度的特性,但至关重要的是,然而,当试图形成一个解释缺席研究者称,这些缺失部分时发挥重要作用形成解释,这种解释是自然给人类。
### 5.L2X
L2X是一种实时实例级特征选择方法，也可用于模型解释。更具体地说，给定一个单一的训练示例，它试图找到其输入特征的子集，该子集在该实例的相应预测方面信息更丰富。这个子集是由一个特征选择器通过变分近似来决定的，这个变分近似是为了最大化输入特征和各自标签之间的互信息而优化的。
### 6.PIMP
排列重要性(PIMP)通过特征重要度度量的归一化得到特征重要度偏差。该方法遵循特征随机重要性的假设一些概率分布，试图估计它的参数。这是通过重复排列预测的输出数组并随后测量每个变量在非排列输出上的重要性分布，改进的随机森林(RF)模型被称为PIMP-RF，根据PIMP确定的最重要的特性进行了培训算法。PIMP可用于补充和改进任何特性重要性排序。
### 7.PDPs
这是一种可视化工具，通过绘制特定特征或特征子集对模型预测的影响，帮助解释任何黑箱预测模型。更具体地说，pdp显示了某一组特性如何通过边缘化其余特性(其补充特性集)来影响平均预测值。pdp通常非常简单，它们不考虑所有不同的特性交互。因此，大多数时候，他们不能提供一个非常准确的近似值在因变量和自变量之间的真正的函数关系。然而，它们通常可以揭示有用的信息，从而极大地帮助解释黑盒模型，特别是在大多数这些交互是低阶的情况下。尽管主要用于识别一组给定特征和相应预测值之间的部分关系，pdp也可以为单个和多类问题以及特征之间的交互提供可视化。
### 8.ICE plots
ICE plot是一种模型不可知的可解释性方法，它是在pdp概念的基础上进行改进的。
### 9.ALE plots
另一种与pdp密切相关的方法是累积局部效应(ALE)ALE图试图解决pdp最显著的缺点，它们的特征之间独立的假设，计算条件分布而不是边际分布。更具体地说，为了对其他特征进行平均，ALE图不是对预测进行平均，而是计算预测中的平均差异，从而阻止了相关特征的影响。

### 10.LIVE
LIVE是类似于LIME的方法，因为它们都使用代理模型来近似黑盒模型的局部属性，并产生这些代理模型的系数，这些系数随后被用作解释。然而，LIVE在本地探索和可解释输入的处理方面与LIME有所不同。LIVE不是通过转换输入特征来创建可解释的输入空间，而是利用原始特征空间;用于局部探测的人工数据点是通过对有问题的数据点进行扰动而产生的，每次扰动一个特征。由于摄动数据点与原始数据点之间的相似性非常接近，所以在使用恒等核的同时测量了它们之间的相似性，而将原始特征作为可解释的基础。
### 11.breakDown
在中提出的breakDown方法类似于SHAP，两者都基于黑盒模型的条件响应，试图将它们按比例归为输入特征。然而，与SHAP不同的是，在SHAP中，特性的贡献是在所有可能的条件下平均的，breakDown方法以贪婪的方式处理条件，只考虑单个系列的嵌套条件。这种方法虽然在理论上不如SHAP好，但计算速度更快，在解释方面也更自然。  

由于大多数方法要么关注特定类型的模型，要么关注特定类型的数据，或者它们的范围要么是local的，要么是global的，但不是两者都是。在提出的方法中，**SHAP是最完整的方法，为任何模型和任何类型的数据提供解释，在local和global范围内都这样做。** 然而，SHAP并非没有缺点:SHAP的内核版本，KernelSHAP，像大多数基于排列的方法一样，没有考虑到特征的依赖性，因此通常会高估不太可能的数据点，而tree版本的SHAP解决了这个问题，它依赖于条件预期预测被认为会产生非直观的特征重要性值对预测没有影响的特性可以被赋予不同的重要性值为零。
## Interpretability Methods to Explain any Black-Box Model
![image.png](attachment:4b397b50-0f05-4cc5-b64f-b647a2c16da6.png)
## Repository Links
以下是一些解释工具的链接汇总

[AIX360](https://github.com/Trusted-AI/AIX360)  
[alibi](https://github.com/SeldonIO/alibi)  
[Anchor](https://github.com/marcotcr/anchor)  
[CAM](https://github.com/zhoubolei/CAM)  
[Deep Visualization Toolbox](https://github.com/yosinski/deep-visualization-toolbox)  
[DeepExplain](https://github.com/marcoancona/DeepExplain)   
[DeepLift](https://github.com/kundajelab/deeplift)     
[DLIME](https://github.com/rehmanzafar/dlime_experiments)  
[Eli5](https://github.com/TeamHG-Memex/eli5)  
[Grad-CAM](https://github.com/ramprs/grad-cam)  
[Grad-CAM ++](https://github.com/adityac94/Grad_CAM_plus_plus)  
[iNNvestigate](https://github.com/albermax/innvestigate)  
[Integrated Gradients](https://github.com/ankurtaly/Integrated-Gradients)  
[InterpretML](https://github.com/interpretml/interpret)  
[L2X](https://github.com/Jianbo-Lab/L2X)  
[lime](https://github.com/marcotcr/lime)   
[PDPbox](https://github.com/SauceCat/PDPbox)    
[pyBreakDown](https://github.com/MI2DataLab/pyBreakDown)   
[PyCEbox](https://github.com/AustinRochford/PyCEbox)  
[rationale](https://github.com/taolei87/rcnn/tree/master/code/rationale)  
[RISE](https://github.com/eclique/RISE)  
[shap](https://github.com/slundberg/shap)  
[Skater](https://github.com/oracle/Skater)  
[tcav](https://github.com/tensorflow/tcav)  
[tf-explain](https://github.com/sicara/tf-explain)  
[The LRP Toolbox](https://github.com/sebastian-lapuschkin/lrp_toolbox)  

