Skip to content

Latest commit

 

History

History
313 lines (233 loc) · 21 KB

README.md

File metadata and controls

313 lines (233 loc) · 21 KB

Fraud Detection-反欺诈学习资料、应用实例

汇总反欺诈领域论文学习资料、基于传统机器学习以及图算法的反欺诈应用实例。如有侵权,以下是我的联系方式:

经典论文总结

目录

一、概述 Overview

常见反欺诈模型策略总结:

二、交易欺诈类型 Fraud Types

  1. Account Takeover (ATO)
  2. Stolen Financials

常见的反欺诈终端组件:

三、数据与特征工程 Feature Engineering

1. Preprocessing 预处理

特征清洗

数值型特征

  • 归一 Normalizer:处理特征值尺度不同问题 (i.e. min-max, scale to [-1, 1], z-score, log-based, L2, Gauss Rank, Robust Scaling etc.)
  • 分箱 Binning:处理特征值分布不均匀问题(有监督分箱如卡方分箱、决策树分箱/无监督分桶如固定宽度分箱、分位数分箱等)
    • 将连续特征离散化,旨在引入非线性变换,对异常值不敏感、防止过拟合;
    • Tree-based模型中,高基数特征相对于低基数特征处于支配地位。

类别型特征

时序特征

  • 历史事件分时段统计

一些搜索排序业务的特征工程思路:

2. Feature Selection 特征选择

高质量特征有信息量(Informative),有区分性(Discriminative),特征之间有相互独立性(Independent),特征应易于理解。

特征工程中稀疏变量处理思路:

  • Sparse Representation与Dimension Reduction
    • 降维是将原space的数据在subspace(space spanned by selected major eigenvector)里进行表达;稀疏表达则是在a union of subspace里进行表达。
    • 稀疏表达作为自然信号的regularizer。

特征选择常用方法:

3. 数据增强 Data Augmentation

四、文本挖掘 Text Mining

行为序列,关系网络的节点向量化,文字类特征,都可以用到文本处理思路。

文本挖掘入门

Embeddings(从原始数据提取出来的Feature,通过神经网络映射之后的低维向量)

地址类文本解析,地址相关性任务

文本聚类/Topic Model话题模型

五、有监督学习 Supervised Learning

经典树模型 Tree-Based Models

决策树模型以及基于树模型的Boosting模型

Boosting家族

六、序列模型 Sequence Modeling

循环神经网络 Recurrent Neural Networks

RNN通过重复使用单元结构实现记忆能力。

Long Short Term Memory (LSTM)

LSTM通过训练控制参数决定哪些信息被保留/忘记。

Ads/RecSys/用户行为序列模型

七、图神经网络 Graph Neural Network-based Modeling

图表示学习 Network Representation Learning

Graph Embedding模型:DeepWalk, node2cev, LINE, SDNE, Struc2Vec, GraRep.

图学习在反欺诈领域的应用:

一些解决异常检测任务的over-smoothing问题(异常节点和正常节点的表达难以区分)的思路:

社区发现 Community Detection

图模型 Graphical Models

利用关系网络识别网络中异常的网络结构和社群。

图神经网络入门

反欺诈图神经网络框架

线上交易支付

账号安全

假新闻识别

运费骗保识别

贷款违约预测

洗钱识别

八、其它相关资源

优化方法

ML模型评估策略

AB Testing

金融场景风控模型策略

  1. 样本提取
  • 模型开发时的跨时间验证集(OOT):主要用于衡量同时期新模型相对于旧模型的模型效果提升度和制定决策点(Cut-off)时的效果预估。
  • 近期样本集(BackScore):近期所有进入模型打分阶段的样本集,主要用于设定新模型在于其通过率下的模型阈值Threshold。
  1. 模型策略的制定:一般需要在转化率Conversion Rate与坏账率之间进行权衡。

单模型策略:用于业务前期中期,模型间关联性较强时。

  • 基于模型通过率与坏账率的决策点:理想状态是提高通过率并降低坏账率.
  • 基于lift的决策点设定:lift表示风控模型对预测目标中不良客户的识别比率高于随机识别比率的倍数。Lift分箱将所有客户的模型评分分为10-20箱,计算Cumulatively Bad(%) by Model与Cumulatively Bad(%) Randomly的比值即为lift。通过lift的大小,设定模型的决策阈值。

多模型策略:利用加权等方式将多个模型分融合成一个模型分。

  • 多模型串行准入:多个模型以串行方式依次决策准入。

  • 多模型交叉准入:在生成风险等级的过程中,需要充分考虑每个交叉格子中样本量,保证其统计学意义。

  1. 模型策略评估

开发新模型时,同一OOT样本集上,新模型技术指标(AUC, KS, Gini等)一定优于旧模型。使用新模型仍存在潜在风险:

  • 新模型训练样本集的特征通过回溯得到,有可能发生特征线上与线下不一致风险。
  • 新模型在旧模型决策后的样本上评估,相对于未来应用存在一定差异。

常用模型评估指标

  • KS值:通常用来描述模型的正负样本区分能力。
  • 负样本个数:用来描述模型排序能力。
  • 捕获率(Capture Rate):阈值以下捕获欺诈的能力。
  1. 模型策略的上线与验证
  • 对抗验证 Adversarial Validation
  • 如果模型在测试集和OOT均效果不好,很可能是过拟合问题,应减少模型复杂度,做特征筛选,减少树模型深度等。
  • 如果在测试集表现较好,OOT表现不好,则模型跨时间稳定性不够好。应检测随时间推移单个特征的取值分布波动。
  • 如果测试集和OOT表现良好,线上效果不好,应先检查过拟合抽取更新数据集,再核对线上线下特征逻辑。
  • 如果模型分数逐月下滑,需要用新样本频繁迭代更新模型(Refit)。

Knowledge Base