风控模型（risk_model）自动建模代码

由于一些原因吧，跳坑太频繁了，所以难以回到一个大厂做风控模型，因此就把这几年积攒的一些代码公开出来，如果有人能有所裨益，把风险做好，也算是种安慰，真的挺喜欢作风控的哈哈哈。当然可能存在一些bug，等有心情在好好修改添加吧。

理论上这套代码连起来是可以实现评分卡自动变量处理，分箱，跑模型打分的。

如果发现bug或者使用问题欢迎发邮件给我：fengyuguohou2010@hotmail.com。

1、一些非传统衍生类的的数据处理，包括缺失值处理，label_encode,离散值woe赋值，基于y信息的tf-idf，基于四种无监督聚类（kmeans，pca，tsne，nmf）变量衍生，基于gbdt的变量衍生有时间（后续会把基于rnn之类的衍生加上）。存在data_transform.py文件。

2、自动woe最优分箱（单调或者单峰且满足iv等条件），接近sas-em效果，不太需要手动介入调整。bin_new.py

3、变量选择：基于psi，相关性，iv，ks和变量聚类。auswahlen.py

4、因子分析：无监督的因子分析。factor_analysis.py

5、样本分布对齐，可以做类似样本的迁移学习，在大样本中召回更接近新业务小样本进行学习。distribution_adjust.py

6、建模代码，包括stewise选变量和蒙特卡洛选变量的逻辑回归，lgbm，rnn。以及基于shap和分箱对比的机器学习变量解释性代码。build_model.py

7、评分卡打分代码。score.py

应用解释：

1 data_transform.py

里边就一个主要的类：feature_eng

ceshi=feature_eng(col1,col2,y, Data,Test_data)

col1:数值型变量的list

col2:离散型变量的list

y是label

Data 是训练集

Test_data是测试集

dir(feature_eng)查看方法

drop_missing是处理缺失值，

gbdt_e是生成gbdt衍生变量，

label_encode是生成label_encode变量，

woe_encode用来使用woe给离散变量赋值，

y_tf_idf基于y的tf-idf衍生，

uns是生成四种无监督衍生（详见：https://github.com/maidoudoujiushiwo/Unsupervised）。

可以看到根据german_credit的数据画出图的标记，虽然是无监督生成的结果，但是对y的0和1区分能力很强很契合，可能有一定运气的成分。

2 bin_new.py

这是一个自动完成分箱几乎不用手动调整的代码，只需调用类：ff_bin_woe。

输入项中： y label

data 输入的训练集

data1 可以同时输入测试集，没有测试集输入pd.DataFrame()

piece 期望分bin的最大箱数

rate 每一个分箱样本数最小希望占比

min_size 每一个分箱最小的样本数

out_in_list 特殊值，单独一箱

not_var_list 不需要分箱的变量 flag_list=[y] 存放lanel

ks 希望开始粗分箱根据ks还是iv，Ture为ks，False为iv。（智能输入这两个选项）

ur 希望分箱中有单峰还是希望所有变量都分为单调。只能选择True or False。

示例

ceshi=ff_bin_woe('y',factor0[col+['y']], pd.DataFrame(), 5, 0.05, 50, [], [], ['y'],True,False)

ceshi.woe()

生成的结果中 ceshi.iv是存放iv结果，ceshi.d0存放分箱之后的数据集，ceshi.messa（比较重要，后续生成打分的文件也要用到）存放分箱的规则。

如果新来的一个测试集data，只需调用：dd=ceshi.dwoe(Data.copy())

既可以对新测试集完成woe变换。

注：ks=False 即采用iv做粗分箱，有可能会取得最终更高的iv的分bin，但是分箱速度回比ks粗分箱慢一点。

3 auswahlen.py

auswahle这个类主要实现三个功能，

1、psi计算，

2、根据相关性和单变量ks，去除相关性高的两个变量中ks较低的一个。

3、varclust变量聚类分析，类似sas中的 proc varclus

4 factor_analysis.py

实现无监督因子分析，可以结合业务经验预先判断维度的和衍生逻辑，比较适用一些简单的无监督打分场景。

示例：

ad=factor_analysis(Data,col,5)

data是训练集，col是变量list，5是指定的因子数目。

ad.test()

检测是否可以做因子分析，显著情况。

ad.analysis()

运行结果

ad._plot()

画图

german_credit的数据结果如下

5 build_model.py

stepwise,MonteCarlo是基于statsmodels中逻辑回归的两个评分卡模型，具体打分需要在调用score.py。

model_lgbm是一个简单lgbm的模型训练kernel，需要再加上grid-search.

MyRNN是一个简单的rnn模型示例。准备加入贷中数据，把类别embeding一下，concat上交易数据，做个rnn的b卡，看以后能去哪家在继续尝试吧。

shap_woe_explain是用来解释机器学习模型中变量是否合理的，如果woe和shap是相反的两种趋势，那么说明变量虽然看起来进入了模型，但是没有发挥应有的作用。

如图所示两种情况：

6 distribution_adjust.py

这部分可以看我之前写的文章，https://mp.weixin.qq.com/s/722dDYdKf2sMqP8wGwVvZA。利用CGAN（有监督对抗网络）选择建模样本

你也可以简单用个lgbm定义好label做这个，就是一个从大样本数据中召回和新业务样本类似数据的功能。

7 score.py

这一部分是按照odds，pdo基准和翻倍打分的代码，比较流程话。

score类的输入项：

model:logit = sm.Logit(m1[y],m1[col+['1']]) model = logit.fit() 是这里边的拟合之后的结果

col 是模型的入模变量。

messa 是代码2部分中ff_bin_woe生成的woe分箱的信息，就是类中的messa的信息。

base 是基准比如600.

odd是odd比如 20

pdo是pdo。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

风控模型（risk_model）自动建模代码

目录：

应用解释：

1 data_transform.py

2 bin_new.py

3 auswahlen.py

4 factor_analysis.py

5 build_model.py

6 distribution_adjust.py

7 score.py

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
image		image
LICENSE		LICENSE
README.md		README.md
auswahlen.py		auswahlen.py
bin_new.py		bin_new.py
build_model.py		build_model.py
data_transform.py		data_transform.py
distribution_adjust.py		distribution_adjust.py
factor_analysis.py		factor_analysis.py
score.py		score.py

License

JiaHongshun/risk_model

Folders and files

Latest commit

History

Repository files navigation

风控模型（risk_model）自动建模代码

目录：

应用解释：

1 data_transform.py

2 bin_new.py

3 auswahlen.py

4 factor_analysis.py

5 build_model.py

6 distribution_adjust.py

7 score.py

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages