# 评分卡概念

## 什么是评分卡

评分卡（Scorecard）是一种常用于信用评分、风险评估等领域的工具，用于通过多项指标或特征来评估一个对象的信用或风险情况。评分卡通过给每个特征赋予一个分数，根据这些分数的加总来计算出一个最终的评分，这个评分通常反映了某个人或组织的风险水平或信用状况。

例如，在信用评分中，评分卡通常会基于以下一些特征来进行打分：
1. **个人信息**：如年龄、婚姻状况、教育程度等。
2. **财务状况**：如收入、负债、资产等。
3. **信用历史**：如过去的还款记录、信用卡使用情况等。
4. **行为特征**：如近期贷款申请的次数、使用信用卡的频率等。

评分卡一般分为**专家评分卡**和**统计评分卡**两类：
 **专家评分卡**：基于专家经验手动构建规则，每个特征的权重由专家设定。
 **统计评分卡**：使用统计和机器学习方法（如逻辑回归）根据历史数据构建，通过数据训练来确定每个特征的权重。

评分卡系统的优点是透明、易于解释，通常广泛应用于银行、保险等行业，帮助决策者在放贷、核保等过程中评估风险并做出判断。

一个例子，信用从600分开始进行：

| 特征                     | 条件                          | 分数调整   |
|--------------------------|-------------------------------|------------|
| **截距（Intercept）**     |                              | 600        |
| **年龄**                 | 小于25岁                      | -50        |
|                          | 25-35岁                       | 0          |
|                          | 35-50岁                       | +30        |
|                          | 大于50岁                      | +50        |
| **信用卡使用率**         | 使用率 > 80%                  | -60        |
|                          | 使用率 50%-80%                | -30        |
|                          | 使用率 20%-50%                | +20        |
|                          | 使用率 < 20%                  | +50        |
| **过去还款记录**         | 无逾期记录                    | +80        |
|                          | 最近1年有1次逾期              | -20        |
|                          | 最近1年有2次及以上逾期        | -70        |
| **月收入**               | 小于5000元                    | -30        |
|                          | 5000-10000元                  | 0          |
|                          | 大于10000元                   | +40        |
| **婚姻状况**             | 已婚                          | +20        |
|                          | 未婚                          | 0          |
| **教育程度**             | 高中及以下                    | -20        |
|                          | 大专或本科                    | 0          |
|                          | 研究生及以上                  | +30        |

在这个评分卡中，初始分数由截距提供，即从600分开始。然后根据各个特征的条件对分数进行调整。

**示例**：
假设某人年龄为30岁、信用卡使用率为40%、无逾期记录、月收入为8000元、已婚且具有本科教育背景，那么他的评分计算如下：

- **截距（Intercept）**：600分
- **年龄**：25-35岁，无加减（0分）
- **信用卡使用率**：40%，加20分
- **还款记录**：无逾期记录，加80分
- **月收入**：8000元，无加减（0分）
- **婚姻状况**：已婚，加20分
- **教育程度**：本科，无加减（0分）

最终总评分为：600 + 0 + 20 + 80 + 0 + 20 + 0 = **720 分**。

这个人的最终信用评分是**720分**，表现为较低的信用风险。

## 基于人群分类的评分卡

从适用客群的角度来进行定义，常见的评分卡有3种。

**以下是三种评分卡（通用评分卡、定制评分卡、子评分卡）的对比表格：**

| **类型**           | **定义**                                                                 | **特点**                                                                                              | **优点**                                                                                              | **缺点**                                                                                              | **适用场景**                                                                         |
|--------------------|---------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------|
| **通用评分卡**     | 针对广泛人群设计的标准化评分卡，适用于大规模评估。                            | 适用于大多数用户或客户。<br>使用通用信用数据构建。                                                | 实施成本低，适用性广泛。<br>易于解释和透明。                                                      | 个性化不足，精度相对较低。                                                         | 银行或信用机构评估新客户的信用风险。                                               |
| **定制评分卡**     | 根据特定组织或业务场景量身定制，反映其独特需求。                              | 专门为某个公司或客户群体定制。<br>使用本地数据构建模型，精准反映特定风险因素。                     | 高精度评分，更符合业务需求。<br>支持个性化业务决策。                                               | 开发与维护成本较高。<br>构建时间长，需定期更新优化。                            | 某公司特定客户群体的信用评估。                                                     |
| **子评分卡**       | 用于评估特定特征或行为的评分卡，通常与主评分卡结合使用。                        | 关注特定的特征或风险维度。<br>多个子评分卡结果可汇总为综合评分。                                    | 分层次评估风险，灵活性强。<br>提供精细化的风险分析。                                               | 构建复杂，需确保子评分卡与主评分卡一致。                                           | 银行评估用户的还款历史、收入状况、信用卡使用情况等，分别构建评分卡后汇总得出总评分。 |

**对比总结：**

 **通用评分卡**：适用于大规模、非定制化的场景，能够快速评估广泛的用户群体。
 **定制评分卡**：适用于有特定业务需求或特定客户群体的场景，能为企业提供个性化的高精度评估。
 **子评分卡**：适合细化分析特定风险维度，与主评分卡结合使用，以提供更全面的信用或风险评估。



## 基于用途的评分卡

以下是基于用途的不同评分卡的对比表格，包含申请评分卡、行为评分卡、催收评分卡、流失预警评分卡、营销评分卡、欺诈评分卡的详细信息：

| **评分卡类型**     | **定义**                                                                                     | **特点**                                                                                                  | **优点**                                                                                               | **缺点**                                                                                               | **适用场景**                                                       |
|--------------------|----------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------|
| **申请评分卡**     | 用于评估用户申请贷款或信用卡时的信用风险，决定是否批准申请。                                     |  主要基于用户的信用历史、收入、负债等静态数据。<br> 关注客户的整体信用状况。                             |  帮助快速筛选申请人，降低信贷风险。<br> 便于批量处理客户申请。                                        |  仅考虑申请时的数据，无法反映未来行为变化。                                                           |  银行贷款审批、信用卡申请审批。                                     |
| **行为评分卡**     | 根据客户的账户使用情况和行为数据进行评分，持续评估客户的信用风险。                               |  主要基于账户的交易行为、支付习惯、还款记录等动态数据。<br> 持续监控客户的信用风险。                     |  动态反映客户的行为变化，提供更及时的风险预警。<br> 能防范信用风险的累积。                             |  需持续跟踪客户数据，系统维护成本较高。                                                                |  信用卡使用监控、账户风险管理。                                     |
| **催收评分卡**     | 用于评估逾期客户的还款可能性，帮助催收部门优化催收策略。                                        |  基于客户逾期历史、还款能力、催收反应等数据。<br> 帮助催收部门评估客户还款的可能性。                    |  帮助提高催收效率，减少不必要的催收费用。<br> 能优化催收资源的分配。                                   |  仅适用于逾期客户，无法预测一般信用风险。                                                             |  金融机构的催收管理，帮助决定是否继续催收或转入坏账处理。             |
| **流失预警评分卡** | 用于预测客户流失的可能性，帮助企业制定客户留存策略。                                           |  基于客户的使用行为、投诉记录、市场趋势等数据。<br> 预测客户是否会流失。                               |  及早识别可能流失的客户，帮助企业制定挽留措施。<br> 提高客户生命周期价值。                            |  可能误判客户的真实需求，需要精准的特征设计。                                                         |  电信行业、订阅服务等长期客户关系的管理。                            |
| **营销评分卡**     | 用于评估客户对营销活动的响应可能性，帮助企业制定精准的营销策略。                                 |  基于客户的偏好、购买历史、互动记录等数据。<br> 预测客户对特定营销活动的响应概率。                      |  提高营销活动的成功率，减少不必要的营销成本。<br> 精准化的客户群体划分，有效提升营销效果。              |  数据需求较高，且模型需定期更新以适应市场变化。                                                       |  电商、零售行业的精准营销。                                         |
| **欺诈评分卡**     | 用于识别潜在的欺诈行为，帮助企业防范欺诈风险。                                                 |  基于交易模式、客户行为、设备指纹等数据。<br> 识别异常交易和潜在的欺诈风险。                           |  及时发现并阻止欺诈行为，减少损失。<br> 利用机器学习等技术提高欺诈检测的精准度。                       |  需大量数据支持，且对技术要求较高。                                                                    |  银行、支付平台、保险行业的反欺诈检测。                              |

**对比总结：**

- **申请评分卡**：用于客户初次申请的风险评估，帮助企业决策是否批准贷款或信用卡。
- **行为评分卡**：持续监控客户的账户使用行为，动态评估信用风险。
- **催收评分卡**：专门用于逾期客户的催收优化，提高催收效率。
- **流失预警评分卡**：预测客户流失风险，帮助企业制定客户留存计划。
- **营销评分卡**：评估客户的营销响应度，提升精准营销的效果。
- **欺诈评分卡**：识别潜在的欺诈行为，保护企业免受欺诈损失。

# 建模流程

建模流程如下图所示：

![image.png](attachment:47121218-e91f-4fb2-a69b-dab8ea21a183.png)

这个流程主要有三个部分：

1. 模型设计：抽象问题，定义标签和收集数据
2. 模型开发：特征构造，特征变换，特征选择和模型评估
3. 模型更新：当模型部署之后，如果模型的某一个方面出现了问题，那么需要对模型进行迭代（refit）或者重构（rebuild）。

## 模型设计

常见的模型设计包括4个步骤：

- 业务问题模式化
- 因变量设计：
- 数据集以及时间段设计
- 样本选取

业务问题通常是将业务问题转换为二分类问题，因变量设计则是将不可解问题转换为可解问题，这里可以采用账龄分析来判断阈值和样本的正负。

### 窗口期概念

时间窗口分为表现窗口和观测窗口，表现窗口中的时间称为表现期，观察窗口中的时间称为观察期。如果定义用户为负样本的依据是到期后的3个月内发生逾期，则称表现期为3个月。在用户贷款前12个月的数据切片中，抽取用户的历史行为表现作为变量，用于后续建模，则称观察期为12个月，如图2-2所示。个通常，时间窗口的确定，需要考虑当前数据集的数据是否充足。如果表现窗口设计过小，则用户的风险暴露不充分，但观察窗口可以变长，因此有更丰富的变量信息用于建模。如果表现窗口过大，则观察窗口可能过小，以至于变量的效果显著下降。

在信贷风险建模中，时间窗口的设定包括表现窗口和观察窗口的定义。以用户贷款申请为例，表现窗口用于观察用户在贷款到期后的表现。在这个具体案例中，表现窗口被设定为三个月，这意味着我们将关注用户在贷款到期后三个月内的还款行为，是否发生逾期。而观察窗口则用于收集用户在贷款前的历史数据，设定为十二个月，这意味着我们会分析用户在贷款前十二个月内的历史行为和财务数据，以提取用于建模的特征变量。

假设有一位用户在2024年1月1日申请了贷款，贷款金额为$10,000，贷款到期日为2024年7月1日。根据设定，表现期为2024年7月1日至2024年10月1日，而观察期为2023年7月1日至2024年1月1日。在表现期内，我们将观察该用户的还款情况，如果在此期间未按时还款，则标记为负样本；若按时还款，则标记为正样本。

与此同时，在观察期内，我们收集该用户的历史行为数据，包括信用卡使用情况（如月均消费、按时还款率）、收入情况（如月收入、其他收入来源）、负债情况（如其他贷款余额、信用卡余额）及其他相关变量（如工作年限、教育水平等）。通过将观察期内提取的变量作为特征，结合表现期的结果（逾期或未逾期），可以构建信贷风险模型，预测用户未来的逾期概率。

综上所述，表现窗口和观察窗口的设计相辅相成。合理的时间窗口设置可以确保我们充分评估用户的风险，同时从历史数据中提取丰富的信息用于建模。在实际应用中，需根据数据的可用性和建模目标，灵活调整时间窗口的大小，以优化风险预测的效果。

### 账龄分析

**账龄分析**（Aging Analysis）是一种财务管理工具，用来评估和监控应收账款或应付账款的到期情况，帮助企业了解其未支付账款的时间长度和金额。这种分析将未结清的账款按照时间区间进行分类，通常是按照30天、60天、90天及以上的时间段来分段，进而评估客户的还款能力、信用状况以及企业的现金流管理。

**主要内容**

1. **应收账款账龄分析**：用于分析客户拖欠的应收账款，根据账款的到期时间对未收回的账款进行分类。企业通过此分析来评估哪些账款已经到期，哪些账款存在较高的坏账风险。   
2. **应付账款账龄分析**：用于分析企业自身的应付款项，根据未支付账款的账龄来评估企业的财务负担和债务管理情况。

**账龄分析的时间区间**

账龄分析通常将账款划分为不同的时间段，常见的划分方式包括：
- **0-30天**：账款尚未到期或刚到期，通常无需太大关注。
- **31-60天**：账款已过期较长时间，开始需要引起注意。
- **61-90天**：账款过期时间较长，可能反映出客户的资金问题。
- **90天以上**：账款严重逾期，企业需采取措施催收或评估是否计提坏账准备。

**账龄分析的作用**

- **评估客户信用风险**：账龄分析帮助企业识别长期拖欠账款的客户，评估其信用风险。
- **改善现金流管理**：通过及时发现和管理应收账款，企业可以提高资金回收效率，确保企业的流动性。
- **催收策略制定**：账龄分析为企业提供催收工作的依据，有助于区分重点客户并采取相应的催收措施。
- **坏账准备**：通过分析长期未收回的账款，企业可以判断哪些账款可能成为坏账，并做出相应的财务调整。


**账龄分析表示例：**

![image.png](attachment:4e33f659-99a4-4eea-bf05-1a3f4976decb.png)


**账龄分析的优势：**

1. **财务透明度**：可以清楚地显示账款的分布和风险，帮助财务人员做出更好的决策。
2. **风险控制**：帮助企业识别长期未收账款的风险，预防坏账损失。
3. **优化客户管理**：根据客户的付款历史，企业可以调整信用政策，降低信用风险。

信贷产品中的账龄分析与葡萄酒行业中的酿造年份分析非常类似。信贷Vintage曲线主要用途包括以下几点。

1. **确定资产质量**：曲线平缓后可以观察得到该月份放款客群对应的最终逾期占比
2. **分析变化规律**：如果前几期逾期率上升很快，随后风险暴露进人平稳期，说明短期风险捕捉能力较差，客群欺诈风险可能较高，需要优化欺诈检测系统。如果曲线直在上升，说明信用风险识别能力较差，需要对策略和信用评估模型进行优化。
3. **确定账户成熟期**：确定用户风险暴露所需周期，从而定义建模样本的表现期。
4. **分析影响因素**：放款月的不同会导致很多的因素不同，如风控策略收紧或放松、客群变化、市场环境、政策法规等都会影响资产质量。因此分析影响因素可以用来指导风控策略的调整，在未来市场环境或政策变动时有更好的应对方法。

![image.png](attachment:1bd2c410-5db4-43f4-a2c4-a669c3799c3d.png)

由于用户可以在平台进行复贷，因此用户的历史最大逾期会逐步增长，即用户的真实风险会随着时间推移而逐步暴露。

当大多数曲线趋于平稳的月份取值都接近某个特殊值的时候，即可使用该月份作为表现期。

### 数据集切分

数据集需要拆分为3个部分：

1. 开发样本
2. 验证样本
3. 时间外样本

1. **开发样本（Training Sample）**
开发样本是用于训练模型的部分数据集。这个样本的主要目的是让模型学习数据中的模式和特征。开发样本的选择应包含尽可能多的代表性数据，以便模型能够充分理解数据的结构和变化。通常，这个样本占总数据集的较大比例（如70%-80%），以便提供足够的信息供模型进行学习。

2. **验证样本（Validation Sample）**
验证样本是用于评估模型在开发阶段的性能和调整超参数的部分数据集。它帮助我们检查模型的表现，以便对模型进行优化和选择最佳的参数设置。验证样本的选择通常会独立于开发样本，确保模型在调整后不会过拟合。验证样本通常占总数据集的10%-15%。通过使用验证样本，我们可以判断模型是否能够在未知数据上表现良好，并对模型进行必要的调整。

3. **时间外样本（Out-of-Time Sample）**
时间外样本是指在时间上与开发样本和验证样本完全独立的数据集。这种样本通常是根据时间序列进行划分的，即选择在模型训练后发生的数据。时间外样本的使用非常重要，因为它能模拟模型在真实世界中的表现，特别是在金融、经济和其他与时间密切相关的领域中。通过评估时间外样本上的模型表现，我们能够判断模型的稳定性和预测能力，确保其能够适应未来的变化。

**时间外样本的重要性：**
- **避免过拟合**：通过在一个与训练和验证阶段完全不同的时间段上测试模型，可以有效避免模型对历史数据的过拟合，确保模型在未来的适应性。
- **真实世界验证**：时间外样本更接近真实世界的应用场景，有助于评估模型在现实中的有效性，尤其是在具有时效性的决策中，例如信贷风险预测、市场分析等。
- **动态环境适应**：在不断变化的市场环境中，时间外样本能提供新数据的反馈，帮助模型进行动态调整和更新。

开发样本和验证样本需要使用分层抽样来进行划分，以保证两个数据集中的负样本的占比相同。

开发样本与验证样本的比值为 6：4，而时间外样本通常采用整个建模样本中时间切片最后一段样本。

在保证样本充足的情况之下，通常使用观测点前的最后1个月的样本作为时间外验证样本。

具体例子：

- 假设你在2024年1月1日完成了信贷风险预测模型的开发，计划在2024年进行实际的风险评估。根据上述内容，你将选择2023年12月的数据作为时间外验证样本。这样做的理由如下：
- 时效性：2023年12月的数据与2024年1月的实际应用最为接近，因此能更好地反映当时的市场状况和客户行为。
- 评估公正性：这部分数据在模型训练和验证阶段未被使用，可以有效评估模型在“未见过”数据上的表现。
- 提高预测能力：使用最新的数据帮助确保模型能够适应快速变化的环境。

通过使用观测点前的最后一个月的数据作为时间外验证样本，可以有效提升模型评估的相关性和准确性。这种方法有助于评估模型在实际应用中的表现，确保其具备良好的预测能力。

# 模型开发

### 样本选择

样本选择对模型的结果影响非常的大，建模样本通常需要满足：

- 代表性：样本必须充分代表整体，不能够使用不同客群作为样本来建模
- 充分性：样本数量必须满足一定的要求，当样本的数量比较小的时候，无法满足统计的显著性。评分卡通常要求正负都有1500个或者以上。
- 时效性：在样本量充足的情况之下，通常要求样本的观测期与实际应用时间节点越接近越好。
- 排除性：某些法律规定不满足特定场景贷款需求的用户不应该作为样本。

充分性和代表性需要使用大量的数据支持，并且需要使用拒绝推断等方法，才能够近似的保障。

**拒绝推断**（Rejection Inference）是一种在信用评分和信贷风险评估中使用的技术，旨在改进模型对未获得批准的贷款申请者（即拒绝的申请者）的风险预测能力。由于传统的信用评分模型通常只使用获得批准的客户数据进行训练，这可能导致模型对拒绝申请者的风险评估不足。拒绝推断的核心目的是利用拒绝申请者的数据，以提高模型的全面性和预测准确性。

**拒绝推断的工作原理：**

- 数据扩展：拒绝推断的第一步是将拒绝申请者的特征数据纳入分析。这些数据可能包括拒绝申请者的个人信息、信用历史、收入水平等。
- 模型训练：在训练模型时，研究人员通常会将获得批准的申请者视为“成功样本”，而拒绝的申请者可以被视为“失败样本”或负样本。这种方法试图揭示拒绝申请者与获批申请者之间的差异。
- 推断拒绝申请者的风险：通过分析拒绝申请者的特征，模型可以更好地了解哪些因素可能导致申请者被拒绝。这种信息有助于改进对未来申请者的评估。

**拒绝推断的优点**
- 提高模型准确性：通过包含拒绝申请者的数据，模型能够更全面地了解信用风险，从而提高预测能力。
- 减少信息偏差：传统模型往往只使用获批申请者的数据，可能导致对特定群体的偏见。拒绝推断可以减少这种偏差，使得模型更具代表性。
- 增强决策能力：对于信贷机构而言，使用拒绝推断能够更准确地评估潜在客户的信用风险，从而提高信贷决策的质量。

**拒绝推断的局限性**
- 数据可得性：并非所有信贷机构都有关于拒绝申请者的数据，这可能限制了拒绝推断的应用。
- 模型复杂性：将拒绝申请者的数据纳入模型训练可能会增加模型的复杂性，需谨慎设计和验证模型以确保准确性。
- 伦理问题：在某些情况下，使用拒绝申请者数据可能引发伦理问题，尤其是在可能涉及歧视或不公平的信贷决策时。

### 采样与加权

评分卡建模通常要求正负样本的数量都不少于1500个，但是样本量并不是越大越好，当总样本量超过50000个的时候，模型的效果将不会再随着样本量的增加而有着显著的变化了。

当样本量过大的时候，就需要做欠采样了。

由于负样本的数量和占比通常比较小，所以一般对正样本进行欠采样。

欠采样有三种：

1. 随机欠采样
2. 分层欠采样
3. 算法欠采样

以下是对随机欠采样、分层欠采样和算法欠采样的对比表格：

| **特征**         | **随机欠采样**                         | **分层欠采样**                         | **算法欠采样**                        |
|-------------------|--------------------------------------|--------------------------------------|-------------------------------------|
| **定义**          | 随机选择少数类样本，从而减少多数类样本数量。 | 根据样本类别的比例，随机选择样本，确保每个类别的样本数量比例一致。 | 使用特定算法选择样本，以保持样本的代表性。 |
| **优点**          | 实现简单，容易理解；快速实施。            | 保持类别比例，避免信息损失；适用于不平衡数据集。 | 可以保持数据的特征和分布，提高模型的准确性。 |
| **缺点**          | 可能导致信息丢失；减少的样本可能不具代表性。   | 可能会引入偏差；实施复杂度高于随机欠采样。  | 实施复杂，计算成本高；可能需要大量调试和验证。 |
| **适用场景**      | 数据量大且希望快速处理时；简单模型。        | 数据不平衡且类别之间有显著差异时。            | 当样本数量极大且需要保留数据特征时。         |
| **结果**          | 可能导致模型性能下降；对分类器的泛化能力有限。 | 更好地保持类别之间的平衡；性能提升可能更显著。 | 提升分类性能，减少过拟合的风险。             |

这个对比表格总结了三种欠采样技术的定义、优缺点、适用场景和预期结果，以帮助理解它们在处理不平衡数据时的不同特点。

需要注意的是：欠采样之后需要为正样本添加权重，如果正样本采样为原来的1/4，那么采样后的正样本权重设置为负样本的权重的4倍。

In [45]:
# from sklearn.linear_model import LogisticRegression

# lr_model = LogisticRegression(class_weight={0:4, 1:1})
# lr_model.fit(x,y)

当负样本较少的时候，需要使用代价敏感学习或者过采样处理。

$ weight = n_{samples} / (n_{classes} * np.bincount(y))  $

其中，n_samples是样本数，n_classes是类别数量，np.bincount(y)会输出每个类的样本数。

例子：y = [1, 0, 0, 1，1]时，则np.bincount(y) = [2, 3]。

In [46]:
# 代码
# from sklearn.linear_model import LogisticRegression
# lr_model = LogisticRegression(class_weight='balanced')
# lr_model.fit(x, y)

代价敏感对不均衡问题有一定的帮助。

但是，如果想要达到更好的效果，则需要为模型引入更多的负样本。

使用朴素随机过采样方法将现有样本复制，训练得到的模型泛化能力通常较差，因此在部分场景下需要用过采样算法对模型的样本不均衡问题进行修正。

在特定的场景下需要使用采样算法来对模型的样本的不均衡问题进行修正：

- 少数类别过采样技术 SMOTE
- ADASYN算法

另外还有一些其他的算法。

In [47]:
# 生成数据集
from sklearn.datasets import make_classification
from collections import Counter

# 数据集生成参数
X, y = make_classification(
    n_samples=5000,          # 生成的数据集样本数量，总共有5000个样本
    n_features=2,            # 特征总数，生成包含2个特征的样本
    n_informative=2,         # 有效特征数量，2个特征是有用的、提供分类信息的
    n_redundant=0,           # 冗余特征数量，0表示没有通过线性组合生成的冗余特征，也就是与其他特征高度相关的特征
    n_repeated=0,            # 重复特征数量，0表示没有重复特征
    n_classes=3,             # 分类数，生成3个类别 target variable
    n_clusters_per_class=1,  # 每个类的簇数，每个类别只有1个簇
    weights=[0.01, 0.05, 0.94],  # 类别权重，类别不平衡，类别0占1%，类别1占5%，类别2占94%
    class_sep=0.8,           # 类别分离度，越大类别之间的分离越明显（决定类间差异）
    random_state=0           # 随机种子，保证生成的随机数据集可复现
)

In [48]:
X.shape

(5000, 2)

In [49]:
y.shape

(5000,)

In [50]:
X[[1]]

array([[-0.2013808 , -2.46979396]])

In [51]:
y[1]

2

我们可以先查看一下y中的不同值的数量：

In [52]:
import numpy as np

In [53]:
# 使用 np.unique 统计每个不同值的数量
unique_values, counts = np.unique(y, return_counts=True)

# 打印每个值及其出现次数
for value, count in zip(unique_values, counts):
    print(f"Value {value} appears {count} times")

Value 0 appears 64 times
Value 1 appears 262 times
Value 2 appears 4674 times


可以发现类别的数量非常的不均衡，接着我们需要使用SMOTE过采样。

随机过采样：

In [54]:
# 从 imblearn.over_sampling 中导入 RandomOverSampler
from imblearn.over_sampling import RandomOverSampler

# 使用 fit_resample 方法进行过采样
X_resampled, y_resampled = RandomOverSampler().fit_resample(X, y)

In [55]:
X_resampled.shape

(14022, 2)

In [56]:
y_resampled.shape

(14022,)

SMOTE过采样和BorderlineSMOTE过采样：

In [57]:
# 从 imblearn.over_sampling 中导入 SMOTE 和 BorderlineSMOTE
from imblearn.over_sampling import SMOTE, BorderlineSMOTE

# 首先使用标准的 SMOTE 进行过采样
X_resampled_smote, y_resampled_smote = SMOTE().fit_resample(X, y)

# 使用 BorderlineSMOTE variant 'borderline1' 进行过采样
X_resampled_borderline1, y_resampled_borderline1 = BorderlineSMOTE(kind='borderline-1').fit_resample(X, y)

# 使用 BorderlineSMOTE variant 'borderline2' 进行过采样
X_resampled_borderline2, y_resampled_borderline2 = BorderlineSMOTE(kind='borderline-2').fit_resample(X, y)

In [58]:
X_resampled_borderline1.shape

(14022, 2)

| 特性 | SMOTE | BorderlineSMOTE |
| --- | --- | --- |
| 合成样本的生成区域 | 在少数类样本及其最近邻居之间随机生成 | 主要在少数类样本靠近多数类样本（决策边界）的区域生成 |
| 重点 | 不区分样本位置，所有少数类样本都参与过采样 | 只针对决策边界附近的少数类样本进行过采样 |
| 适用场景 | 适合于一般的不平衡分类问题，但可能忽略决策边界的复杂性 | 适用于决策边界模糊、容易被多数类样本混淆的场景 |
| 风险 | 可能会在非边界区域生成无用的样本，导致过拟合或欠拟合 | 边界区域样本可能会过度聚集，导致生成样本过于集中于特定区域 |


ADASYN过采样：

In [59]:
# 从 imblearn.over_sampling 中导入 ADASYN
from imblearn.over_sampling import ADASYN

# 使用 ADASYN 进行过采样
X_resampled_adasyn, y_resampled_adasyn = ADASYN().fit_resample(X, y)

ADASYN（Adaptive Synthetic Sampling Approach for Imbalanced Learning）是一种基于自适应生成的过采样方法，旨在针对类别不平衡问题生成合成的少数类样本。与 SMOTE 不同，ADASYN 会根据样本的难易程度来自适应地生成合成样本，优先在难分类的少数类样本附近生成更多的新样本。

样本生成的自适应性： ADASYN 会根据每个少数类样本相对于多数类样本的复杂程度，选择在哪些少数类样本附近生成新的合成样本。如果某个少数类样本位于多数类样本附近，表明它更难被分类，ADASYN 就会在这些“难分类”的样本附近生成更多合成样本。相反，靠近其他少数类样本的样本更容易被分类，因此会生成较少的新样本。

| 特性 | ADASYN | SMOTE |
| --- | --- | --- |
| 样本生成策略 | 根据少数类样本的分类难度自适应生成合成样本 | 在少数类样本之间均匀生成合成样本 |
| 合成样本的分布 | 在难以分类的少数类样本周围生成更多的合成样本 | 在所有少数类样本之间生成等量的合成样本 |
| 重点 | 重点增强难以分类的样本，尤其是在决策边界附近 | 不区分少数类样本的难度，均匀处理少数类样本 |
| 生成的样本数 | 样本数自适应生成，难分类的样本生成更多样本，易分类的生成较少 | 固定比例地生成合成样本，不考虑样本的分类难度 |


接着是随机欠采样：

In [60]:
# 导入库
from imblearn.under_sampling import RandomUnderSampler

# 欠采样
X_resampled, y_resampled = RandomUnderSampler().fit_resample(X, y)

In [61]:
X_resampled.shape

(192, 2)

In [62]:
y_resampled.shape

(192,)

基于K-means聚类的欠采样

In [63]:
from imblearn.under_sampling import ClusterCentroids

X_resampled, y_resampled = ClusterCentroids().fit_resample(X, y)

In [64]:
X_resampled.shape

(192, 2)

In [65]:
y_resampled.shape

(192,)

基于最近邻的欠采样：

In [66]:
from imblearn.under_sampling import RepeatedEditedNearestNeighbours

X_resampled, y_resampled = RepeatedEditedNearestNeighbours().fit_resample(X, y)

In [67]:
X_resampled.shape

(4823, 2)

In [68]:
y_resampled.shape

(4823,)

在数据上实现一种分类器，将概率低于阈值的样本都去除，然后实现欠采样：

In [69]:
from sklearn.linear_model import LogisticRegression
from imblearn.under_sampling import InstanceHardnessThreshold

lr_underS = InstanceHardnessThreshold(random_state = 0,
                                     estimator=LogisticRegression())
X_resampled, y_resampled = lr_underS.fit_resample(X, y)

imblearn是一个专注于处理不平衡数据集的库，InstanceHardnessThreshold是一种过采样方法，它根据实例的难度来选择样本。

random_state：设置为0，这通常用于确保每次运行代码时都能得到相同的结果，因为一些算法包含随机性。

estimator：设置为LogisticRegression()，这意味着使用逻辑回归模型来评估每个少数类样本的难度。

这行代码调用fit_resample方法来拟合原始数据集X和y，并进行过采样。

fit_resample方法会使用逻辑回归模型来评估每个少数类样本的难度，并根据这个难度来选择样本进行过采样。

In [70]:
X_resampled.shape

(192, 2)

In [71]:
y_resampled.shape

(192,)

上述涉及到的一些常用的采样的对比：


| 技术 | 定义 | 优点 | 缺点 | 应用场景 | 从imblearn导入 |
| --- | --- | --- | --- | --- | --- |
| **随机过采样** | 随机复制少数类样本以增加其数量。 | 简单易实现；不需要估计新样本。 | 可能导致过拟合；不增加数据多样性。 | 适用于样本数量足够多且计算资源有限的情况。 | from imblearn.over_sampling import RandomOverSampler |
| **SMOTE过采样** | 通过在少数类样本之间插值生成新样本。 | 增加了少数类的样本数量；扩展了特征空间。 | 可能会生成远离原始少数类分布的样本。 | 适用于需要增加少数类样本特征表示的情况。 | from imblearn.over_sampling import SMOTE |
| **ADASYN过采样** | 根据少数类样本的难易程度自适应地生成新样本。 | 根据样本难易程度生成样本；提高了模型性能。 | 计算复杂度较高；对参数敏感。 | 适用于多数类和少数类分布有明显差异的情况。 | from imblearn.over_sampling import ADASYN |
| **随机欠采样** | 随机删除多数类样本以减少其数量。 | 简单易实现；保持了原始数据的分布。 | 可能会导致信息丢失；忽视了数据内在结构。 | 适用于多数类样本数量非常大的情况。 | from imblearn.under_sampling import RandomUnderSampler |
| **基于k-means聚类的欠采样** | 使用k-means聚类算法对多数类样本进行聚类，然后从每个簇中按比例抽取样本。 | 保留了数据的分布特征；减少了信息丢失。 | 计算成本较高；需要选择合适的聚类数。 | 适用于多数类样本数量庞大且需要保留数据结构的情况。 | from imblearn.under_sampling import ClusterCentroids |
| **基于最近邻算法的欠采样** | 通过计算多数类样本的最近邻，删除那些被错误分类的样本。 | 减少了多数类中的噪声；提高了分类器性能。 | 可能会删除重要样本；对参数敏感。 | 适用于多数类样本中有明显噪声的情况。 | from imblearn.under_sampling import NearMiss |

请注意，`imblearn`库提供了这些重采样技术的实现，可以通过上述导入语句来使用它们。

如果要进行分层，则可以采用 sklearn_model_selection 的 train_test_split来进行，只需要给一个 stratify 为 label 的参数。

首先，生成一个 pandas 的 dataframe：

In [72]:
from sklearn.datasets import make_classification
import pandas as pd

# 生成数据集参数
data = make_classification(
    n_samples=5000,          # 生成的数据集样本数量，总共有5000个样本
    n_features=2,            # 特征总数，生成包含2个特征的样本
    n_informative=2,         # 有效特征数量，2个特征是有用的、提供分类信息的
    n_redundant=0,           # 冗余特征数量，0表示没有通过线性组合生成的冗余特征
    n_repeated=0,            # 重复特征数量，0表示没有重复特征
    n_classes=3,             # 分类数，生成3个类别 target variable
    n_clusters_per_class=1,  # 每个类的簇数，每个类别只有1个簇
    weights=[0.01, 0.05, 0.94],  # 类别权重，类别不平衡，类别0占1%，类别1占5%，类别2占94%
    class_sep=0.8,           # 类别分离度，越大类别之间的分离越明显（决定类间差异）
    random_state=0           # 随机种子，保证生成的随机数据集可复现
)

# 将数据集转换为DataFrame
df_data = pd.DataFrame(data[0], columns=[f'feature_{i}' for i in range(data[0].shape[1])])
df_data['target'] = data[1]

In [73]:
df_data.head()

Unnamed: 0,feature_0,feature_1,target
0,0.66242,-0.763477,2
1,-0.201381,-2.469794,2
2,1.208045,-0.332895,2
3,1.375456,0.974206,2
4,0.215885,-1.556261,2


我们可以先查看一下比值：

In [74]:
# 计算target列中每个类别的样本数量
class_counts = df_data['target'].value_counts()

# 计算每个类别的比例
class_proportions = class_counts / class_counts.sum()

# 打印类别比例
print(class_proportions)

target
2    0.9348
1    0.0524
0    0.0128
Name: count, dtype: float64


接着我们可以进行随机抽样样本分割：

In [75]:
from sklearn.model_selection import train_test_split

In [76]:
# 首先分离特征和目标变量
X = df_data.drop('target', axis=1)
y = df_data['target']

# 然后使用train_test_split分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.6, random_state=42)

In [77]:
# 计算训练集中每个类别的比例
train_class_counts = y_train.value_counts(normalize=True)

# 计算测试集中每个类别的比例
test_class_counts = y_test.value_counts(normalize=True)

# 打印训练集和测试集的类别比例
print("Training set class proportions:")
print(train_class_counts)

print("\nTesting set class proportions:")
print(test_class_counts)

Training set class proportions:
target
2    0.939
1    0.049
0    0.012
Name: proportion, dtype: float64

Testing set class proportions:
target
2    0.9285
1    0.0575
0    0.0140
Name: proportion, dtype: float64


即使没有显式设置stratify参数，train_test_split函数默认会尽量保持目标变量y的类别比例。这是因为train_test_split在分割数据时，会考虑数据集中的类别分布，尽量确保训练集和测试集在目标变量的类别比例上保持一致。

具体来说，train_test_split在没有指定stratify参数的情况下，会使用一个贪婪的抽样方法来保持类别比例。这意味着它会尝试从数据集中随机选择样本，同时保持原始数据集中的类别比例。因此，即使没有使用stratify参数，训练集和测试集的类别比例也通常会非常接近。

进一步确保类别比例的一致性，可以在train_test_split中设置stratify参数为y。这样可以确保训练集和测试集的类别比例与整个数据集的类别比例完全一致：

In [78]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.6, random_state=42, stratify=y)

In [79]:
# 计算训练集中每个类别的比例
train_class_counts = y_train.value_counts(normalize=True)

# 计算测试集中每个类别的比例
test_class_counts = y_test.value_counts(normalize=True)

# 打印训练集和测试集的类别比例
print("Training set class proportions:")
print(train_class_counts)

print("\nTesting set class proportions:")
print(test_class_counts)

Training set class proportions:
target
2    0.935000
1    0.052333
0    0.012667
Name: proportion, dtype: float64

Testing set class proportions:
target
2    0.9345
1    0.0525
0    0.0130
Name: proportion, dtype: float64
