# 一、学习目标

- 理解赛题数据和目标，清楚评分体系。
- 完成相应报名，下载数据和结果提交打卡（可提交示例结果），熟悉比赛流程。

# 二、了解赛题

- 赛题概况
- 数据概况
- 预测指示
- 分析赛题

## 赛题概况
---
赛题以预测二手车的交易价格为任务，数据集报名后即可见并可下载。该数据来自某交易平台的二手车交易记录，总数据量超过 40 万条，包含 31 列变量信息，其中 15 列为匿名变量。为了保证比赛公平性，将会抽取 15 万条作为训练集，5 万条作为测试集A，5 万条作为测试集B，同时会对 `name`、`model`、`brand` 和 `regionCode` 等信息进行脱敏。

通过这道赛题来引导大家走进 AI 数据竞赛的世界，主要对于竞赛新人进行自我练习、自我提高。

## 数据概况
---
一般而言，对于数据在比赛界面都有对应的数据概况介绍（匿名特征除外），说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。

Tips: 匿名特征，就是未告知数据列所属性质的特征列。

**train.csv**

- SaleID - 销售yang样本ID
- name - 汽车编码
- regDate - 汽车注册时间
- model - 车型编码
- brand - 品牌
- bodyType - 车身类型
- fuelType - 燃油类型
- gearbox - 变速箱
- power - 汽车功率
- kilometer - 汽车行驶里程
- notRepairedDamage - 汽车有尚未修复的损坏
- regionCode - 看车地区编码
- seller - 销售方
- offerType - 报价类型
- creatDate - 广告发布时间
- price - 汽车价格
- v_0, v_1, v_2, v_3, v_4, v_5, v_6, v_7, v_8, v_9, v_10, v_11, v_12, v_13, v_14 - 匿名特征，包含 v0 - v14 在内 15 个匿名特征

数字全部脱敏处理，都为 `label encoding` 形式，即数字形式。

## 预测指标
---
本赛题的评价标准为 **MAE（Mean Absolute Error）**：
$$
MAE = {\Sigma^n_{i=1} |y_i - \widehat{y_i}| \over n}
$$

其中 $y_i$ 代表第 $i$ 个样本的真实值，其中 $\widehat{y_i}$ 代表第 $i$ 个样本的预测值。

---
**一般问题评估指标说明**：

什么是评估指标？

> 评估指标即是我们对于一个模型效果的数值型量化。（有点类似于对于一个商品的评价打分，而这是针对于模型效果和理想效果之间的一个打分）

一般来说，**分类** 和 **回归** 问题的评估指标有如下一些形式：

**分类算法常见的评估指标如下：**

- **对于二类分类器/分类算法**：评估指标主要有 **accuracy**、[**Precision**, **Recall**, **F-Score**, **Pr曲线**]、**ROC-AUC曲线**。
- **对于多类分类器/分类算法**：评估指标主要有 **accuracy**、[**宏平均和微平均**, **F-Score**]。

**回归预测类常见的评估指标如下**：

- **平均绝对误差（Mean Absolute Error，MAE）**
- **均方误差（Mean Squared Error，MSE）**
- **平均绝对百分误差（Mean Absolute Percentage Error，MAPE）**
- **$R^2$（R-Square）**

---
**平方绝对误差（Mean Absolute Error，MAE）**：其能更好地反映预测值与真实值误差的实际情况，其计算公式如下：
$$
MAE = {\Sigma^n_{i=1} |y_i - \widehat{y_i}| \over n}
$$

---
**均方误差（Mean Squared Error，MSE）**：
$$
MSE = {\Sigma^n_{i=1} (y_i - \widehat{y_i})^2 \over n}
$$

---
**$R^2（R-Square）$**：

残差平方和计算公式：
$$
SS_{res} = \Sigma^n_{i=1} (y_i - \widehat{y_i})^2
$$

---
总平均值：
$$
SS_{tot} = \Sigma^n_{i=1} (y_i - \bar{y_i})^2
$$

其中 $\bar{y_i}$ 表示 $y_i$ 的平均值得到 $R^2$ 表达式为：
$$
R^2 = 1 - {SS_{res} \over SS_{tot}} = 1 - { \Sigma^n_{i=1} (y_i - \widehat{y_i})^2 \over \Sigma^n_{i=1} (y_i - \bar{y_i})^2}
$$

$y_i$ 表示真实值，$\widehat{y_i}$ 表示预测值，$\bar{y_i}$ 表示样本均值。得分越高拟合效果越好。

---
$R^2$（判定系数）是用来表示因变量的总变异中，能够被自变量解释的变异所占的比例，取值范围 `0~1`。$R^2$ 越接近 1，表明 **回归平方和** 占 **总平方和** 的比例越大，回归线与各观测点越接近。所以 $R^2$ 也称为 **拟合优度（Goodness of fit）** 的统计量。

**关键概念解释**：

- **$R^2$（R-Squared）**：判定系数或决定系数
- **因变量的变异**：因变量 Y 的变化程度
- **自变量解释**：通过自变量 X 来解释或预测
- **比例**：所占的百分比或份额

**$R^2$ 的值域在 0 到 1 之间**：

- $R^2$ = 0：自变量完全不能解释因变量的变异
- $R^2$ = 1：自变量可以完全解释因变量的变异
- $R^2$ = 0.7：意味着因变量的变异中有 70% 可以由自变量来解释

这是回归分析中非常重要的统计指标，用来评估回归模型的拟合优度。

## 分析赛题
---
1. 此题为传统的数据挖掘问题，通过数据科学以及机器学习、深度学习的办法来进行建模得到的结果。
2. 此题是一个典型的回归问题。
3. 主要应用 **XGBoost**、**LightGBM**、**CatBoost**，以及 **pandas**、**numpy**、**matplotlib**、**seaborn**、**sklearn**、**keras** 等等数据挖掘常用库或者框架来进行数据挖掘任务。
4. 通过 **EDA** 来挖掘数据的练习和自我熟悉数据。


# 三、代码示例

本部分为对于数据读取和指示评价的示例。

In [None]:
import os
import pandas as pd

def get_project_path(*paths):
    """获取项目路径的统一方法"""
    try:
        return os.path.join(os.path.dirname(__file__), *paths)
    except NameError:
        return os.path.join(os.getcwd(), *paths)


## 数据读取

In [2]:
# 1) 载入训练集和测试集
Train_data = pd.read_csv(get_project_path('data', 'used_car_train_20200313.csv'), sep=' ')
Test_data = pd.read_csv(get_project_path('data', 'used_car_testB_20200421.csv'), sep=' ')

print('Train data shape:', Train_data.shape)
print('TestB data shape:', Test_data.shape)

Train data shape: (150000, 31)
TestB data shape: (50000, 30)


In [3]:
Train_data.head()

Unnamed: 0,SaleID,name,regDate,model,brand,bodyType,fuelType,gearbox,power,kilometer,...,v_5,v_6,v_7,v_8,v_9,v_10,v_11,v_12,v_13,v_14
0,0,736,20040402,30.0,6,1.0,0.0,0.0,60,12.5,...,0.235676,0.101988,0.129549,0.022816,0.097462,-2.881803,2.804097,-2.420821,0.795292,0.914762
1,1,2262,20030301,40.0,1,2.0,0.0,0.0,0,15.0,...,0.264777,0.121004,0.135731,0.026597,0.020582,-4.900482,2.096338,-1.030483,-1.722674,0.245522
2,2,14874,20040403,115.0,15,1.0,0.0,0.0,163,12.5,...,0.25141,0.114912,0.165147,0.062173,0.027075,-4.846749,1.803559,1.56533,-0.832687,-0.229963
3,3,71865,19960908,109.0,10,0.0,0.0,1.0,193,15.0,...,0.274293,0.1103,0.121964,0.033395,0.0,-4.509599,1.28594,-0.501868,-2.438353,-0.478699
4,4,111080,20120103,110.0,5,1.0,0.0,0.0,68,5.0,...,0.228036,0.073205,0.09188,0.078819,0.121534,-1.89624,0.910783,0.93111,2.834518,1.923482


## 分类指标评价计算示例

### 1. 准确率（Accuracy）

定义：准确率是模型正确分类的样本占总样本的比例。

数学公式：
$$
Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
$$

其中：

- **TP（真正例）**：实际为正类，模型也预测为正类的样本数。
- **TN（真负例）**：实际为负类，模型也预测为负类的样本数。
- **FP（假正例）**：实际为负类，但模型预测为正类的样本数。
- **FN（假负例）**：实际为正类，但模型预测为负类的样本数。

作用：

- 衡量模型整体的正确分类能力。
- 在类别平衡（正负样本数量接近）时是一个可靠的指标。
- 在类别不平衡时容易产生误导，例如一个模型总是预测为多数类，准确率可能很高，但实际性能差。

总结：

适用于类别平衡的情况，但在类别不平衡时不可靠。

In [None]:
## Accuracy
from sklearn.metrics import accuracy_score

y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 1]

print('ACC:', accuracy_score(y_true, y_pred))

ACC: 0.75


### 2. 精准率（Precision）

定义：精确率是模型预测为正类的样本中，实际为正类的比例。

数学公式：
$$
Precision = \frac{TP}{TP + FP}
$$

作用：

- 衡量模型预测正类的准确性。
- 当假正例（FP）的代价较高时，精确率时关键指标。例如，在垃圾邮件检测中，将正常邮件错误标记为垃圾邮件（FP）可能会导致用户过错重要信息，因此需要高精确率。

总结：

关注模型预测为正类的准确性，适用于假正例代价的场景。

In [5]:
## F1-Score
from sklearn import metrics

y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]

print('Precision:', metrics.precision_score(y_true, y_pred))

Precision: 1.0


### 3. 召回率（Recall）

定义：召回率是实际为正类的样本中，被模型正确预测为正类的比例。

数学公式：
$$
Recall = \frac{TP}{TP+FN}
$$

作用：

- 衡量模型识别正类的能力。
- 当假负例（FN）的代价较高时，召回率是关键指标。例如，在疾病检测中，未能识别出示例患病的患者（FN）可能会导致严重后果，因此需要高召回率。

总结：

关注模型识别实际正类的能力，适用于假负例代价高的场景。

In [6]:
## Recall
from sklearn import metrics

y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]

print('Recall:', metrics.recall_score(y_true, y_pred))

Recall: 0.5


### 4. F1 分数（F1-Score）

定义：F1 分数是精确率和召回率的调和平均数，综合了两者的性能。

数学公式：
$$
F1-Score = 2 * \frac{precision * recall}{precision + recall}
$$

作用：

- 当精确率和召回率之间需要平衡时，F1 分数是一个理想的指标。
- 特别适用于类别不平衡的数据集。
- F1 分数越高，表示模型在精确率和召回率之间取得了更好的平衡。

总结：

精确率和召回率的综合指标，适用于需要平衡两者的情况。

In [7]:
## F1-Score
from sklearn import metrics

y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]

print('F1-Score:', metrics.f1_score(y_true, y_pred))

F1-Score: 0.6666666666666666


### 5. ROC AUC Score

定义：

ROC AUC Score（Receiver Operating Characteristic Area Under the Curve）是衡量二分类模型性能的重要指标，它通过计算 ROC 曲线下的面积来评估模型在不同分类值下区分正类和负类的能力。

ROC AUC 的取值范围在 **0** 到 **1** 之间：

- **AUC = 1**：表示模型完美地区分正类和负类。
- **AUC = 0.5**：表示模型的预测能力等同于随机猜测。
- **AUC > 0.5**：表示模型具有一定的区分能力，值越大，性能越好。
- **AUC < 0.5**：表示模型的性能比随机猜测还差，可能需要重新训练或调整模型。

#### ROC 曲线（Receiver Operating Characteristic Curve）

ROC 曲线是一种图形化工具，用于展示模型在不同分类阔值下的性能。它通过绘制 **真正例率（TPR）** 与 **假正例率（FPR）** 之间的关系来直观展示模型的分类能力。

- **真正例率（TPR）**：也称为 **召回率（Recall）**，表示模型正确识别的正类样本占所有实际正类样本的比例。
$$
TPR = \frac{TP}{TP + FN}
$$

- **假正例率（FPR）**：也称为 **错误率（FPR）**，表示模型错误识别的正类样本占所有实际负类样本的比例。
$$
FPR = \frac{FP}{FP + TN}
$$

ROC 曲线的横轴是 FPR，纵轴是 TPR。理想情况下，模型的 ROC 曲线应该尽可能靠近左上角（即 TPR 高， FPR 低）。

#### ROC AUC Score 的作用

1. 评估模型的整体性能：
    - ROC AUC Score 提供了一个单一的数值，用于衡量模型在所有可能的分类阔值下的整体性能。
    - 它特别适用于类别不平衡的数据集，因为它不依赖于具体的分类阔值。
2. 比较不同模型的性能：
    - ROC AUC Score 可以用于比较不同模型的性能。AUC 值越高，表示模型的区分能力越强。
    - 例如，AUC 为 0.9 的模型比 AUC 为 0.7 的模型性能更好。
3. 选择最佳分类阔值：
    - ROC 曲线可以帮助找到最佳的分类阔值。通常，最接近左上角的点（即 TPR 高， FPR 低）被认为是最佳阔值。
4. 适用于多分类问题：
    - ROC AUC Score 也可以扩展到多分类问题，通过计算每对类别之间的 AUC 值并取平均。

#### ROC AUC Score 的计算方法：

ROC AUC Score 的计算基于 ROC 曲线下的面积，通常使用梯形法则（Trapezoidal Rule）来近似计算面积：

- 将 ROC 曲线划分为多个梯形区域。
- 计算每个提醒的面积。
- 将所有题型面积相加，得到 ROC AUC Score。

#### ROC AUC Score 的优缺点

优点：

1. **不依赖分类阔值**：ROC AUC Score 综合了所有可能的分类阔值下的性能，适用于需要动态调整阔值的场景。
2. **适用于类别不平衡数据**：即使正负类样本数据不均衡，ROC AUC Score 仍然能够提供可靠的评估结果。
3. **直观易懂**：ROC 曲线和 AUC Score 提供了直观的图形化展示和数值化评估。

缺点：

1. **无法反映具体分类错误的代价**：ROC AUC Score 无法区分假正例（FP）和假负例（FN）的具体代价，因此在某些特定场景下可能需要结合其他指标（如精确率、召回率）进行评估。
2. **对小样本敏感**：在小样本数据集上，ROC AUC Score 可能会收到噪声的影响，导致评估结果不稳定。

#### 实际应用场景

1. **医学诊断**：在疾病检测中，ROC AUC Score 可以评估模型区分患病和非患病样本的能力。
2. **金融风控**：在信用评价模型中，ROC AUC Score 可以评估模型区分高风险和低风险客户的性能。
3. **垃圾邮件检测**：在垃圾邮件分类中，ROC AUC Score 可以评估模型区分垃圾邮件和正常邮件的能力。

#### 总结

- **ROC AUC Score** 是一个综合评估二分类模型性能的指标，通过计算 ROC 曲线下的面积来衡量模型的区分能力。
- **ROC 曲线** 展示了模型在不同分类阔值下的性能，横轴是 FPR，纵轴是 TPR。
- **ROC AUC Score 的取值范围** 是 **0** 到 **1**，值越大，模型性能越好。
- **ROC AUC Score 的优点** 包括不依赖分类阔值、适用于类别不平衡数据、直观易懂。
- **实际应用场景** 包括医学诊断、金融风控、垃圾邮件检测等。

In [8]:
## AUC
import numpy as np
from sklearn.metrics import roc_auc_score

y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])

print('AUC Score:', roc_auc_score(y_true, y_scores))

AUC Score: 0.75


## 回归指标评价计算示例

In [9]:
# coding=utf-8
import numpy as np
from sklearn import metrics

# MAPE 需要自己实现
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred - y_true) / y_true))

y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])

# MSE
print('MSE:', metrics.mean_squared_error(y_true, y_pred))
# RMSE
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_true, y_pred)))
# MAE
print('MAE:', metrics.mean_absolute_error(y_true, y_pred))
# MAPE
print('MAPE:', mape(y_true, y_pred))

MSE: 0.2871428571428571
RMSE: 0.5358571238146014
MAE: 0.4142857142857143
MAPE: 0.1461904761904762


# 四、经验总结

作为切入一道赛题的基础，赛题理解是极其重要的。对于赛题的理解甚至会影响后续的 **特征工程** 以及 **模型的选择**，**最主要是会影响后续工作的发展方向**。比如，挖掘特征的方向，存在问题、解决问题的方向，对了解赛题背后的思想，以及厘清赛题业务逻辑。也有利于花费更少的时间去构建更为有效的特征模型，包括赛题理解要达到什么地步，**把一道赛题转化为一种宏观理解的解决思路**。以下将从多方面对于此进行说明：
1. **赛题理解究竟是理解什么**：理解赛题是不是把一道赛题的背景介绍读一遍就 OK 了呢？并不是的，理解赛题其实也是从直观上树立问题，分析问题是否可行的方法，可行性如何，赛题的价值大不大。厘清一道赛题要从 **赛题背景** 引发的 **赛题任务** 理解其中的任务逻辑。理清可能对于赛题 **有意义的外在数据** 有哪些，并对赛题数据有一个初步了解。知道现在和任务的 **相关数据** 有哪些，其中数据之间的 **关联逻辑** 是什么样的。对于不同的问题，在处理方式上的差异是很大的。如果用简短的话来说，从比赛的角度或者工程化的角度，该赛题符合的问题是 **哪类问题**，大概要去用 **哪些指标**，哪些指标是否会做到线上线下的一致性，是否有利于我们进一步探索更高线上分数的线下验证方法。在业务上，你是否对很多原始特征有很深刻的了解，并且可以通过 EDA 来寻找他们直接的关系，最后构造出满意的特征。
2. **有了赛题理解后能做什么**：在对于赛题有一定了解后（分析清楚问题的类型性质和对于数据有基本理解），是不是赛题理解就做完了呢？并不是的。就像摸清了敌情后，我们至少就要一些相应的分析战况。比如，这题的难点可能在哪里？关键点可能在哪里？哪些地方可以挖掘更好的特征？用什么样的线下验证方式更为稳定？出现了过拟合或其他问题，估摸可以用什么方法去解决这些问题？哪些数据是可靠的？哪些数据是需要精密的处理的？哪些部分数据应该是关键数据？这时是在一个宏观的大体下分析的，有助于摸清整个题的思路脉络，以及后续的分析方向。
3. **赛题理解后的评价指标**：为什么要把这部分单独拿出来呢？因为这部分会设计后续模型预测中两个很重要的问题：
    1. **本地模型的验证方式**：很多情况下，线上验证是有一定的时间和次数限制的，所以在比赛中构建一个合理的本地验证集和验证评价指标是很关键的步骤，能有效的节省很多时间。
    2. **不同的指标对于同样的预测结果是具有误差敏感的差异性的**：比如 AUC，logloss，MAE，RSME，或者一些特定的评价函数。是会有很大可能影响到后续一些预测的侧重点。
4. **赛题背景中可能潜在隐藏的条件**：其实赛题中有些说明是很有用的。可以在后续答辩中以及问题思考中所体现出来的，比如高效性要求，比如对于数据异常的识别处理，比如工序流程的差异性，比如模型运行的时间，比如模型的鲁棒性，等等。有些意识是可以贯穿问题思考、特征、模型以及后续处理的，也有些会对于特征构建或者选择模型上大有裨益。反过来，如果在模型预测效果不好，这时候需要考虑是不是赛题背景哪方面没有理清楚或者有问题没有考虑到。