**1. 赛题概况**
- 根据给定的数据集，建立模型，二手汽车的交易价格。
**2. 数据概况**
- 了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征，就是未告知数据列所属的性质的特征列。

train.csv

- name - 汽车编码
- regDate - 汽车注册时间
- model - 车型编码
- brand - 品牌
- bodyType - 车身类型
- fuelType - 燃油类型
- gearbox - 变速箱
- power - 汽车功率
- kilometer - 汽车行驶公里
- notRepairedDamage - 汽车有尚未修复的损坏
- regionCode - 看车地区编码
- seller - 销售方
- offerType - 报价类型
- creatDate - 广告发布时间
- price - 汽车价格
- v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14'（
根据汽车的评论、标签等大量信息得到的embedding向量）【人工构造 匿名特征】

**3. 预测指标**
- 评价标准为MAE(Mean Absolute Error)

$$ MAE=\frac{\sum_{i=1}^{n}\left|y_{i}-\hat{y}{i}\right|}{n} $$
(其中$y{i}$代表第$i$个样本的真实值，其中$\hat{y}_{i}$代表第$i$个样本的预测值。)

### 一、分类算法常见的评估指标如下：
- 对于二类分类器/分类算法，评价指标主要有accuracy， [Precision，Recall，F-score，Pr曲线]，ROC-AUC曲线。
- 对于多类分类器/分类算法，评价指标主要有accuracy， [宏平均和微平均，F-score]。

### 二、对于回归预测类常见的评估指标如下:
- 平均绝对误差（Mean Absolute Error，MAE），均方误差（Mean Squared Error，MSE），
- 平均绝对百分误差（Mean Absolute Percentage Error，MAPE），
- 均方根误差（Root Mean Squared Error）， R2（R-Square）

##### 1. 平均绝对误差（Mean Absolute Error，MAE）
$$ MAE=\frac{1}{N} \sum_{i=1}^{N}\left|y_{i}-\hat{y}_{i}\right| $$

##### 2. 均方误差（Mean Squared Error，MSE）
$$ MSE=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\hat{y}_{i}\right)^{2} $$

##### 3. R2（R-Square）
a) 残差平方和: $$ SS_{res}=\sum\left(y_{i}-\hat{y}{i}\right)^{2} $$

b) 总平均值: $$ SS{tot}=\sum\left(y_{i}-\overline{y}_{i}\right)^{2} $$


其中$\overline{y}$表示$y$的平均值 得到$R^2$表达式为：
$$ R^{2}=1-\frac{SS_{res}}{SS_{tot}}=1-\frac{\sum\left(y_{i}-\hat{y}{i}\right)^{2}}{\sum\left(y{i}-\overline{y}\right)^{2}} $$
$R^2$用于度量因变量的变异中可由自变量解释部分所占的比例，取值范围是 0~1，$R^2$越接近1,表明回归平方和占总平方和的比例越大,
回归线与各观测点越接近，用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。所以$R^2$也称为拟合优度（Goodness of Fit）的统计量

$y_{i}$表示真实值，$\hat{y}{i}$表示预测值，$\overline{y}{i}$表示样本均值。得分越高拟合效果越好。

**4. 分析赛题**
    1. 此题为传统的数据挖掘问题，通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
    2. 此题是一个典型的回归问题。
    3. 主要应用xgb、lgb、catboost，以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。
    4. 通过EDA来挖掘数据的联系和自我熟悉数据。

**5. 代码示例**
- 5.1 pandas读取数据

In [10]:
import pandas as pd
import numpy as np
train_data = pd.read_csv('./data/train.csv', sep=' ')
test_data = pd.read_csv('./data/test.csv', sep=' ')
print('train data shape:',train_data.shape)
print('test data shape:',test_data.shape)

train_data.head()

FileNotFoundError: [Errno 2] File b'./data/train.csv' does not exist: b'./data/train.csv'

- 5.2 分类指标评价计算示例

In [11]:
# acc
from sklearn.metrics import accuracy_score
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 1]
print('ACC: ', accuracy_score(y_true, y_pred))

# Precision,Recall,F1-score
from sklearn.metrics import precision_score, recall_score, f1_score
print('Precision score: ', precision_score(y_true, y_pred))
print('Recall score: ', recall_score(y_true, y_pred))
print('F1 score: ', f1_score(y_true, y_pred))

# auc
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC score: ', roc_auc_score(y_true, y_scores))

ACC:  0.75
Precision score:  1.0
Recall score:  0.6666666666666666
F1 score:  0.8
AUC score:  0.75


-5.3 回归指标评价计算示例


In [12]:
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])
# MSE
print('MSE: ', mean_squared_error(y_true, y_pred))
# MAE
print('MAE: ', mean_absolute_error(y_true, y_pred))
# RMSE
print('RMSE: ', np.sqrt(mean_squared_error(y_true, y_pred)))
# MAPE
def mape(y_true, y_pred):
    return np.mean(np.abs((y_true - y_pred) / y_true))

print('MAPE: ', map(y_true, y_pred))

MSE:  0.2871428571428571
MAE:  0.4142857142857143
RMSE:  0.5358571238146014
MAPE:  <map object at 0x000001B8D296F148>
