# 1 特征工程概述

特征工程(feature engineering)是将原始数据转换为更能代表预测模型的潜在问题的特征的过程。

## 1.1 特征工程的三个步骤

**特征提取**：从文字、图形、声音等其他非结构化数据中提取信息作为新的特征。
        
        比如从淘宝商品的名称中提取出产品类别，颜色，是否网红产品等

**特征创造**：把现有特征进行组合或计算，得到新的特征。
        
        比如有一个特征速度v，和一个特征距离s，可以通过s/v运算创造一个新的特征时间t

**特征选择**：从所有特征中选择出有意义的，对模型有用的，避免必须将所有特征导入模型的情况

# 2 方差过滤法

通过特征本身的方差来筛选特征，**一个特征的方差越小**，表明，该特征的变化越不明显，变化越不明显的特征**对我们区分标签没有太大的作用**，所以应该消除这些特征。

## 2.1 方差过滤函数VarianceThreshold

| 类别 | 	元素	| 解释 |
| :------ | :------ | :------ |
| 参数	| threshold(float, default = 0)	| 唯一的参数，是VarianceThreshold进行过滤的标准，当被导入特征的方差小于threshold值时，该特征将会被过滤。| 
| 属性	| variances_（array, shape(n_feayures,)）	| 每个被导入特征的方差值。
| 属性	| n_features_in_(int)	| 模型拟合时用到的特征数量。| 
| 属性	| feature_names_in_（ndarray of shape(n_features_in_)）	| 在拟合过程中被使用特征的名称。只有在x特征名完全由字符串组成时才会被生成。|

In [6]:
import pandas as pd
from sklearn.feature_selection import VarianceThreshold

In [7]:
# 导入手写数据集
data = pd.read_csv(r"./file/train.csv")
data.head()

Unnamed: 0,label,pixel0,pixel1,pixel2,pixel3,pixel4,pixel5,pixel6,pixel7,pixel8,...,pixel774,pixel775,pixel776,pixel777,pixel778,pixel779,pixel780,pixel781,pixel782,pixel783
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [8]:
selector = VarianceThreshold()
data_var0 = selector.fit_transform(data)
data_var0.shape

(42000, 709)

In [9]:
data.shape

(42000, 785)

In [10]:
selector.feature_names_in_     # 查看模型拟合时导入的特征名称
selector.get_feature_names_out()     # 查看被留下特征的字符名称
selector.variances_    # 每个特征对应的方差值

array([8.33878682e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       0.00000000e+00, 3.22752905e-01, 2.64682715e+00, 1.11083069e+00,
       1.92852551e-03, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       0.00000000e+00, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
       0.00000000e+00, 6.09509297e-03, 5.41173328e-02, 1.28062684e+00,
       5.33780441e+00, 9.74569442e+00, 1.06216618e+01, 2.49284017e+01,
       3.37663254e+01, 3.59417102e+01, 3.49301258e+01, 3.62934701e+01,
       3.27903272e+01, 3.04230428e+01, 2.95540780e+01, 2.00563623e+01,
       1.19542813e+01, 8.60399238e+00, 2.55459603e+00, 1.60527020e+00,
       9.29355474e-01, 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,
      

可以看见，我们已经删除了方差为0的特征，但是依然剩下了708多个特征，明显还需要进一步的特征选择。然而，如果我们知道需要多少个特征，方差也可以帮助我们将特征选择一步到位。比如说，我们希望留下一半的特征，那可以设定一个让特征总数减半的方差阈值，只要找到特征方差的中位数，再将这个中位数作为参数threshold的值输入就好了。

#### 过滤方差为中位数的特征

In [11]:
import numpy as np
data_fsvar = VarianceThreshold(np.median(data.var().values)).fit_transform(data)
data_fsvar.shape

(42000, 392)

当特征是二分类时，特征的取值就是伯努利随机变量，这些变量的方差可以计算为:

$$
Var[X] = p(1 - p)
$$

其中$X$是特征矩阵，$p$是二分类特征中的一类在这个特征中所占的概率。

In [12]:
# 若特征是伯努利随机变量，假设p=0.8，即二分类特征中某种分类占到80%以上的时候删除特征
data_bvar = VarianceThreshold(0.8*(1-0.8)).fit_transform(data)
data_bvar.shape

(42000, 686)

## 2.2 方差过滤对模型的影响

通过KNN和随机森林分别在方差过滤前和方差过滤后运行的效果和运行时间的对比，来观察方差过滤对模型的影响。

    KNN是K近邻算法中的分类算法，其原理非常简单，是利用每个样本到其他样本点的距离来判断每个样本点的相似度，然后对样本进行分类。KNN必须遍历每个特征和每个样本，因而特征越多，KNN的计算也就会越缓慢。

In [20]:
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.model_selection import cross_val_score

In [14]:
X = data.iloc[:, 1:]
y = data.iloc[:, 0]

#只留下一半的特征，找到特征方差的中位数，再将这个中位数作为参数threshold的值输入就可以达到目的
X_fsvar = VarianceThreshold(np.median(X.var().values)).fit_transform(X)

#### KNN方差过滤前

In [15]:
cross_val_score(KNN(),X,y,cv=5).mean()

0.965857142857143

In [16]:
%%timeit   # 测量一行代码，多次执行后的平均时间
cross_val_score(KNN(),X,y,cv=5).mean()

57.8 s ± 2.1 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### KNN方差过滤后

In [17]:
cross_val_score(KNN(),X_fsvar,y,cv=5).mean()

0.966

In [18]:
%%timeit   
cross_val_score(KNN(),X_fsvar,y,cv=5).mean()

38.5 s ± 1.74 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


可以看出，对于KNN，过滤后的效果十分明显：准确率稍有提升，但平均运行时间减少了10分钟，特征选择过后算法的效率上升了1/3。

#### 随机森林方差过滤前

In [21]:
cross_val_score(RFC(n_estimators=10,random_state=0),X,y,cv=5).mean()

0.9373571428571429

In [22]:
%%timeit  
cross_val_score(RFC(n_estimators=10,random_state=0),X,y,cv=5).mean()

13.7 s ± 706 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### 随机森林方差过滤后

In [23]:
cross_val_score(RFC(n_estimators=10,random_state=0),X_fsvar,y,cv=5).mean()

0.9390476190476191

In [24]:
%%timeit  
cross_val_score(RFC(n_estimators=10,random_state=0),X_fsvar,y,cv=5).mean()

12 s ± 283 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


首先可以观察到的是，随机森林的准确率略逊于KNN，但运行时间却连KNN的1%都不到，只需要十几秒钟。其次，方差过滤后，随机森林的准确率也微弱上升，但运行时间却几乎是没什么变化，依然是11秒钟。

## 2.3 为什么随机森林运行如此之快？为什么方差过滤对随机森林没很大的有影响?

- 最近邻算法KNN，单棵决策树，支持向量机SVM，神经网络，回归算法，都需要遍历特征或升维来进行运算，所以他们本身的运算量就很大，需要的时间就很长，因此方差过滤这样的特征选择对他们来说就尤为重要。


- 对于不需要遍历特征的算法，比如随机森林，它随机选取特征进行分枝，本身运算就非常快速，因此特征选择对它来说效果平平。

**无论过滤法如何降低特征的数量，随机森林也只会选取固定数量的特征来建模；而最近邻算法就不同了，特征越少，距离计算的维度就越少，模型明显会随着特征的减少变得轻量。**

- 过滤法的主要对象是：需要遍历特征或升维的算法们
- 过滤法的主要目的是：在维持算法表现的前提下，帮助算法们降低计算成本。

#### 过滤法对随机森林无效，却对树模型有效？

从算法原理上来说，**传统决策树需要遍历所有特征**，计算不纯度后进行分枝，**而随机森林却是随机选择特征进行计算和分枝**，因此随机森林的运算更快，**过滤法对随机森林无用，对决策树却有用。**

**在sklearn中，决策树和随机森林都是随机选择特征进行分枝**，但**决策树在建模过程中随机抽取的特征数目却远远超过随机森林当中每棵树随机抽取的特征数目**（比如说对于这个780维的数据，随机森林每棵树只会抽取10-20个特征，而决策树可能会抽取300~400个特征），因此，**过滤法对随机森林无用，却对决策树有用。**

也因此，在sklearn中，随机森林中的每棵树都比单独的一棵决策树简单得多，**高维数据下的随机森林的计算比决策树快很多。**

对受影响的算法来说，可以将方差过滤的影响总结如下：

| | 阈值很小<br>被过滤掉的特征比较少 | 阈值比较大<br>被过滤掉的特征有很多 |
| :------: | :------: | :------: |
| 模型表现 | 不会有很大影响 | 可能变得更好，代表被过滤掉的特征大部分是噪音<br>也可能变糟糕，代表被过滤掉的特征中很多都是有效特征 |
| 运行时间 | 可能降低模型的运行时间<br>基于方差很小的特征有多少<br>当方差很小的特征不多时，对模型没有太大影响 | 可能变得更好，代表被过滤掉的特征大部分是噪音<br>也可能变糟糕，代表被过滤掉的特征中很多都是有效特征 | 一定能够降低模型的运行时间<br>算法在遍历特征时的计算越复杂，运行时间下降得越多 |


**如果在使用方差过滤掉特征之后，模型精准度上升了，这说明被过滤掉的特征在当前的随机模式(random_state = 0)下大部分是噪音。**

**如果过滤之后模型的效果反而变差了，被过滤掉的特征中有很多都有有效特征，那我们就放弃过滤，使用其他手段来进行特征选择。**

对于随机森林还可以进行调整n_estimators参数来提高模型的准确率，随机森林是一个非常强大的模型

## 2.4 选取超参数threshold

我们怎样知道，方差过滤掉的到底时噪音还是有效特征呢？过滤后模型到底会变好还是会变坏呢？

每个数据集不一样，只能自己去尝试。

可以画学习曲线，找模型效果最好的点。但现实中，我们往往不会这样去做，因为这样会耗费大量的时间。

**通常只会使用阈值为0或者阈值很小的方差过滤，来为我们优先消除一些明显用不到的特征，然后我们会选择更优的特征选择方法继续削减特征数量。**