## Feature selection

特征选择指的是从一大组特征中选出最优的一组特征。特征选择有很多优点，并且也有很多方法可以做到这一点。

### Intro

特征选择或变量选择是指从数据集中的总特征中选择相关特征或变量子集，以构建机器学习算法的过程。

其优点在于：

    - 提高准确率
    - 简单的模型易于解释
    - 更短的训练时间
    - 通过降低过拟合提高泛化能力
    - 易实现
    - 在模型使用中减少数据错误的风险（无关或嘈杂的特征可能会引入模型预测的错误）
    - 处理冗余变量（消除贡献不大特征，避免不必要的计算）
    - 避免在高维空间中出现不良学习行为（在高维空间中，特征数量较大，模型可能受到维度灾难的影响。特征选择有助于专注于最有信息的特征，防止不良学习行为，提高了模型的整体性能。）

方法：
    特征选择的技术主要分为三类：过滤方法（filter methods），包装方法（wrapper methods）和嵌入方法（embedded methods）：

    1. 过滤方法 filter methods
        - 基本方法      basic methods
        - 单变量方法    univariate methods
        - 信息增益      information gain
        - Fischer score（F统计量）
        - 相关矩阵热力图 correlation matrix with heatmap
    
    2. 包装方法 wrapper method
        - 前向选择      forward selection
        - 后向选择      backward elimination
        - 穷举特征选择  exhaustive feature selection
        - 递归特征消除  recursive feature elimination
        - 带交叉验证的递归特征消除 recursive feature elimination with CV
    
    3. 嵌入方法 embedded methods
        - Lasso
        - Ridge
        - 树重要性 tree importance

In [None]:
'''

Attribute Information: (classes: edible=e, poisonous=p)
属性信息：（类别：可食用=e，有毒=p）

cap-shape（菌盖形状）: 
bell（钟形）=b, conical（圆锥形）=c, convex（凸形）=x, flat（平坦）=f, knobbed（带有小球状突起）=k, sunken（凹陷）=s

cap-surface（菌盖表面）: 
fibrous（纤维状）=f, grooves（有沟槽）=g, scaly（鳞状）=y, smooth（光滑）=s

cap-color（菌盖颜色）: 
brown（棕色）=n, buff（浅黄色）=b, cinnamon（肉桂色）=c, gray（灰色）=g, green（绿色）=r, pink（粉色）=p, purple（紫色）=u, red（红色）=e, white（白色）=w, yellow（黄色）=y

bruises（瘀伤）: 
bruises（有瘀伤）=t, no（没有瘀伤）=f

odor（气味）: 
almond（杏仁味）=a, anise（茴香味）=l, creosote（煤焦油味）=c, fishy（鱼腥味）=y, foul（难闻的）=f, musty（霉味）=m, none（没有气味）=n, pungent（刺激性味道）=p, spicy（辛辣味）=s

gill-attachment（褶附着）: 
attached（附着）=a, descending（下垂）=d, free（自由）=f, notched（缺口）=n

gill-spacing（褶间距）: 
close（紧密）=c, crowded（拥挤）=w, distant（远离）=d

gill-size（褶大小）: 
broad（宽阔）=b, narrow（狭窄）=n

gill-color（褶颜色）: 
black（黑色）=k, brown（棕色）=n, buff（浅黄色）=b, chocolate（巧克力色）=h, gray（灰色）=g, green（绿色）=r, orange（橙色）=o, pink（粉色）=p, purple（紫色）=u, red（红色）=e, white（白色）=w, yellow（黄色）=y

stalk-shape（柄形状）: 
enlarging（扩大）=e, tapering（变细）=t

stalk-root（柄根）: 
bulbous（球根）=b, club（短而厚）=c, cup（杯状）=u, equal（相等）=e, rhizomorphs（根状体）=z, rooted（有根）=r, missing（缺失）=?

stalk-surface-above-ring（环上柄表面）: 
fibrous（纤维状）=f, scaly（鳞状）=y, silky（丝状）=k, smooth（光滑）=s

stalk-surface-below-ring（环下柄表面）: 
fibrous（纤维状）=f, scaly（鳞状）=y, silky（丝状）=k, smooth（光滑）=s

stalk-color-above-ring（环上柄颜色）: 
brown（棕色）=n, buff（浅黄色）=b, cinnamon（肉桂色）=c, gray（灰色）=g, orange（橙色）=o, pink（粉色）=p, red（红色）=e, white（白色）=w, yellow（黄色）=y

stalk-color-below-ring（环下柄颜色）: 
brown（棕色）=n, buff（浅黄色）=b, cinnamon（肉桂色）=c, gray（灰色）=g, orange（橙色）=o, pink（粉色）=p, red（红色）=e, white（白色）=w, yellow（黄色）=y

veil-type（蒙皮类型）: 
partial（部分）=p, universal（整体）=u

veil-color（蒙皮颜色）: 
brown（棕色）=n, orange（橙色）=o, white（白色）=w, yellow（黄色）=y

ring-number（环数量）: 
none（没有）=n, one（一个）=o, two（两个）=t

ring-type（环类型）: 
cobwebby（网状）=c, evanescent（瞬间消失的）=e, flaring（张开的）=f, large（大型）=l, none（没有）=n, pendant（垂下的）=p, sheathing（包覆的）=s, zone（带状）=z

spore-print-color（孢子印颜色）: 
black（黑色）=k, brown（棕色）=n, buff（浅黄色）=b, chocolate（巧克力色）=h, green（绿色）=r, orange（橙色）=o, purple（紫色）=u, white（白色）=w, yellow（黄色）=y

population（种群）: 
abundant（丰富）=a, clustered（聚集）=c, numerous（众多）=n, scattered（分散）=s, several（几个）=v, solitary（孤独）=y

habitat（生长环境）: 
grasses（草地）=g, leaves（叶子）=l, meadows（草地）=m, paths（小路）

'''

## 1.1 基本方法 Basic Methods

去除常量和准常量特征 

remove constant and quasi-constant features