# Comprehensive Guide on Feature Selection

参考学习链接：https://www.kaggle.com/code/prashant111/comprehensive-guide-on-feature-selection/notebook

## 1.删除恒定特征 Remove constant/quasi-constant features
使用sklearn的VarianceThreshold函数<br>
sklearn.feature_selection.VarianceThreshold(threshold=0.0) #默认方差为0，remove the features that have the same value in all samples.<br>
threshold 可以自行设定 从而达到筛选的目的<br>
https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html <br>
**代码示列如下:**

In [3]:
from sklearn.feature_selection import VarianceThreshold
X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
print(X)
selector = VarianceThreshold(threshold=0)
selector.fit_transform(X)

[[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]


array([[2, 0],
       [1, 4],
       [1, 1]])

## 2. 按照百分比筛选 SelectPercentile
sklearn.feature_selection.SelectPercentile(f_classif, percentile=10)<br>
https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectPercentile.html<br>

For regression tasks: f_regression, mutual_info_regression<br>
For classification tasks: chi2, f_classif, mutual_info_classif<br>
**代码示例如下:**

In [7]:
from sklearn.datasets import load_digits
from sklearn.feature_selection import SelectPercentile, chi2
X, y = load_digits(return_X_y=True)
X.shape

(1797, 64)

In [8]:
X_new = SelectPercentile(chi2, percentile=10).fit_transform(X, y)
X_new.shape

(1797, 7)

| 函数 | 适用任务 | 适用特征 | 适用目标变量 | 衡量标准 | 选择依据 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| `f_regression` | 回归 | 数值型 | 数值型 | F-test (F检验) | 衡量**两个数值型变量之间的线性关系**。如果你的特征和目标变量是线性的，这是一个非常好的选择。 |
| `mutual_info_regression` | 回归 | **数值型或类别型** | 数值型 | 互信息 (Mutual Information) | 衡量两个变量之间的**非线性关系**。它能捕捉任何类型的关系，包括非线性的。如果你的特征和目标变量是非线性的，或者特征是类别型，这是更好的选择。 |
| `chi2` | 分类 | **非负的数值型或类别型** | 类别型 | 卡方检验 (Chi-squared test) | 衡量**两个类别型变量**之间的独立性。它计算观察到的频率与期望的频率之间的差异。如果你的特征是类别型，并且你希望衡量它与目标类别的关系，就选择它。**注意：** 特征值必须是非负数。 |
| `f_classif` | 分类 | 数值型 | 类别型 | ANOVA F-test (方差分析) | 衡量**一个数值型特征与多个类别**之间的差异。它测试不同类别中特征的平均值是否显著不同。如果你的特征是数值型，目标变量是类别型，这是一个很好的默认选择。 |
| `mutual_info_classif` | 分类 | **数值型或类别型** | 类别型 | 互信息 (Mutual Information) | 衡量**两个变量之间的任何关系**（线性或非线性）。它是 `mutual_info_regression` 的分类版本。如果你不确定特征与目标变量的关系是线性的还是非线性的，这是最稳妥的选择。 |

## 3. SelectKBest:Select features according to the k highest scores
sklearn.feature_selection.SelectKBest(chi2, k=10)<br>
https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html <br>

For regression tasks: f_regression, mutual_info_regression<br>
For classification tasks: chi2, f_classif, mutual_info_classif<br>
**代码示例如下:**

In [9]:
from sklearn.datasets import load_digits
from sklearn.feature_selection import SelectKBest, chi2
X, y = load_digits(return_X_y=True)
X.shape

(1797, 64)

In [10]:
X_new = SelectKBest(chi2, k=20).fit_transform(X, y)
X_new.shape

(1797, 20)

| 函数 | 适用任务 | 适用特征 | 适用目标变量 | 衡量标准 | 选择依据 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| `f_regression` | 回归 | 数值型 | 数值型 | F-test (F检验) | 衡量**两个数值型变量之间的线性关系**。如果你的特征和目标变量是线性的，这是一个非常好的选择。 |
| `mutual_info_regression` | 回归 | **数值型或类别型** | 数值型 | 互信息 (Mutual Information) | 衡量两个变量之间的**非线性关系**。它能捕捉任何类型的关系，包括非线性的。如果你的特征和目标变量是非线性的，或者特征是类别型，这是更好的选择。 |
| `chi2` | 分类 | **非负的数值型或类别型** | 类别型 | 卡方检验 (Chi-squared test) | 衡量**两个类别型变量**之间的独立性。它计算观察到的频率与期望的频率之间的差异。如果你的特征是类别型，并且你希望衡量它与目标类别的关系，就选择它。**注意：** 特征值必须是非负数。 |
| `f_classif` | 分类 | 数值型 | 类别型 | ANOVA F-test (方差分析) | 衡量**一个数值型特征与多个类别**之间的差异。它测试不同类别中特征的平均值是否显著不同。如果你的特征是数值型，目标变量是类别型，这是一个很好的默认选择。 |
| `mutual_info_classif` | 分类 | **数值型或类别型** | 类别型 | 互信息 (Mutual Information) | 衡量**两个变量之间的任何关系**（线性或非线性）。它是 `mutual_info_regression` 的分类版本。如果你不确定特征与目标变量的关系是线性的还是非线性的，这是最稳妥的选择。 |