In [9]:
import numpy as np
import warnings

from sklearn.feature_selection import VarianceThreshold,SelectKBest
from sklearn.feature_selection import f_regression
from sklearn.feature_selection import chi2
from sklearn.feature_selection import RFE
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression


In [10]:
X = np.array([
    [0, 2, 0, 3],
    [0, 1, 4, 3],
    [0.1, 1, 1, 3],
    [1, 2, 3, 1],
    [2, 3, 4, 3]
], dtype=np.float32)
Y = np.array([1,2,1,2,1])

## 方差选择法

In [11]:
# 基于方差选择最优的特征属性
#方差小于阈值的列被删除
variance = VarianceThreshold(threshold=0.6)
print(variance)
variance.fit(X)
print("各个特征属性的方差为:")
print(variance.variances_)
print('-----------------')
print(variance.transform(X))

VarianceThreshold(threshold=0.6)
各个特征属性的方差为:
[0.6176 0.56   2.64   0.64  ]
-----------------
[[0.  0.  3. ]
 [0.  4.  3. ]
 [0.1 1.  3. ]
 [1.  3.  1. ]
 [2.  4.  3. ]]


# SelectKBest
SelectKBest是scikit-learn库中的一个特征选择函数，用于从数据集中选择k个最佳特征。它可以根据给定的评价函数和得分，来选择和排名特征。

SelectKBest可以用于以下两种情况：

- 想要减少数据集的维度，仅使用最重要的特征。

- 想要获得每个特征的重要程度排名，以便进一步分析。

## 相关系数法

- F值：指特征和目标变量之间的关系是否显著，是一个统计指标。F值越大，表示特征和目标变量之间的相关性越强。
- 相关系数：指特征和目标变量之间的线性关系的强度和方向，可以是正相关、负相关或无关。相关系数的取值范围为[-1,1]，绝对值越大，表示相关性越强，符号表示相关性的方向。

F值和相关系数是两个不同的指标，F值反映特征和目标变量之间的关系是否显著，相关系数反映特征和目标变量之间的线性关系的强度和方向。在特征选择中，通常使用F值作为评价函数，选择与目标变量相关性较强的特征，或者使用相关系数作为评价指标，评价每个特征与目标变量之间的关系。

In [12]:
#相关系数最大的k列被保留
sk1 = SelectKBest(f_regression, k=2) #评分函数是 f_regression，这个函数使用 F 检验来计算特征的相关性。
sk1.fit(X,Y)
print(sk1)
print('------------')
print(sk1.scores_)
print('------------')
print(sk1.transform(X))

SelectKBest(k=2, score_func=<function f_regression at 0x000001C7D78745E0>)
------------
[0.04736842 0.36       1.32       1.8       ]
------------
[[0. 3.]
 [4. 3.]
 [1. 3.]
 [3. 1.]
 [4. 3.]]


## 卡方检验

卡方检验用于度量特征和目标变量之间的关联性，可以应用于离散特征的选择。

In [13]:
# 使用chi2的时候要求特征属性的取值为非负数
sk2 = SelectKBest(chi2, k=2)
sk2.fit(X, Y)
print(sk2)
print(sk2.scores_)
print(sk2.transform(X))

SelectKBest(k=2, score_func=<function chi2 at 0x000001C7D78744C0>)
[0.07741936 0.16666667 1.68055556 0.46153846]
[[0. 3.]
 [4. 3.]
 [1. 3.]
 [3. 1.]
 [4. 3.]]


## LDA降维

In [7]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
X = np.array([
    [-1, -1, 3, 1], 
    [-2, -1, 2, 4], 
    [-3, -2, 4, 5], 
    [1, 1, 5, 4], 
    [2, 1, 6, -5], 
    [3, 2, 1, 5]])
y = np.array([1, 1, 2, 2, 0, 1])
# n_components：给定降低到多少维度，不能大于min(n_features,n_class-1)
clf = LinearDiscriminantAnalysis(n_components=2)
clf.fit(X, y)
print(clf.transform(X))

[[-3.2688434  -0.38911349]
 [-1.25507558 -1.78088569]
 [ 5.26064254 -0.49688862]
 [ 6.34385833  1.16134391]
 [-4.05800618  3.58297801]
 [-3.02257571 -2.07743411]]


## PCA降维

In [6]:
import numpy as np
from sklearn.decomposition import PCA
X2 = np.array([
    [ 5.1,  3.5,  1.4,  0.2, 1, 23],
    [ 4.9,  3. ,  1.4,  0.2, 2.3, 2.1],
    [ -6.2,  0.4,  5.4,  2.3, 2, 23],
    [ -5.9,  0. ,  5.1,  1.8, 2, 3]
], dtype=np.float64)
# n_components: 给定降低到多少维度
#               小于1时，表示保留的维度的重要性的占比，比如0.9表示占比为90%
#               大于1时，表示保留的维度，但是该值必须小于等于min(样本数目,特征数目)
# whiten：是否做一个白化的操作，在PCA的基础上，对于特征属性是否做一个标准化
pca = PCA(n_components=3,whiten=True)
pca.fit(X2)
print(pca.mean_)
print(pca.components_)
print(pca.transform(X2))

[-0.525  1.725  3.325  1.125  1.825 12.775]
[[ 0.02038178 -0.01698103 -0.01350052 -0.0149724   0.03184796 -0.99893718]
 [ 0.9024592   0.25030511 -0.31422084 -0.15092666 -0.03185873  0.01965141]
 [-0.08872116 -0.06952185 -0.06858116 -0.3074396  -0.94204108 -0.02512755]]
[[-0.85553344  0.91881223  0.82088162]
 [ 0.91401291  0.81156973 -0.86944521]
 [-0.87509227 -0.86146306 -0.86144931]
 [ 0.8166128  -0.8689189   0.9100129 ]]
