In [1]:
import numpy as np
import warnings

from sklearn.feature_selection import VarianceThreshold,SelectKBest
from sklearn.feature_selection import f_regression
from sklearn.feature_selection import chi2
from sklearn.feature_selection import RFE
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression

np.set_printoptions(suppress=True)

In [None]:
X = np.array([
    [0, 2, 0, 3],
    [0, 1, 4, 3],
    [0.1, 1, 1, 3],
    [1, 2, 3, 1],
    [2, 3, 4, 3]
], dtype=np.float32)
Y = np.array([1,2,1,2,1])

## 方差选择法

In [None]:
# 基于方差选择最优的特征属性
#方差小于阈值的列被删除
variance = VarianceThreshold(threshold=0.6)
variance.fit(X)
print("各个特征属性的方差为:")
print(variance.variances_)
print('-----------------')
print(variance.transform(X))

# SelectKBest
SelectKBest是scikit-learn库中的一个特征选择函数，用于从数据集中选择k个最佳特征。它可以根据给定的评价函数和得分，来选择和排名特征。

SelectKBest可以用于以下两种情况：

- 想要减少数据集的维度，仅使用最重要的特征。

- 想要获得每个特征的重要程度排名，以便进一步分析。

## 相关系数法

- F值：指特征和目标变量之间的关系是否显著，是一个统计指标。F值越大，表示特征和目标变量之间的相关性越强。
- 相关系数：指特征和目标变量之间的线性关系的强度和方向，可以是正相关、负相关或无关。相关系数的取值范围为[-1,1]，绝对值越大，表示相关性越强，符号表示相关性的方向。

F值和相关系数是两个不同的指标，F值反映特征和目标变量之间的关系是否显著，相关系数反映特征和目标变量之间的线性关系的强度和方向。在特征选择中，通常使用F值作为评价函数，选择与目标变量相关性较强的特征，或者使用相关系数作为评价指标，评价每个特征与目标变量之间的关系。

In [None]:
#相关系数最大的k列被保留
sk1 = SelectKBest(f_regression, k=2) #评分函数是 f_regression，这个函数使用 F 检验来计算特征的相关性。
sk1.fit(X,Y)
print(sk1)
print('------------')
print(sk1.scores_)
print('------------')
print(sk1.transform(X))

## 卡方检验

卡方检验用于度量特征和目标变量之间的关联性，可以应用于离散特征的选择。

In [None]:
# 使用chi2的时候要求特征属性的取值为非负数
sk2 = SelectKBest(chi2, k=2)
sk2.fit(X, Y)
print(sk2)
print(sk2.scores_)
print(sk2.transform(X))

## LDA降维

In [None]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
X = np.array([
    [-1, -1, 3, 1], 
    [-2, -1, 2, 4], 
    [-3, -2, 4, 5], 
    [1, 1, 5, 4], 
    [2, 1, 6, -5], 
    [3, 2, 1, 5]])
y = np.array([1, 1, 2, 2, 0, 1])
# n_components：给定降低到多少维度，不能大于min(n_features,n_class-1)
clf = LinearDiscriminantAnalysis(n_components=2)
clf.fit(X, y)
print(clf.transform(X))

## PCA降维

In [14]:
import numpy as np
from sklearn.decomposition import PCA
X2 = np.array([
    [ 5.1,  3.5,  1.4,  0.2, 1, 23],
    [ 4.9,  3. ,  1.4,  0.2, 2.3, 2.1],
    [ -6.2,  0.4,  5.4,  2.3, 2, 23],
    [ -5.9,  0. ,  5.1,  1.8, 2, 3]
], dtype=np.float64)
# n_components: 给定降低到多少维度
#               小于1时，表示保留的维度的重要性的占比，比如0.9表示占比为90%
#               大于等于1时，表示保留的维度，但是该值必须小于等于min(样本数目,特征数目)
pca = PCA(n_components=4)
pca.fit(X2)
# print(pca.mean_)
print(pca.explained_variance_)
print(pca.explained_variance_ratio_)
# print(pca.components_)
print(pca.transform(X2))

[139.81349365  49.92833765   0.14650204   0.        ]
[0.73629323 0.26293526 0.00077152 0.        ]
[[-10.11606313   6.492326     0.31419724   0.        ]
 [ 10.80754053   5.73455069  -0.33278523   0.        ]
 [-10.34733219  -6.08709685  -0.32972476  -0.        ]
 [  9.65585479  -6.13977984   0.34831276  -0.        ]]


In [None]:
n=112
print(np.power(1.01,1/n))

In [None]:
print(np.var(np.vstack([[[65, 174]], [[60, 170]]]), axis=0, ddof=1))