# 1.方差阈值

In [5]:
# 1. 导入模块
from sklearn.feature_selection import VarianceThreshold
import numpy as np
# 2. 创建数据
data = np.array([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
print(data)

# 3. 创建选择器
# threshold: 阈值
# 保留方差≥0.05的特征
selector = VarianceThreshold(threshold=0.05)

# 4. 训练数据
selected_data = selector.fit_transform(data)

# 5. 输出结果
print(selected_data)

# 6. 打印剩余的列是那几列
remaining_columns = np.where(selector.get_support())[0]
print("剩余的列索引为：", remaining_columns)

# 7. 输出剩余列的方差值
feature_variances = selector.variances_
remaining_variances = feature_variances[selector.get_support()]
print("剩余列的方差值为：", remaining_variances)

[[0 2 0 3]
 [0 1 4 3]
 [0 1 1 3]]
[[2 0]
 [1 4]
 [1 1]]
剩余的列索引为： [1 2]
剩余列的方差值为： [0.22222222 2.88888889]


# 2 PCA

In [13]:
# 1. 导入PCA类
from sklearn.decomposition import PCA
import numpy as np

# 2. 创建PCA对象
# n_components 是整数时: 保留的维度
# n_components 是小数(0~1)时: 保留的主成分解释的方差比例
pca = PCA(n_components=0.98)

# 3. 准备数据
X = np.array([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
print("原始数据：")
print(X)

# 计算原始数据每列的方差
col_variances = np.var(X, axis=0)
print("原始数据每列的方差：")
print(col_variances)

# 4. 训练PCA模型
X_pca = pca.fit_transform(X)

# 5. 输出结果
print("降维后的数据：")
print(X_pca)

# 6. 输出各主成分的方差值
print("各主成分的方差值：")
print(pca.explained_variance_)

# 7. 输出各主成分的方差贡献率（方差保留比例）
print("各主成分的方差贡献率：")
print(pca.explained_variance_ratio_)

# 8. 输出累计方差贡献率
print("累计方差贡献率：")
print(np.cumsum(pca.explained_variance_ratio_))

原始数据：
[[0 2 0 3]
 [0 1 4 3]
 [0 1 1 3]]
原始数据每列的方差：
[0.         0.22222222 2.88888889 0.        ]
降维后的数据：
[[-1.76504522  0.32686023]
 [ 2.35339362  0.13074409]
 [-0.58834841 -0.45760432]]
各主成分的方差值：
[4.5        0.16666667]
各主成分的方差贡献率：
[0.96428571 0.03571429]
累计方差贡献率：
[0.96428571 1.        ]
