# 复习：SSE（误差平方和）、肘方法、轮廓系数法
# 特征降维学习目标：
- 掌握低方差过滤法
- 掌握相关系数法
- 掌握PCA进行降维

--- 

# 1、什么是低方差过滤法？
定义：它通过识别和过滤掉数据中的低方差部分来减少噪声和不想管的信息
特征：特征方差小，那么大多数样本值就比较接近；特征方差大，特征样本值差距比较大。而低方差过滤就是删除方差低于某些阈值的特征。


# 2、什么是相关系数法？
定义：相关系数主要计算：皮尔逊相关系数、斯皮尔曼相关系数。可以特征之间的相关系数可以反应变量之间的密切程度

![相关系数](../img/相关系数.png)

# 3、什么是PCA？

![PCA](../img/PCA.png)

定义：PCA是通过对数据纬度进行压缩，尽可能的降低原数据纬度（复杂度）
`备注：`在此过程中可能会舍弃原有数据、创造新的变量。


# 小结
- 低方差过滤法主要是删除方差低于某些阈值的特征
- 相关系数主要是斯皮尔曼系数和皮尔逊相关系数，通过相关系数法可以实现减少特征的目的
- PCA（主要成分分析）通过数据压缩实现特征建委，在此过程中去除特征之间的线性相关


In [None]:
# 导入偏差门限包
from sklearn.feature_selection import VarianceThreshold
# 导入Pandas包
import pandas as pd

# 1、读取数据
data = pd.read_csv('../file/垃圾邮件分类数据.csv')

# 2、使用方差过滤法
transformer = VarianceThreshold(threshold = 0.8)
data = transformer.fit_transform(data)
print(data.shape)

In [12]:
#-------------------------------------------相关系数

# 导入Panda包
import pandas as pd
# 导入偏差门限包
from sklearn.feature_selection import VarianceThreshold
# 导入斯皮尔曼相关系数包
from scipy.stats import spearmanr
# 导入皮尔逊相关
from scipy.stats import pearsonr
# 导入鸢尾花数据集
from  sklearn.datasets import load_iris

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.width', 1000)

# 1、读取数据
data = load_iris()
data = pd.DataFrame(data.data, columns = data.feature_names)

# 2、皮尔逊相关系数
corr = pearsonr(data['sepal length (cm)'], data['sepal width (cm)'])
print(corr, '皮尔逊相关系数:', corr[0], '不相关性概率:', corr[1])

# 3、斯皮尔曼相关系数
corr = spearmanr(data['petal length (cm)'], data['petal width (cm)'])
print(corr, '斯皮尔曼相关系数:', corr[0], '不相关性概率:', corr[1])

# 4、使用DataFrame的corr方法计算相关性
print(data.corr('pearson'))
print(data.corr('spearman'))

PearsonRResult(statistic=-0.11756978413300206, pvalue=0.15189826071144746) 皮尔逊相关系数: -0.11756978413300206 不相关性概率: 0.15189826071144746
SignificanceResult(statistic=0.9376668235763412, pvalue=8.156596854126675e-70) 斯皮尔曼相关系数: 0.9376668235763412 不相关性概率: 8.156596854126675e-70
                   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
sepal length (cm)           1.000000         -0.117570           0.871754          0.817941
sepal width (cm)           -0.117570          1.000000          -0.428440         -0.366126
petal length (cm)           0.871754         -0.428440           1.000000          0.962865
petal width (cm)            0.817941         -0.366126           0.962865          1.000000
                   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
sepal length (cm)           1.000000         -0.166778           0.881898          0.834289
sepal width (cm)           -0.166778          1.000000          -0.309635         -0.

In [10]:
#-------------------------------------------PCA
# 导入PCA包
from sklearn.decomposition import PCA
# 导入鸢尾花数据集
from sklearn.datasets import load_iris

# 1、加载数据
X, y = load_iris(return_X_y = True)
print(X[:5])

# 2、保留制定比例的信息
transformer = PCA(n_components = 2)
X_PCA = transformer.fit_transform(X)
print(X_PCA[:5])

# 3、保留指定数量的特征
transformer = PCA(n_components = 2)
X_PCA = transformer.fit_transform(X)
print(X_PCA[:5])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
[[-2.68412563  0.31939725]
 [-2.71414169 -0.17700123]
 [-2.88899057 -0.14494943]
 [-2.74534286 -0.31829898]
 [-2.72871654  0.32675451]]
[[-2.68412563  0.31939725]
 [-2.71414169 -0.17700123]
 [-2.88899057 -0.14494943]
 [-2.74534286 -0.31829898]
 [-2.72871654  0.32675451]]


In [11]:
PCA?