# 机器学习与社会科学应用

# 第六章 无监督学习算法

# 第三节 PCA降维

<font face="宋体" >郭峰    
    教授、博士生导师  
上海财经大学公共经济与管理学院  
上海财经大学数实融合与智能治理实验室    
    邮箱：guofengsfi@163.com</font> 

In [None]:
# 导入库
# 用于3D可视化
from mpl_toolkits.mplot3d import Axes3D
# 用于可视化图表
import matplotlib.pyplot as plt
# 用于做科学计算
import numpy as np
# 用于做数据分析
import pandas as pd
# 用于加载数据或生成数据等
from sklearn import datasets
# 导入PCA库
from sklearn.decomposition import PCA
%matplotlib inline 

In [None]:
# 导入数据集
iris = datasets.load_iris()
iris_X = iris.data   ##获得数据集中的输入
iris_y = iris.target ##获得数据集中的输出，即标签(也就是类别)
print(iris_X.shape)
print(iris.feature_names)
print(iris.target_names)

# iris数据集共有150个样本，每个样本有四个特征(四维)
# 分别是萼片长度(sepal length)，萼片宽度(sepal width)，花瓣长度(petal length)，花瓣宽度(petal width)。 
# 标签有三种，分别是setosa，versicolor和virginica


In [None]:
# PCA降维
# 加载PCA模型并训练、降维
pca = PCA(n_components=3)
X_pca = pca.fit(iris_X).transform(iris_X)
print(iris_X.shape)
print(iris_X[0:5])
print(X_pca.shape)
print(X_pca[0:5])


In [None]:
# 四维的样本变为了三维的。让我们分别看看四维和三维时的方差分布
# 4维时
pca = PCA(n_components=4)
X_pca = pca.fit(iris_X).transform(iris_X)
print("各主成分方向：\n",pca.components_)
print("各主成分的方差值：",pca.explained_variance_)
print("各主成分的方差值与总方差之比：",pca.explained_variance_ratio_)
#print("奇异值分解后得到的特征值：",pca.singular_values_)
print("主成分数：",pca.n_components_)

In [None]:
# 三维时
pca = PCA(n_components=3)
X_pca = pca.fit(iris_X).transform(iris_X)
print("降维后各主成分方向：\n",pca.components_)
print("降维后各主成分的方差值：",pca.explained_variance_)
print("降维后各主成分的方差值与总方差之比：",pca.explained_variance_ratio_)
#print("奇异值分解后得到的特征值：",pca.singular_values_)
print("降维后主成分数：",pca.n_components_)


In [None]:
# 从四维降到三维，也就是将四维时，主成分方差值(方差值与总方差之比)最小的那个成分给去掉了。选取的是前三个最大的特征值。
# 我们可以看看用图来看看三维的点的情况
fig = plt.figure(figsize=(10,8))
ax = Axes3D(fig,rect=[0, 0, 1, 1], elev=30, azim=20)
ax.scatter(X_pca[:, 0], X_pca[:, 1], X_pca[:, 2], marker='o',c=iris_y)


In [None]:
# 也可以通过固定elev的值，改变azim的值来看看将这些点投影到各个平面的情况
fig = plt.figure(figsize=(10,8))
# 固定elev=0，改变azim为0，90，180，270
ax = Axes3D(fig,rect=[0, 0, 1, 1], elev=90, azim=0)
ax.scatter(X_pca[:, 0], X_pca[:, 1], X_pca[:, 2], marker='o',c=iris_y)
plt.show()


In [None]:
fig = plt.figure(figsize=(10,8))
# 固定elev=90，改变azim为0，90，180，270
ax = Axes3D(fig,rect=[0, 0, 1, 1], elev=90, azim=0)
ax.scatter(X_pca[:, 0], X_pca[:, 1], X_pca[:, 2], marker='o',c=iris_y)
plt.show()


In [None]:
# 还可以在看看降维到二维的情况
pca = PCA(n_components=2)
X_pca =pca.fit(iris_X).transform(iris_X)
print("降维后各主成分方向：\n",pca.components_)
print("降维后各主成分的方差值：",pca.explained_variance_)
print("降维后各主成分的方差值与总方差之比：",pca.explained_variance_ratio_)
#print("奇异值分解后得到的特征值：",pca.singular_values_)
print("降维后主成分数：",pca.n_components_)


In [None]:
# 降到二维，其实就是取了方差值(方差值与总方差之比)最大的前两个主成分
fig = plt.figure(figsize=(10,8))
plt.scatter(X_pca[:, 0], X_pca[:, 1],marker='o',c=iris_y)
plt.show()

<font face="微软雅黑" size=3>本节结束</font> 