In [4]:
#使用主成分分析法进行降维，对country-data.csv数据进行降维和主成分分析
import pandas as pd
import numpy as np
#导入scipy中的linalg模块，用于进行线性代数计算
from scipy import linalg

#读取数据并去除第一行和第一列
data = pd.read_csv('country-data.csv',header = 0)#header = 0表示第一行是列名，不是数据
data = data.iloc[:,1:]#这里的1:表示从第二列开始读取，因为第一列是国家名称，不需要读取

data.head()#查看前五行数据,head()默认显示前五行，可以在括号中指定显示的行数

Unnamed: 0,child_mort,exports,health,imports,income,inflation,life_expec,total_fer,gdpp
0,90.2,10.0,7.58,44.9,1610,9.44,56.2,5.82,553
1,16.6,28.0,6.55,48.6,9930,4.49,76.3,1.65,4090
2,27.3,38.4,4.17,31.4,12900,16.1,76.5,2.89,4460
3,119.0,62.3,2.85,42.9,5900,22.4,60.1,6.16,3530
4,10.3,45.5,6.03,58.9,19100,1.44,76.8,2.13,12200


In [5]:
#将读取的数据转换为矩阵形式
data = np.array(data)#将DataFrame转换为array，或使用to_numpy()方法
data.shape#查看数据的维度

(167, 9)

In [24]:
#标准化数据
    #标准化和归一化的区别：标准化是将数据按比例缩放，使之落入一个小的特定区间，而归一化是将数据按比例缩放，使之落入0-1之间
X=(data-np.mean(data,axis=0))/np.std(data,axis=0)
#查看标准化后的第一行数据
X[0]

array([ 1.29153238, -1.13827979,  0.27908825, -0.08245496, -0.8082454 ,
        0.15733622, -1.61909203,  1.90288227, -0.67917961])

In [25]:
#计算协方差矩阵，这里的X.T表示X的转置，求的是各个特征之间的协方差所以要转置
R=np.cov(X.T)
R.shape#查看协方差矩阵的维度

(9, 9)

In [26]:
#对协方差矩阵进行特征值分解，得到特征值和特征向量
evals,evecs=linalg.eigh(R)#这里使用eigh()函数而不是numpy的eig()函数，因为协方差矩阵是对称矩阵，eigh()函数可以对对称矩阵进行特征值分解并将特征值按照升序排列
evals#查看特征值

array([0.06727787, 0.08884738, 0.1141221 , 0.224928  , 0.66459866,
       1.00077724, 1.1774338 , 1.55566165, 4.16057017])

In [27]:
#将特征值按照降序排列
evals=evals[::-1]#[::-1]表示倒序排列
evals

array([4.16057017, 1.55566165, 1.1774338 , 1.00077724, 0.66459866,
       0.224928  , 0.1141221 , 0.08884738, 0.06727787])

In [28]:
#将特征向量按照特征值的降序排列
evecs=evecs[:,::-1]#这里的[:,::-1]表示对所有行进行倒序排列
evecs

array([[ 0.41951945, -0.19288394,  0.02954353, -0.37065326,  0.16896968,
        -0.20062815, -0.07948854,  0.68274306, -0.3275418 ],
       [-0.28389698, -0.61316349, -0.14476069, -0.00309102, -0.05761584,
         0.05933283, -0.70730269,  0.01419742,  0.12308207],
       [-0.15083782,  0.24308678,  0.59663237, -0.4618975 , -0.51800037,
        -0.00727646, -0.24983051, -0.07249683, -0.11308797],
       [-0.16148244, -0.67182064,  0.29992674,  0.07190746, -0.25537642,
         0.03003154,  0.59218953,  0.02894642, -0.09903717],
       [-0.39844111, -0.02253553, -0.3015475 , -0.39215904,  0.2471496 ,
        -0.16034699,  0.09556237, -0.35262369, -0.61298247],
       [ 0.19317293,  0.00840447, -0.64251951, -0.15044176, -0.7148691 ,
        -0.06628537,  0.10463252,  0.01153775,  0.02523614],
       [-0.42583938,  0.22270674, -0.11391854,  0.20379723, -0.1082198 ,
         0.60112652,  0.01848639,  0.50466425, -0.29403981],
       [ 0.40372896, -0.15523311, -0.01954925, -0.37830365,  0

In [29]:
#计算主成分
#计算主成分的步骤：1.计算特征值和特征向量；2.将特征值按照降序排列；3.将特征向量按照特征值的降序排列；4.计算主成分
#计算各成分的方差贡献率
variance_ratio=evals/evals.sum()
variance_ratio

array([0.4595174 , 0.17181626, 0.13004259, 0.11053162, 0.07340211,
       0.02484235, 0.0126043 , 0.00981282, 0.00743056])

In [30]:
#累积方差贡献率，查看前n个主成分的方差贡献率，如果方差贡献率达到85%以上，那么就可以使用前n个主成分进行降维
cum_variance_ratio=np.cumsum(variance_ratio)#np.cumsum()表示对数组进行累加
cum_variance_ratio

array([0.4595174 , 0.63133365, 0.76137624, 0.87190786, 0.94530998,
       0.97015232, 0.98275663, 0.99256944, 1.        ])

In [34]:
#这里可以看到前四个主成分的方差贡献率达到了85%，所以可以使用前四个主成分进行降维
vecs=evecs[:,:4]#取前四个主成分
vecs.shape#查看主成分的维度
#主成分的维度为4，说明降维后的数据只有四个特征，列向量为四个特征的权重，行向量为每个样本特征的四个特征值

(9, 4)

In [35]:
vecs#查看主成分

array([[ 0.41951945, -0.19288394,  0.02954353, -0.37065326],
       [-0.28389698, -0.61316349, -0.14476069, -0.00309102],
       [-0.15083782,  0.24308678,  0.59663237, -0.4618975 ],
       [-0.16148244, -0.67182064,  0.29992674,  0.07190746],
       [-0.39844111, -0.02253553, -0.3015475 , -0.39215904],
       [ 0.19317293,  0.00840447, -0.64251951, -0.15044176],
       [-0.42583938,  0.22270674, -0.11391854,  0.20379723],
       [ 0.40372896, -0.15523311, -0.01954925, -0.37830365],
       [-0.39264482,  0.0460224 , -0.12297749, -0.53199457]])

这里的第一个主成分F1说明child_mort，inflation，total_fer与数据有正相关性
并且F1的方差贡献度是最大的，说明F1是最优先的主成分