In [1]:
#导入依赖库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#编写一个载入数据集的函数，输入文件的每行数据都以\t隔开
def loaddata(datafile):
    return np.array(pd.read_csv(datafile,sep="\t",header=None)).astype(np.float)

#定义一个均值函数，计算均值,要求输入数据为numpy的矩阵格式，行表示样本数，列表示特征
def meanX(dataX):
    return np.mean(dataX,axis=0)#axis=0表示依照列来求均值。假设输入list,则axis=1
"""
參数：
    - XMat：传入的是一个numpy的矩阵格式，行表示样本数，列表示特征    
    - k：表示取前k个特征值相应的特征向量
返回值：
    - finalData：參数一指的是返回的低维矩阵，相应于输入參数二
    - reconData：參数二相应的是移动坐标轴后的矩阵
"""
#定义计算主成分数据函数
def pca(XMat, k):
    average = meanX(XMat)
    m, n = np.shape(XMat)
    data_adjust = []
    avgs = np.tile(average, (m, 1))
    data_adjust = XMat - avgs
    covX = np.cov(data_adjust.T)   #计算协方差矩阵
    featValue, featVec=  np.linalg.eig(covX)  #求解协方差矩阵的特征值和特征向量
    index = np.argsort(-featValue) #依照featValue进行从大到小排序
    finalData = []
    #保留前k个主成分
    if k > n:
        print("k must lower than feature number")
        return
    else:
        #注意特征向量时列向量。而numpy的二维矩阵(数组)a[m][n]中，a[1]表示第1行值
        selectVec = np.matrix(featVec.T[index[:k]]) #所以这里须要进行转置
        #将进行标准化后的数据乘以前k个特征向量得到新的主成分数据，该数据每个数值都为原数据的一组线         性组合
        finalData = data_adjust * selectVec.T
        reconData = (finalData * selectVec) + average
    return finalData, reconData
#由于我将维数k指定为2，所以能够使用以下的函数将其绘制出来：
def plotBestFit(data1, data2):
    dataArr1 = np.array(data1)
    dataArr2 = np.array(data2)

    m = np.shape(dataArr1)[0]
    axis_x1 = []
    axis_y1 = []
    axis_x2 = []
    axis_y2 = []
    for i in range(m):
        axis_x1.append(dataArr1[i,0])
        axis_y1.append(dataArr1[i,1])
        axis_x2.append(dataArr2[i,0])
        axis_y2.append(dataArr2[i,1])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(axis_x1, axis_y1, s=50, c='red', marker='s')
    ax.scatter(axis_x2, axis_y2, s=50, c='blue')
    plt.xlabel('x1'); plt.ylabel('x2');
    plt.savefig("outfile.png")
    plt.show()
#依据数据集data.txt
#測试方法写入main函数中，然后直接运行main方法就可以：
def main():
    datafile = "/ddhome/public/data_mining/data.txt"
    XMat = loaddata(datafile)
    k =3
    return pca(XMat, k)
if __name__ == "__main__":
    finalData, reconMat = main()
    print(finalData)
    plotBestFit(finalData, reconMat)

[[-2.68420713 -0.32660731 -0.02151184]
 [-2.71539062  0.16955685 -0.20352143]
 [-2.88981954  0.13734561  0.02470924]
 [-2.7464372   0.31112432  0.03767198]
 [-2.72859298 -0.33392456  0.0962297 ]
 [-2.27989736 -0.74778271  0.17432562]
 [-2.82089068  0.08210451  0.26425109]
 [-2.62648199 -0.17040535 -0.01580151]
 [-2.88795857  0.57079803  0.02733541]
 [-2.67384469  0.1066917  -0.1915333 ]
 [-2.50652679 -0.65193501 -0.069275  ]
 [-2.61314272 -0.02152063  0.10765035]
 [-2.78743398  0.22774019 -0.20032779]
 [-3.22520045  0.50327991  0.06841363]
 [-2.64354322 -1.1861949  -0.1445057 ]
 [-2.38386932 -1.34475434  0.28373066]
 [-2.6225262  -0.81808967  0.14531599]
 [-2.64832273 -0.31913667  0.03339425]
 [-2.19907796 -0.87924409 -0.11452146]
 [-2.58734619 -0.52047364  0.21957209]
 [-2.3105317  -0.39786782 -0.23369561]
 [-2.54323491 -0.44003175  0.21483637]
 [-3.21585769 -0.14161557  0.29961898]
 [-2.30312854 -0.10552268  0.04568004]
 [-2.35617109  0.03120959  0.12940758]
 [-2.50791723  0.13905634

<Figure size 640x480 with 1 Axes>

In [2]:
#直接导入主成分降维方法以及依赖库
from sklearn.decomposition import PCA
import numpy as np
from sklearn.preprocessing import StandardScaler
#定义原数据
x = np.array([[10001, 2, 55], [16020, 4, 11], [12008, 6, 33], [13131, 8, 22]])

# 进行数据标准化feature normalization (feature scaling)
X_scaler = StandardScaler()
x = X_scaler.fit_transform(x)


# 利用PCA保留90%的信息的同时，进行降维
pca = PCA(n_components=0.9)  # 保证降维后的数据保持90%的信息
pca.fit(x)
data = pca.transform(x)
print(data)

[[ 2.36863319  0.38298087]
 [-1.50952734  1.23481789]
 [ 0.14360068 -0.58040917]
 [-1.00270653 -1.03738959]]
