# Principal Component Analysis

Import neccessary libraries and create the dataset

In [1]:
import numpy as np
x = np.array([[-2,1,4,6,5,3,6,2], [9,3,2,-1,-4,-2,-4,5], [0,7,-5,3,2,-3,4,6]])
print(x)

[[-2  1  4  6  5  3  6  2]
 [ 9  3  2 -1 -4 -2 -4  5]
 [ 0  7 -5  3  2 -3  4  6]]


1. Function to compute the mean

In [2]:
def computeMean(x):
    return x.mean(0)

2. Use function to compute the mean of our dataset

In [3]:
meanX = computeMean(x)
print(meanX)

[ 2.33333333  3.66666667  0.33333333  2.66666667  1.         -0.66666667
  2.          4.33333333]


3. Function to compute a centered data matrix

In [4]:
def center(x, mean):
    return x-mean

4. Use function to compute centered data matrix of our dataset

In [5]:
centerX = center(x, meanX)
print(centerX)

[[-4.33333333 -2.66666667  3.66666667  3.33333333  4.          3.66666667
   4.         -2.33333333]
 [ 6.66666667 -0.66666667  1.66666667 -3.66666667 -5.         -1.33333333
  -6.          0.66666667]
 [-2.33333333  3.33333333 -5.33333333  0.33333333  1.         -2.33333333
   2.          1.66666667]]


5. Function to compute unnormalized covariance matrix of the centered data

In [33]:
def covar(data):
    dataTransposed = data.T
    dataTransposedTwo = dataTransposed
    covar = np.zeros((np.size(data,1), np.size(data,1)))
    for i, r in enumerate(dataTransposed):
        for j, c in enumerate(dataTransposedTwo):
            covar[i][j] = ((np.dot(c,r)) / (r.size-1))
    return covar

6. Compute the covariance matrix of our centered dataset

In [7]:
covarX = covar(centerX)
print (covarX)


[[ 34.33333333  -0.33333333   3.83333333 -19.83333333 -26.5
   -9.66666667 -31.           5.33333333]
 [ -0.33333333   9.33333333 -14.33333333  -2.66666667  -2.
   -8.33333333   0.           5.66666667]
 [  3.83333333 -14.33333333  22.33333333   2.16666667   0.5
   11.83333333  -3.          -8.16666667]
 [-19.83333333  -2.66666667   2.16666667  12.33333333  16.
    8.16666667  18.          -4.83333333]
 [-26.5         -2.           0.5         16.          21.
    9.5         24.          -5.5       ]
 [ -9.66666667  -8.33333333  11.83333333   8.16666667   9.5
   10.33333333   9.          -6.66666667]
 [-31.           0.          -3.          18.          24.
    9.          28.          -5.        ]
 [  5.33333333   5.66666667  -8.16666667  -4.83333333  -5.5
   -6.66666667  -5.           4.33333333]]


7. Function to compute the first K highest principal components

In [40]:
def components(covar, dimension):
    #Get the eigenvalues/vectors
    eigenvalues, eigenvectors = np.linalg.eig(covar)
    idx = np.argsort(eigenvalues)[::-1]
    eigenvectors = eigenvectors[:,idx]    
    eigenvalues = eigenvalues[idx]
    #Get k eigenvectors corresponding to dimension k largest eigenvalues
    eigenvectors = eigenvectors[:dimension, :]
    return(eigenvectors)

8. Compute the first principal component

In [41]:
print(components(covarX, 1))

[[ 0.57676528+0.j          0.15913013+0.j         -0.02114331+0.j
   0.0208365 +0.j         -0.03680804+0.j         -0.01213636+0.01676183j
  -0.01213636-0.01676183j -0.80126114+0.j        ]]


9. Function to compute the best K-Dimension representation of data matrix

In [66]:
def Representation(covarX, centerX, dimension):
    eigenvalues, eigenvectors = np.linalg.eig(covarX)
    idx = np.argsort(eigenvalues)[::-1]
    eigenvectors = eigenvectors[:,idx]
    eigenvalues = eigenvalues[idx]
    eigenvectors = eigenvectors[:dimension, :]
    return np.dot(centerX, eigenvectors.T)

10. Compute the best 1D representation of data matrix

In [67]:
print (Representation(covarX, centerX, 1))

[[ 0.57676528+0.j          0.15913013+0.j         -0.02114331+0.j
   0.0208365 +0.j         -0.03680804+0.j         -0.01213636+0.01676183j
  -0.01213636-0.01676183j -0.80126114+0.j        ]]
[[-1.30240199-0.00558728j]
 [ 3.36624186+0.07822189j]
 [-2.06383987-0.07263461j]]


11. Create a function mypca which take inputs of a data matrix assuming column data, and return the best k-dimensional representation

In [29]:
def mypca(X, k):
    meanX = computeMean(X)
    centerX = center(X, meanX)
    covarX = covar(centerX)
    eigenvalues, eigenvectors = np.linalg.eig(covarX)
    #principal values are the k highest eigenvalues
    pv = eigenvalues[np.argsort(eigenvalues)[-k:]]
    #principal components are the k sets of eigenvectors corresponding to the k highest eigenvalues
    pc = components(covarX, k)
    #computing the k-dimension representation using our pc and pv
    rep = Representation(covarX, centerX, k)
    return pv, pc, rep
    

Testing our function with our original data set

In [32]:
print(mypca(x,1))

(array([100.01292815+0.j]), array([[ 0.57676528+0.j],
       [ 0.04814895+0.j],
       [-0.01796062+0.j],
       [-0.34965129+0.j],
       [-0.4581769 +0.j],
       [-0.21093736+0.j],
       [-0.52250248+0.j],
       [ 0.1225373 +0.j]]), array([[-8.84114822+0.j],
       [10.85396371+0.j],
       [-2.0128155 +0.j]]))
