<h1 style="text-align: center;">Principal component analysis</h1>

# Teori

Akan dilakukan proyeksi dari data berdimensi $M$ menjadi berdimensi $D$.

PCA akan mendefinisikan $D$ vektor, $\mathbf{w}_{d}$, masing-masing berdimensi $M$. Elemen ke $d$ dari proyeksi $x_{nd}$ di mana $\mathbf{x}_{nd} = [ x_{n1}, x_{n2}, \ldots, x_{nD} ]^{\mathrm{T}}$ dihitung sebagai:

$$
x_{nd} = \mathbf{w}^{\mathrm{T}}_{d} \mathbf{y}_{n}
$$


Proses pembelajaran dalam hal ini adalah berapa dimensi $D$ dan memilih vektor proyeksi $\mathbf{w}_{d}$ untuk setiap dimensi.

PCA menggunakan variansi pada ruang yang diproyeksikan sebagai kriteria untuk memilih $\mathbf{w}_{d}$.

Misalnya: $\mathbf{w}_{1}$ adalah proyeksi yang akan membuat variansi pada $x_{n1}$ semaksimal mungkin.

Dimensi proyeksi kedua juga dipilih untuk memaksimalkan variansi, namum $\mathbf{w}_{2}$ harus ortogonal terhadap $\mathbf{w}_{1}$:
$$
\mathbf{w}_{1}^{\mathrm{T}} \mathbf{w}_{1} = 0
$$

Begitu juga untuk dimensi proyeksi yang ketiga dan seterusnya.

Secara umum:
$$
\mathbf{w}_{i}^{\mathrm{T}} \mathbf{w}_{j} = 0 \, \forall\, j \neq i
$$

Asumsi:
$$
\bar{\mathbf{y}} = \frac{1}{N} \sum_{n=1}^{N} \mathbf{y}_{n} = 0
$$

Misalkan kita ingin mencari proyeksi ke $D=1$ dimensi, dalam kasus ini hasil proyeksi adalah nilai skalar $x_{n}$ untuk tiap observasi yang diberikan oleh:
$$
x_{n} = \mathbf{w}^{\mathsf{T}} \mathbf{y}_{n}
$$
dan variansi $\sigma^{2}_{x}$ diberikan oleh:
$$
\sigma^{2}_{x} = \frac{1}{N} \sum_{n=1}^{N} \left( x_{n} - \bar{x} \right)^2
$$

Dengan asumsi bahwa $\bar{y} = 0$:
$$
\begin{align}
\bar{x} & = \frac{1}{N} \sum_{n=1}^{N} \mathbf{w}^{\mathsf{T}} \mathbf{y}_{n} \\
& = \mathbf{w}^{\mathsf{T}} \left(
\frac{1}{N} \sum_{n=1}^{N} \mathbf{y}_{n}
\right) \\
& = \mathbf{w}^{\mathsf{T}} \bar{\mathbf{y}} \\
& = 0
\end{align}1
$$

sehingga variansinya menjadi:
$$
\begin{align}
\sigma_{x}^{2} & = \frac{1}{N} \sum_{n=1}^{N} x^{2}_{n} \\
& = \frac{1}{N} \sum_{n=1}^{N} \left(
\mathbf{w}^{\mathsf{T}} \mathbf{y}_{n} \right)^2 \\
& = \frac{1}{N} \sum_{n=1}^{N} \mathbf{w}^{\mathsf{T}} \mathbf{y}_{n}
\mathbf{y}_{n}^{\mathsf{T}} \mathbf{w} \\
& = \mathbf{w}^{\mathsf{T}} 
\left( \frac{1}{N} \sum_{n=1}^{N}
\mathbf{y}_{n} \mathbf{y}_{n}^{\mathsf{T}}
\right)
\mathbf{w} \\
& = \mathbf{w}^{\mathsf{T}} \mathbf{C} \mathbf{w}
\end{align}
$$

$\mathbf{C}$ adalah matriks kovariansi dari sampel:
$$
\mathbf{C} = \frac{1}{N} \sum_{n=1}^{N}
(\mathbf{y}_{n} - \bar{\mathbf{y}})
(\mathbf{y}_{n} - \bar{\mathbf{y}})^{\mathsf{T}}
$$
di mana $\bar{\mathbf{y}} = 0$ dalam kasus yang kita tinjau.


# Kode program

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
import IPython
IPython.display.set_matplotlib_formats("svg")

In [None]:
import matplotlib
matplotlib.style.use("dark_background")

Generate data:

In [None]:
np.random.seed(1234) # supaya reproducible

In [None]:
Y_1 = np.random.randn(20,2)
Y_2 = np.random.randn(20,2) + 10
Y_3 = np.random.randn(20,2) - 10

In [None]:
Y = np.concatenate( (Y_1, Y_2, Y_3), axis=0 );

In [None]:
plt.clf()
plt.scatter(Y[:,0], Y[:,1])
plt.grid()

Add random dimensions:

In [None]:
Ndata = Y.shape[0]
Y = np.concatenate( (Y, np.random.randn(Ndata,5)), axis=1 )

In [None]:
Y.shape

Coba plot data pada dimensi lain (tidak penting) yang sudah ditambahkan:

In [None]:
plt.clf()
plt.scatter(Y[:,2], Y[:,6])
plt.grid()

In [None]:
labels = np.concatenate( ([0]*20, [1]*20, [2]*20) )

In [None]:
labels

In [None]:
plt.clf()
markers = ["o", "s", "*"]
for i in range(3):
    idx = labels==i
    plt.scatter(Y[idx,0], Y[idx,1], marker=markers[i])
plt.grid()

In [None]:
plt.clf()
markers = ["o", "s", "*"]
for i in range(3):
    idx = labels==i
    plt.scatter(Y[idx,6], Y[idx,2], marker=markers[i])
plt.grid()

Hitung rata-rata: $\bar{\mathbf{y}}$, gunakan metode `np.mean`.

In [None]:
ybar = np.mean(Y,axis=0)
ybar

Geser data terhadap rata-rata:

In [None]:
Yshifted = Y - ybar

Rata-rata dari data yang sekarang seharusnya adalah nol (vektor).

In [None]:
np.mean(Yshifted,axis=0)

Hitung matriks kovariansi: $\mathbf{C}$

$$
\mathbf{C} = \frac{1}{N} \mathbf{Y}^{\mathsf{T}} \mathbf{Y}
$$

In [None]:
N = Yshifted.shape[0]
N

In [None]:
C = np.matmul( Yshifted.transpose(), Yshifted )/N

In [None]:
C.shape

Hitung pasangan eigen dari matriks kovariansi:

In [None]:
λ_unsrt, w_unsrt = np.linalg.eig(C)

In [None]:
λ_unsrt

In [None]:
w_unsrt.shape

(Lakukan sort jika perlu)

In [None]:
idx_sorted = np.argsort(λ_unsrt)[::-1]

In [None]:
idx_sorted

In [None]:
λ = λ_unsrt[idx_sorted]

Eigenvalue yang sudah disort:

In [None]:
λ

Eigenvektor yang sudah disort:

In [None]:
w = w_unsrt[:,idx_sorted]

Perbandingan nilai eigen (variansi)

In [None]:
plt.bar(range(len(λ)), λ)
plt.grid()

Lakukan proyeksi:

$$
\mathbf{X} = \mathbf{Y} \mathbf{W}
$$

Matrix Y: (60,7), jumlah data 60, jumlah fitur 7

Matrix W: (7,D), D: jumlah dimensi baru

Matrix X: (60,D)

Proyeksikan data ke dua dimensi pertama:

In [None]:
Yproj = np.matmul(Y, w[:,0:2] )

In [None]:
Yproj.shape

In [None]:
plt.scatter(Yproj[:,0], Yproj[:,1])
plt.xlabel("1st proj dim")
plt.ylabel("2nd proj dim")
plt.grid()

Hanya memproyeksikan ke 1st proj dim (nilai eigen paling besar):

In [None]:
Yproj_1 = np.matmul(Y, w[:,0:1] )
Yproj_1.shape

In [None]:
plt.plot(Yproj_1, np.ones(Yproj_1.shape[0]), marker="o", lw=0)
plt.xlabel("proj dim 1st")

**NOTE: sumbu x bukan menyatakan fitur pertama (desc1), namum fitur (dimensi) yang sudah ditransformasi.**

Bagaimana jika data diproyeksi ke dimensi proyeksi ke-dua saja?

In [None]:
Yproj_2 = np.matmul(Y, w[:,1] )
print(Yproj_2.shape)
plt.plot(Yproj_2, np.ones(Yproj_2.shape[0]), marker="o", lw=0)

# Pair plot

In [None]:
import pandas as pd

In [None]:
import seaborn as sns
sns.set()

In [None]:
labelsString = []
for i in range(len(labels)):
    labelsString.append("class"+str(labels[i]))

In [None]:
columns = ["desc"+str(i) for i in range(1,8)]
columns

In [None]:
Ypd = pd.DataFrame(Y, columns=columns)

In [None]:
labelsDF = pd.DataFrame(labelsString, columns=["class"])
labelsDF.head()

In [None]:
YDF = pd.merge(Ypd, labelsDF, left_index=True, right_index=True)
YDF.head()

In [None]:
columns = ["desc"+str(i) for i in range(1,8)]
columns

In [None]:
sns.pairplot(YDF)

In [None]:
sns.pairplot(YDF, hue="class")

In [None]:
YDF.head()

In [None]:
YDF.loc[:,:"desc7"].head()

# Coba lagi:

In [None]:
Y = []

In [None]:
Y_1 = np.random.randn(20,2)
Y_2 = np.random.randn(20,2) + 10
Y_3 = np.random.randn(20,2) - 10
Y_4 = np.random.randn(20,2) + np.array([-10,10])
Y_5 = np.random.randn(20,2) + np.array([10,-10])

In [None]:
Y = np.concatenate( (Y_1, Y_2, Y_3, Y_4, Y_5), axis=0 );

In [None]:
plt.clf()
plt.scatter(Y[:,0], Y[:,1])

In [None]:
Ndata = Y.shape[0]
Y = np.concatenate( (Y, np.random.randn(Ndata,5)), axis=1 )

In [None]:
ybar = np.mean(Y,axis=0)
ybar

In [None]:
Yshifted = Y - ybar

In [None]:
np.mean(Yshifted,axis=0)

In [None]:
N = Yshifted.shape[0]
N

In [None]:
C = np.matmul( Yshifted.transpose(), Yshifted )/N

In [None]:
λ_unsrt, w_unsrt = np.linalg.eig(C)

In [None]:
λ_unsrt

In [None]:
idx_sorted = np.argsort(λ_unsrt)[::-1]
idx_sorted

In [None]:
W = w_unsrt[:,idx_sorted]
λ = λ_unsrt[idx_sorted]

In [None]:
λ

In [None]:
plt.bar(np.arange(len(λ)), λ)