# PCA - Principal Component Analysis

## Wstęp

**PCA** jest jedną z ważnych metod pozwalających na redukcję wymiarowości danych.

Korzystając z dość prostych operacji macierzowych i statystyki pozwala na wykonanie projekcji danych oryginalnych na taką samą lub mniejszą liczbę wymiarów. 

Wymiarowość danych to nic innego jak liczba cech/atrybutów, które w tych danych występują. Upraszczając, zakładając, że mamy zbiór danych z 10 kolumnami i chcemy te dane zwizualizować, żeby np.: wykryć potencjalne grupy podobieństw, chcielibyśmy w jakiś sposób zamienić te 10 kolumn na 2 kolumny. Jest to właśnie nic innego jak redukcja wymiarowości z 10 na 2.

## Podstawy teoretyczne

**PCA** jest operacją wykonywaną na macierzy o *n* wierszach i *m* kolumnach, gdzie *n* oznacza liczbę rekordów w danych, a *m* liczbę cech dla naszego zbioru.

$$A = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \\ \end{bmatrix}$$

$$B = PCA(A)$$

W kolejnych krokach, w miarę wyjaśniania zasad działania **PCA** będę też tworzył implementację funkcji.

In [18]:
import numpy as np

def PCA(A):
    B = A
    return B

A = np.matrix('1 3; 3 3; 10 11; 11 13') 
print(A)
B = PCA(A)
print(B)

[[ 1  3]
 [ 3  3]
 [10 11]
 [11 13]]
[[ 1  3]
 [ 3  3]
 [10 11]
 [11 13]]


W pierwszym kroku działania, **PCA** liczy średnią arytmetyczną dla kolumn.

$$ M = \begin{bmatrix} mean(a_{n1}) & mean(a_{n2}) \end{bmatrix}$$

In [19]:
def PCA(A):
    M = np.mean(A, axis = 0)
    
    return M 
    
B = PCA(A)
print(B)

[[6.25 7.5 ]]


Następnie centrujemy dane w każdej kolumnie odejmując od oryginalnych wartości policzoną średnią:
$$ C = A - M$$

In [20]:
def PCA(A):
    M = np.mean(A, axis = 0)
    
    C = A - M
    
    return C
    
B = PCA(A)
print(B)

[[-5.25 -4.5 ]
 [-3.25 -4.5 ]
 [ 3.75  3.5 ]
 [ 4.75  5.5 ]]


Kolejną czynnością jest policzenie macierzy kowariancji zcentrowanej macierzy *C*. 

In [21]:
print(np.cov(B))

[[ 0.28125 -0.46875 -0.09375  0.28125]
 [-0.46875  0.78125  0.15625 -0.46875]
 [-0.09375  0.15625  0.03125 -0.09375]
 [ 0.28125 -0.46875 -0.09375  0.28125]]
