## Analiza składowych głównych (PCA, *ang Principal Component Analysis*)

![1_d30YKpg-mAMWI3ekYM1plA.webp](attachment:141dbdee-63d7-453c-9ed9-d5d099948a2a.webp)

Popatrzmy na działanie algorytmu PCA na danych ze zbioru MNIST.

### Przykład I MNIST

In [None]:
!pip install tensorflow

Zbiór MNIST można pobrać z wielu miejsc. Jest m.in. dostępny w bibliotece keras (module biblioteki tensorflow).

In [None]:
from keras.datasets import mnist

In [None]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

print('X_train: ' + str(x_train.shape))
print('Y_train: ' + str(y_train.shape))
print('X_test:  '  + str(x_test.shape))
print('Y_test:  '  + str(y_test.shape))

Wyświetlmy kilka przykładowych obrazów, żeby zapoznać się z MNISTem

In [None]:
!pip install matplotlib

In [None]:
import matplotlib.pyplot as plt

for i in range(4):  
  plt.subplot(330 + 1 + i)
  plt.imshow(x_train[i], cmap=plt.get_cmap('gray'))
  plt.show()

Popatrzmy na pojedynczy obrazek

In [None]:
!pip install pandas

In [None]:
import pandas as pd

single_image = x_train[0]
pd.set_option('display.max_columns', 28)
pd.DataFrame(single_image)

In [None]:
plt.imshow(single_image, cmap='gray_r')

Popatrzmy na etykiety


In [None]:
print(y_train)  # lista 60000 wartości

Ok, zacznijmy przetwarzanie. 

Po pierwsze popatrzmy jeszcze raz na wymiar naszych danych. 

In [None]:
print(x_train.shape, y_train.shape)
print(x_test.shape, y_test.shape)

Należy zmienić kształt obrazka tak, żeby był jednowymiarowym sygnałem (z 784 cechami). Dla modelu nie ma znaczenia jaki rozstawimy wartości. Model będzie po prostu szukał wzorców w sygnale, niezależnie od tego w jaki sposób ten sygnał będzie interpretowany.

In [None]:
import numpy as np
print(len(x_train))
# Reshape the 28x28 pixel images into a single 784x1 pixel vector using .reshape
x_train = np.reshape(x_train, (len(x_train), -1))/255
x_test = np.reshape(x_test, (len(x_test), -1))/255

print(x_train.shape, y_train.shape)
print(x_test.shape, y_test.shape)


Po drugie w PCA zawsze trzeba pracować z ustandaryzowanymi danymi w przeciwnym razie cecha, która ma największe wartości będzie miała dominujący wpływ.

In [None]:
!pip install scikit-learn

In [None]:
import sklearn

from sklearn.preprocessing import StandardScaler

scaled_x_train = StandardScaler().fit_transform(x_train)

Znajdźmy składowe główne

In [None]:
from sklearn.decomposition import PCA

pca = PCA()
x_pca = pca.fit_transform(scaled_x_train)
x_pca

Ile mamy składowych głównych?

In [None]:
x_pca.shape

784, tyle co cech. Póki co nie robimy żadnej redukcji.

Popatrzmy jaką część zmienności tłumaczą poszczególne składowe główne

In [None]:
explained_variance = pca.explained_variance_ratio_
explained_variance

In [None]:
plt.bar(range(pca.n_components_), pca.explained_variance_ratio_)
plt.show()

In [None]:
# kumulanta
plt.bar(range(pca.n_components_),np.cumsum(pca.explained_variance_ratio_))
plt.show()

Klasa PCA przyjmuje opcjonalny parametr n_components. n_components oznacza:
* jeżeli n_components > 1, liczbę składowych głównych jaką chcemy uwzględnić (zaczynając od tej, która tłumaczy najwięcej zmienności, a potem schodząc w dół)
* jeżelie 0 < n_component > 1, jaką część zmienności sygnału chcemy zachować (w tym przypadku uwzględnionych zostanie tyle składowych głównych, żeby spełniony był warunek)

Dobierzmy tak parametr n_components, żeby otrzymać tylko tyle składowe główne ile potrzeba, żeby zachować 85% zmienności sygnału. 

In [None]:
pca = PCA(n_components=0.85)
x_pca = pca.fit_transform(scaled_x_train)
x_pca

In [None]:
x_pca.shape

Po wykonaniu PCA mamy zachowane 85% wariancji, przy redukcji z 784 wymiarów do 185 wymiarów. 185 składowych głównych tłumacz 85% zmienności sygnału.

In [None]:
plt.bar(range(pca.n_components_),pca.explained_variance_ratio_)
plt.show()

In [None]:
# kumulanta
plt.bar(range(pca.n_components_),np.cumsum(pca.explained_variance_ratio_))
plt.show()

Zobaczmy jak teraz wyglądają nasze próbki.

In [None]:
reduced = pca.inverse_transform(pca.fit_transform(x_train))

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2)

ax1.matshow(x_train[0].reshape(28,28), cmap='gray')
ax2.matshow(reduced[0].reshape(28,28), cmap='gray')

ax1.set_axis_off()
ax2.set_axis_off()
fig.suptitle("Original image VS PCA reduced".format(y_train[0]))
plt.show()

Teraz spróbujmy jeszcze użyć PCA do wizualizacji danych (czyli musimy zredukować wymiary do 2, ewentualnie 3 lub 1, tak żeby można było wynik nanieść na wykres.

In [None]:
%%time

pca = PCA(n_components=2)  # redukujemy do dwóch wymiarów
pca_results = pca.fit_transform(scaled_x_train)

# create the scatter plot
fig, ax = plt.subplots(figsize=(16,11))
scatter = ax.scatter(
    x=pca_results[:,0], 
    y=pca_results[:,1], 
    c=y_train, 
    cmap=plt.cm.get_cmap('Spectral'), 
    alpha=0.4)

# produce a legend with the colors from the scatter
legend = ax.legend(*scatter.legend_elements(), title="Classes",bbox_to_anchor=(1.05, 1), loc='upper left',)
ax.add_artist(legend)
ax.set_title("PCA visualization")
plt.xlabel("1st principal component")
plt.ylabel("2nd principal component")
plt.show()

In [None]:
explained_variance = pca.explained_variance_ratio_
explained_variance

Cięzko byłoby na takmi zbiorze wytyczyć krzywą decyzyjną. Jak widać nie po to uruchamiamy PCA, żeby polepszyć separowalność danych. Gdbyśmy chcieli zachować jak nalepszą separowalność danych zamiast PCA lepiej jest użyć metody t-SNE lub UMAP.

### Przykład II Iris dataset

Zbiór Irs dataset znajduje się pod adresem https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data i przedstawia pomiary płatków wykonane na trzech gatunków irysów.

![1_nfK3vGZkTa4GrO7yWpcS-Q.webp](attachment:c9057353-507c-4a84-9ae9-9fe970c9906c.webp)

Mierzone był wymiary dwóch płatków oraz zbierana informacja o tym jakiego gatunku dotyczy pomiar.

![Zrzut ekranu 2023-07-14 175320.png](attachment:b9b855a6-6c18-4d0b-b581-5361ff2cdd2b.png)

Uwaga! Zbiór zawiera wyłącznie pomiary. Nie działamy już na obrazach.

In [None]:
import pandas as pd
import sklearn

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'

# load dataset into Pandas DataFrame
df = pd.read_csv(url, names=['sepal length','sepal width','petal length','petal width','target'])
df

Mamy czetry wymiary i 150 próbek. Ustandaryzujmy pomiary.

In [None]:
from sklearn.preprocessing import StandardScaler

variables = ['sepal length', 'sepal width', 'petal length', 'petal width']

x = df.loc[:, variables].values
y = df.loc[:,['target']]

x = StandardScaler().fit_transform(x)
x = pd.DataFrame(x)
x.head()

Są czetry cechy w danych wejściowych, zatem PCA obliczy nam taką samą liczbę składowych głównych.

In [None]:
from sklearn.decomposition import PCA

pca = PCA()
x_pca = pca.fit_transform(x)
x_pca = pd.DataFrame(x_pca)
x_pca.head()

Popatrzmy ile wariancji tłumaczone jest przez kolejne składowe główne.

In [None]:
explained_variance = pca.explained_variance_ratio_
explained_variance

In [None]:
plt.bar(range(pca.n_components_),pca.explained_variance_ratio_)
plt.show()

In [None]:
# kumulanta
plt.bar(range(pca.n_components_),np.cumsum(pca.explained_variance_ratio_))
plt.show()

Pierwsz składowa główn tłumaczy ponad 72% zmienności sygnału, druga 23%, trzecia 3.6%, a czwarta 0.51%.

72.22% + 23.9% = 96.21% zmienności sygnału jest tłumaczone przez same, dwie pierwsze składowe główne.

In [None]:
x_pca['target']=y
x_pca.columns = ['PC1', 'PC2', 'PC3', 'PC4', 'target']
x_pca.head()

Patrząc na stopień objaśnienia wariancji przez pierwsze dwie składowe główne prawdopodbna jest teza, że do reprezentacji sygnału wystarczą nam te dwie składowe.

In [None]:
# The outcome shows the data are separable in the new space.
import matplotlib.pyplot as plt

fig = plt.figure()
ax = fig.add_subplot(1,1,1) 
ax.set_xlabel('Principal Component 1') 
ax.set_ylabel('Principal Component 2') 
ax.set_title('2 component PCA') 
targets = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
colors = ['r', 'g', 'b']

for target, color in zip(targets, colors):
    indicesToKeep = x_pca['target'] == target
    ax.scatter(
        x_pca.loc[indicesToKeep, 'PC1'], 
        x_pca.loc[indicesToKeep, 'PC2'], 
        c = color, 
        s = 50
    )
ax.legend(targets)
ax.grid()

Widzimy, że dodatkowo te dwie zmienne separują nam ładnie cały zbiór.

Ok, wszystko działa. Ale w jaki sposób sklearn znajduje te składowe główne? Jaka matematyk jest pod spodem?

### Zadanie I Gatunki ryb

W pliku 'Dane/fish.csv' znajdują się pomiary 158 ryb z siedmiu różnych gatunków. Wczytaj dane, popatrz na cechy (nawet patrząc po samych nazwach sprawiają wrażenie nadmiarowych). Przeprowadź analizę składowych głównych. Przedstaw dane na wykresie zachowując conajmniej 80% wariancji w danych.

### Zadanie II Zwyczaje żywieniowe

W pliku '../Dane/food.txt' znajdują się dane dotyczące zwyczajów żywieniowych w czterech krajach Wielkiej Brytanii - Anglii, Walii, Szkocji i Irlandii Północnej. Dane przedstawiają przypadające na jednego człowieka średnie, tygodniowe spożycie poszczególnych produktów spożywczych w gramach. Więcej o danych można poczytać tutaj http://www.dsc.ufcg.edu.br/~hmg/disciplinas/posgraduacao/rn-copin-2014.3/material/SignalProcPCA.pdf

### Zadanie 3 Charakterystyki miast

W pliku '../Dane/cities.txt' znajdują się dane dotyczące 46 miast świata. Zredukuj wymiary, nanieś dane na wykres, wskaż miasta, w których żyje się najlepiej.

In [None]:
import pandas as pd

df = pd.read_csv('../Dane/cities.txt', delimiter='\t+')
df

In [None]:
x = df.loc[:, ['Work', 'Price', 'Salary']].values
x

In [None]:
y = df.index.values.tolist()
y

In [None]:
from sklearn.preprocessing import StandardScaler

x = StandardScaler().fit_transform(x)
x = pd.DataFrame(x)
x

In [None]:
pca = PCA()

x_pca = pca.fit_transform(x)
x_pca = pd.DataFrame(x_pca)
x.head()

In [None]:
pca.explained_variance_ratio_

In [None]:
plt.bar(range(pca.n_components_), pca.explained_variance_ratio_)

In [None]:
print(np.cumsum(pca.explained_variance_ratio_))

In [None]:
x_pca['target'] = y

x_pca.columns = ['PC1', 'PC2', 'PC3', 'target']
x_pca.head()

In [None]:
import matplotlib.pyplot as plt

fig = plt.figure()
ax = fig.add_subplot(1,1,1) 
ax.set_xlabel('Principal Component 1') 
ax.set_ylabel('Principal Component 2') 
ax.set_title('2 component PCA') 
targets = y

for target in targets:
    indicesToKeep = x_pca['target'] == target
    ax.scatter(
        x_pca.loc[indicesToKeep, 'PC1'], 
        x_pca.loc[indicesToKeep, 'PC2'], 
        c = color, 
        s = 30
    )
    ax.annotate(target, (x_pca.loc[indicesToKeep, 'PC1'], x_pca.loc[indicesToKeep, 'PC2']))

ax.grid()

In [None]:
pca.components_

In [None]:
pca.singular_values_

In [None]:
loadings = pca.components_.T * np.sqrt(pca.explained_variance_)
pd.DataFrame(loadings, columns=['PC1', 'PC2', 'PC3'])

### Zadanie 4 PCA na potrzeby regresji liniowej

W pliku '../Dane/longley.csv' znajdują się dane dotyczące makroekonomii Stanów Zjednoczonych (szczegółowe informacje można znaleźć tutaj https://stat.ethz.ch/R-manual/R-patched/library/datasets/html/longley.html)

*Ciekawostka. Połączenie regresji liniowej i analizy składowych głównych nosi nazwę Principal Component Regression (PCR)*

In [None]:
df = pd.read_csv('../Dane/longley.csv', index_col=0)
df

In [None]:
df.corr()

In [None]:
x = df.iloc[:, [0,1,2,3,4]]
x

In [None]:
y = df.iloc[:, -1]
y

In [None]:
x = StandardScaler().fit_transform(x)
x = pd.DataFrame(x)
x.head()

In [None]:
pca = PCA()

x_pca = pca.fit_transform(x)
x_pca = pd.DataFrame(x_pca)
x_pca.head()

In [None]:
pca.explained_variance_ratio_

In [None]:
print(np.cumsum(pca.explained_variance_ratio_))

In [None]:
pca = PCA(n_components=3)
x_pca = pca.fit_transform(x)
x_pca = pd.DataFrame(x_pca)


x_pca.columns = ['PC1', 'PC2', 'PC3']
x_pca.head()

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

lm = LinearRegression()
np.mean(cross_val_score(lm, x, y, scoring='neg_mean_squared_error'))

In [None]:
lm = LinearRegression()
np.mean(cross_val_score(lm, x_pca, y, scoring='neg_mean_squared_error'))

### Technikalia

Metoda PCA wykorzystuje narzędzia dostarczane przez algebrę liniową. Do najważniejszych zagadnień wykorzystywanych w PCA należą: wektor, macierz, mnożenie macierzy, wyznacznik macierzy, rozkład (faktoryzacja) macierzy, SVD, wektory i wartości własne macierzy. Szczegółowo nie będziemy omawiali tych zagadnień, ale warto nakreślić intuicje matematyczną.

W przypadku chęci pogłębienia wiedzy matematycznej materiałmi wartymi uwagi są:

* [Czym są wektory ?](https://www.youtube.com/watch?v=2OGJvGAniRU)
* [3Blue1Brown Linear Algebra course](https://www.youtube.com/watch?v=kjBOesZCoqc&list=PL0-GT3co4r2y2YErbmuJw2L5tW4Ew2O5B)
* [Gilbert Strang - Matrix methods in Data Analysis, Signal Processing, and Machine Learning](https://www.youtube.com/watch?v=Cx5Z-OslNWE&list=PLUl4u3cNGP63oMNUHXqIUcrkS2PivhN3k)