# **PCA** (Principal Components Analysis)

## moduły

* **sklearn.preprocessing** – standaryzacja danych (funkcja:
StandardScaler)
* **sklearn.decomposition** – analiza głównych składowych (funkcja: PCA)
* **seaborn** – wizualizacja wykresów

## Podstawowe cele PCA

* redukcja wymiarowości przestrzeni, tzn. przekształcanie k
skorelowanych zmiennych pierwotnych w k głównych składowych (PC –
principal component), przy czym znaczna część istotnej zmienności
jest opisana przez kilka początkowych nowych zmiennych
* prezentacja graficzna danych w przestrzeni o zredukowanej
wymiarowości
* eksploracja zbioru danych, detekcja podzbiorów obiektów podobnych,
detekcja punktów odbiegających.

## Problemy z jakimi można się napotkać

* wstępne przygotowanie danych (czy konieczne i jaka metoda,
przeważnie jest to standaryzacja zmiennych)
* wybór liczby istotnych głównych składowych
* interpretacja nowych zmiennych tj. głównych składowych (jak są
powiązane ze zmiennymi pierwotnymi)
* analiza rzutu obiektów na płaszczyzny głównych składowych.

**UWAGA!!!**

Proszę zwrócić uwagę, aby wykonywać obliczenia tylko dla zmiennych
objaśniających (a nie np. zmiennych objaśniających i numerycznej etykiety obiektu (!))

## Przykład 1

Eksploracja obiektów w zbiorze kosaćców

Ten przykład prezentuje działanie w najprostszy możliwy sposób.
To znaczy są tu pokazane tylko absolutnie niezbędne etapy obliczeń.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import seaborn as sns

In [None]:
iris = sns.load_dataset("iris")
print('Dane wejściowe: \n', iris.head())

In [None]:
X = iris.drop('species', axis=1) # Usunięcie kolumny 'species' - nie jest zmienną objaśniającą
y = iris['species']
print('\nZmienne objaśniające: \n', X.head())

In [None]:
sc = StandardScaler()
sc.fit(X)
X = sc.transform(X) # Autoskalowanie

In [None]:
# PCA i transformacja X do głównych składowych (PC)
pca = PCA()
PC = pca.fit_transform(X)

In [None]:
# Analiza zmienności opisywanej przez poszczególne PC
print('\nOpisywana zmienność: ', pca.explained_variance_ratio_)
sns.barplot(x=np.arange(1,5), y=pca.explained_variance_ratio_,
color='blue')
plt.show()

* Jaki procent zmienności opisują poszczególne
główne składowe?
* Jaka jest liczba istotnych głównych składowych? Jakie kryterium
zastosowano do dokonania wyboru?

In [None]:
# Rzut obiektów na płaszczyznę PC1/PC2
print('\nWyniki - rzut obiektów na płaszczyznę głównej składowej 1 oraz 2')
sns.scatterplot(x=PC[:,0], y=PC[:,1], sizes=50, palette='viridis',
hue=y)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()

Powyższy obraz punktów w przestrzeni głównych składowych jest kluczowym wynikiem PCA. Podczas jego tworzenia uwzględniono etykiety
obiektów.

Czy pozwala on nam na odróżnienie trzech klas obiektów?

Czy występują jakieś punkty, które nie wpasowują się w podział?

Wykonaj podobne wykresy przy rzucie na płaszczyzny: PC1/PC3 i PC2/PC3.

Czy stworzone wykresy pomagają na odróżnienie gatunku kosaćca w oparciu o pomiar geometryczny płatków?

Usuń operację autoskalowania i powtórz obliczenia.

Czy operacja autoskalowania była tutaj pomocna?

## Przykład 2

Eksploracja zbioru opisującego grupę siedmiu pacjentów
(dane o charakterze dydaktycznym)

Zbadano siedmiu pacjentów, rejestrując dla nich parametry:
par1, par2, par3, par4.

Dane w pliku: dane.txt

W tym przykładzie bardziej szczegółowo przeanalizujemy
możliwości PCA i w szczególności zwrócimy uwagę także na **wagi
składowych**.

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

In [None]:
dataset = pd.read_csv("dane.txt", delim_whitespace=True, header=0)
print(dataset.head())

In [None]:
X = dataset.values[:,0:4] # Zmienne objaśniające
y = dataset['grupa']

In [None]:
scaler = StandardScaler()
scaler.fit(X)
X = scaler.transform(X) # Autoskalowanie

In [None]:
pca = PCA(n_components=4)
modelPC = pca.fit(X)

In [None]:
# Procent opisywanej zmienności w formie num. i wykresu słupkowego
print('\nExplained variance / %: ')
for i in range(4):
  print('% 4.2f' % (100*pca.explained_variance_ratio_)[i])

splot = sns.barplot(x=np.arange(1,5), y=pca.explained_variance_ratio_, color='grey')
plt.xlabel('Component number')
plt.ylabel('Explained variance')
plt.show()

Jaki procent zmienności opisują poszczególne główne składowe?
Jaka jest liczba istotnych głównych składowych? Jakie kryterium zastosowano do dokonania wyboru?

In [None]:
# Skumulowana zmienność
sns.barplot(x=np.arange(1,5), y=np.cumsum(pca.explained_variance_ratio_), color='grey')
plt.xlabel('Number of components')
plt.ylabel('Cumulative explained variance')
plt.show()

In [None]:
# Wagi składowych
print('\nComponent loadings :')
# Uwaga! Wagi dla poszczególnych składowych w wierszach
print(' PC1 PC2')
for i in range(4):
  print(dataset.columns[i], '% 4.2f' % (modelPC.components_)[0,i], '% 4.2f' % (modelPC.components_)[1,i])
sns.scatterplot(x=modelPC.components_[0,:], y=modelPC.components_[1,:], hue=dataset.columns[0:4], palette='bright',s=80)

Analizując wagi składowych (model.components_) można zapisać, iż:

PC1 = 0.51\*par1 + 0.49\*par2 – 0.49\*par3 – 0.52\*par4

Wynika to z tego. iż każda główna składowa jest kombinacją liniową zmiennych
pierwotnych. Szczegóły w wykładzie.

    PCi = ai*Xi + bi*Xi ...

Posiadając te informacje, jak będzie wyglądało równanie dla PC2?

Wagi składowych często prezentujemy graficznie.

In [None]:
sns.scatterplot(x=modelPC.components_[0,:], y=modelPC.components_[1,:], hue=dataset.columns[0:4], palette='bright',s=80)

for i in range(0,4): # Wektory wskazujące wagi składowych
  ax=sns.lineplot(x=[0,modelPC.components_[0,i]], y=[0,modelPC.components_[1,i]], color='grey', linewidth=2.7)
  ax.arrow(0,0, modelPC.components_[0,i], modelPC.components_[1,i], lw=1, color='grey', head_length=.05, head_width=.04, length_includes_head=True)
plt.xlabel('Loadings PC1')
plt.ylabel('Loadings PC2')
plt.grid()
plt.show()

Kolorowe punkty to wagi składowych. Gdy zrzutujemy te punkty na
PC1, a potem PC2, możemy ocenić, jaki wpływ mają pierwotne
zmienne na poszczególne główne składowe.

Dodatkowo wnioskujemy, że par1 oraz par2 są skorelowane, gdyż są równoległe (w analizowanym zbiorze obiektów). Podobnie par3 oraz par4.

Z kolei pomiędzy par1 oraz par3 – brak jest korelacji.

In [None]:
# Rzut obiektów na płaszczyznę PC1/PC2
print('\n Results :')
PC = modelPC.transform(X)
sns.scatterplot(x=PC[:,0], y=PC[:,1], palette='dark', hue=y,
legend='full', s=80)
plt.xlabel('PC1 / '+'% 4.2f' %
(100*pca.explained_variance_ratio_)[0] + ' %')
plt.ylabel('PC2 / '+'% 4.2f' %
(100*pca.explained_variance_ratio_)[1] + ' %')
plt.legend()
plt.show()

Jak wyglądają wykresy PC1/PC3 i PC2/PC3?

Co w przypadku braku zastosowania autoskalowania?

## Przykład 3



Analiza zmian nowotworowych – rak piersi (opis zbioru
danych dostępny z poziomu skryptu)

Co nowego w tym przykładzie:
- zbiór danych typu bunch
- duża liczba zmiennych objaśniających (30), czyli PCA wykonamy
podając jako parametr (n_components) wartość mniejszą od 30, gdyż
tyle głównych składowych nas na pewno nie będzie interesować
- analiza wag składowych za pomocą mapy cieplnej

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

In [None]:
# Dane do obliczeń
cancer = load_breast_cancer()

# Tworzenie ramki danych
df = pd.DataFrame(data=cancer.data, columns=cancer.feature_names)
# Podgląd danych
print(df.head())

In [None]:
# Autoskalowanie
scaler = StandardScaler()
scaler.fit(df)
scaled_data = scaler.transform(df)

# PCA
pca = PCA(n_components=2)
x_pca = pca.fit_transform(scaled_data)

print(scaled_data.shape)
print(x_pca.shape)

In [None]:
# Analiza zmienności opisywanej przez poszczególne PC
print('\nOpisywana zmienność: ', pca.explained_variance_ratio_)
sns.barplot(x=np.arange(1,3), y=pca.explained_variance_ratio_,
color='blue')
plt.show()

Jaki procent zmienności opisują poszczególne główne składowe?

In [None]:
# Wyniki - rzut na PC1/PC2
plt.figure(figsize =(8, 6))
sns.scatterplot(x=x_pca[:,0], y=x_pca[:,1],hue=cancer['target'],palette="pastel")
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.legend()
plt.show()

In [None]:
# Wagi składowych (loadings == components_)
print('Loadings: ')
print(pca.components_[0:2,:])

In [None]:
df_pc = pd.DataFrame(pca.components_, columns = cancer['feature_names'])
df_pc

In [None]:
plt.figure(figsize=(14, 6))
sns.heatmap(df_pc, cmap='viridis')
plt.title('Principal Components correlation with the features')
plt.xlabel('Features')
plt.ylabel('Principal Components')

Powtórz ćwiczenie, użyj w obliczeniach mniejszej liczby zmiennych
objaśniających (np. tylko 10 początkowych).

## **Zadanie**

Przeprowadzić analizę składowych głównych dla zbioru pingwinów:


> !wget -q https://storage.googleapis.com/download.tensorflow.org/data/palmer_penguins/penguins.csv -O /tmp/penguins.csv

> df = pd.read_csv("/tmp/penguins.csv")

> df.head()


*   Określ, które zmienne są zmiennymi objaśniającymi i zostaną użyte w obliczeniach. Które zmienne zawierają etykiety obiektów? Czy któreś zmienne pominięte zostaną w obliczeniach?
*   Wykonać przynajmniej wykresy:
  * wariancja opisywana przez poszczególne główne składowe
  * rzut obiektów PC1/PC2
* Ile głównych składowych uznano za istotne? Według jakiego kryterium dokonano wyboru?












