# Unsupervised Learning
## 1. Wprowadzenie
Unsupervised Learning jest sposobem nauki, w którym nie mamy "nauczyciela" mówiącego nam, jakie odpowiedzi są prawidłowe, a jakie nie.
Prosiliśmy o zaznaczenie definicji nieopisujących Unsupervised Learning, więc należało wybrać a i b.

Unsupervised Learning można podzielić na dwie główne podgrupy:
- Clustering – czyli klateryzacja, która polega na podziale naszego zbioru na podobne elementy. Przykładem takiego zadania może być podzielenie kredek na poszczególne kolory np. wszystkie odcienie czerwonego są w jednym miejscu, wszystkie odcienie niebieskiego są w innym miejscu

- Dimensionality Reduction – czyli redukcja wymiarowości jest techniką często stosowaną w przypadku danych zawierających wiele cech (features), z czego wiele z nich może być zbędnych.

## 2. Rozszerzona definicja Unsupervised Learning
### Podział Unsupervised Learning
#### Clustering
Służy do znajdowania elementów naszego zbioru posiadających wspólne cechy. Można to porównać do segregacji prania, gdzie dzielimy ubrania ze względu na kolor, stopień zabrudzenia itp. na poszczególne podgrupy.
#### Dimensionality Reduction
Służy, jak sama nazwa wskazuje, do zmniejszania wymiarowości danych. Załóżmy, że mamy zbiór danych, na którym mamy wykonać analizę statystyczną, aby określić kto najczęściej odwiedza nasze forum. Jednak ktoś nie pofatygował się, zrobił kopiuj-wklej z bazy danych do Excela i tutaj pojawia się zgrzyt.

Dostaliśmy zbiór, który posiada kilkadziesiąt cech np. ilość napisanych słów, najczęściej używane słowo, najczęściej polubione posty, ile razy zmieniano hasło, kiedy ostatnio ktoś logował się na dane konto.

W naszym kontekście duża ilość tych kolumn jest zbędna. Owszem, można wyrzucać je ręcznie, ale posiadając kolumny o nazwie np. "częstotliwość logowania się użytkownika na podforum" oraz "częstotliwość logowania się na subforum", oraz "częstotliwość logowania się na forum" oraz "częstotliwość logowania się", nie wiemy, która z nich jest istotniejsza od innych i usuwanie którejś ręcznie może okazać się strzałem w dziesiątkę albo pudłem.

## 3. Crossvalidation – po co, dlaczego działa?

In [None]:
X_train, y_train, X_test, y_test = train_test_split(X, y, test_size=0.2)

from sklearn.datasets import load_iris
iris = load_iris()
X, y, iris_classes = iris.data, iris.target, iris.target_names

from sklearn.model_selection import KFold
kf = KFold(n_splits=5, shuffle=True, random_state=10)

for fold_nr, (train_idx, test_idx) in enumerate(kf.split(X)):
  X_train = X[train_idx]
  X_test = X[test_idx]

  y_train = y[train_idx]
  y_test = y[test_idx]

In [None]:
import numpy as np

from sklearn.model_selection import KFold
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDClassifier

scaler = StandardScaler()

kf = KFold(n_splits=5, shuffle=True, random_state=1)

models = []
scores = []

for fold_nr, (train_idx, test_idx) in enumerate(kf.split(X)):
  X_train = X[train_idx]
  X_test =X[test_idx]

  y_train = y[train_idx]
  y_test = y[test_idx]

  # skalowanie danych wejściowych, aby model lepiej działał
  X_train = scaler.fit_transform(X_train)
  X_test = scaler.transform(X_test)

  clf = SGDClassifier(random_state=1).fit(X_train, y_train)

  models.append(clf)
  scores.append(clf.score(X_test, y_test))


print("wyniki poszczególnych foldów: ", scores)
print("średni wynik wszystkich foldów: ", np.array(scores).mean())

wyniki poszczególnych foldów:  [0.8666666666666667, 0.9333333333333333, 0.9666666666666667, 0.9, 0.9333333333333333]
średni wynik wszystkich foldów:  0.9199999999999999
Pojedynczy wynik:  0.8222222222222222

### Wrapper

In [None]:
from sklearn.model_selection import cross_val_score, cross_val_predict

# stworzenie klasyfikatora
clf = SGDClassifier(random_state=1)

# użycie metody cross_val_score do sprawdzenia
# działania naszego modelu na różnych podziałach
cv_score = cross_val_score(clf, X, y, cv=5)
print("wynik kroswalidacji: ", cv_score)
print("średni wynik wszystkich foldów: ", cv_score.mean())

In [None]:
X_train, X_test, y_train, y_test = \
  train_test_split(X, y, test_size=0.2, stratify=X["ilość_kupionych_butów"])

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification

X, y = make_classification(
    n_samples=1000,
    n_classes=2,
    weights=[0.99, 0.01],
    flip_y=0,
    random_state=1
)

X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size = 0.2, random_state=3)

train_0, train_1 = len(y_train[y_train==0]), len(y_train[y_train==1])
test_0, test_1 = len(y_test[y_test==0]), len(y_test[y_test==1])

print('>Train: 0=%d, 1=%d, Test: 0=%d, 1=%d' % (train_0, train_1, test_0, test_1))

In [None]:
>Train: 0=790, 1=10, Test: 0=200, 1=0

In [None]:
X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size = 0.2, random_state=3, stratify=y)

train_0, train_1 = len(y_train[y_train==0]), len(y_train[y_train==1])
test_0, test_1 = len(y_test[y_test==0]), len(y_test[y_test==1])

print('>Train: 0=%d, 1=%d, Test: 0=%d, 1=%d' % (train_0, train_1, test_0, test_1))

In [None]:
>Train: 0=792, 1=8, Test: 0=198, 1=2

In [None]:
from sklearn.model_selection import StratifiedKFold

# ... dotąd tak samo, jak w poprzednim przykładzie

# dodatkowy parametr y w metodzie split
for fold_nr, (train_idx, test_idx) in enumerate(kf.split(X, y)):
    ...

## 4. Clustering
### Definicja
Definicja ta jest bardzo podobna do definicji klasyfikacji, w której również grupujemy elementy, lecz tam zawczasu znamy klasy, do których dany element powinien należeć. W przypadku Clusteringu nie mamy na wejściu takiej informacji.
### Do czego się stosuje
Clustering ma wiele zastosowań. Jest używany między innymi do:
 -segmentacji grup kupujących, aby widzieć, jakie są grupy docelowe naszej nowej kampanii promocyjnej oraz na czym skupić uwagę podczas jej projektowania,
- rekomendacji np. podobnych playlist na Spotify czy YouTube,
- wykrywania anomalii: wybieramy te grupy, które posiadają wielu członków, natomiast maluteńkie (względem pozostałych grup) traktujemy jako anomalie i odrzucamy,
- wyszukiwania podobnych elementów wśród np. zdjęć (podobny rozkład pikseli).
### Podstawowe metody (KMeans)

In [None]:
import numpy as np

from sklearn.datasets import make_blobs

# środki naszych klastrów

centroids = np.array([
    [ 0.8, 2.0],
    [-0.5, 2.0],
    [-2.0, 2.0],
    [-2.5, 2.5],
    [-2.5, 1.0]
])

# wprowadzenie szumu do naszych klastrów, aby rozrzucić próbki
blob_std = np.array([0.4, 0.3, 0.1, 0.1, 0.1])

# stworzenie zbioru danych
X, y = make_blobs(
    n_samples=3000,
    centers=centroids,
    cluster_std=blob_std,
    random_state=7
)

In [None]:
from sklearn.cluster import KMeans

clf = KMeans(n_clusters=5)

# możemy użyć metod fit(), predict()
clf.fit(X)
y_pred = clf.predict(X)

# albo metody fit)predict, która łączy dwie powyższe
y_pred = clf.fit_predict(X)

In [None]:
plt.figure(figsize=(10, 5))
plot_decision_boundaries(clf, X)
plt.show()

W praktyce K-means źle radzi sobie ze zbiorami gdzie "bloby", grupy danych, mają różne średnice. Bierze się to z jego sposobu działania, który przypisuje dane do klastrów stosując zasadę, że do jakiej "centroidy", czyli środka danej grupy jest punktowi najbliżej, tam zostanie on zaklasyfikowany.

### Zasada działania KMeans
- algorytm wybiera losowo centroidy, czyli środki poszczególnych grup,
- przypisuje punkty do grup, biorąc pod uwagę najmniejszą odległość od centroidy,
- poprawia pozycję centroid tak, aby najbardziej pasowały do danych,
- powtarza od punktu 2 aż do momentu, kiedy centroidy przestaną się ruszać,
- algorytm wykorzystuje wybór losowych centroidów, zatem algorytm jest uruchamiany kilkukrotnie, żeby zweryfikować najczęstszą zbieżność.

### Szybsze wersje KMeans

In [None]:
centroids = np.array([
    [ 0.8, 2.0],
    [-0.5, 2.0],
    [-2.0, 2.0],
    [-2.5, 2.5],
    [-2.5, 1.0]
])

blob_std = np.array([0.4, 0.3, 0.1, 0.1, 0.1])

# 3 miliony punktów!!!
X, y = make_blobs(
    n_samples=30000000,
    centers=centroids,
    cluster_std=blob_std,
    random_state=7
)

In [None]:
from sklearn.cluster import MiniBatchKMeans

%timeit

# metoda MiniBatchKMeans
MBKMeans_clf = MiniBatchKMeans(n_clusters=5, max_iter=10, random_state=1)
MBKMeans_clf.fit(X)

1 loop, best of 3: **11.8 s per loop**

from sklearn.cluster import KMeans

%timeit

# metoda KMeans
KMeans_clf = KMeans(n_clusters=5, max_iter=10, random_state=1)
KMeans_clf.fit(X)

1 loop, best of 3: **15.9 s per loop**

### Jak dobrać ilość klastrów?

In [None]:
# tworzymy 19 algorytmów z k od 1 do 19
kmeans_per_k = [
    KMeans(n_clusters=k, random_state=2).fit(X)
    for k in range(2, 20) # zaczynamy od wartości n_clusters wynoszącej 2, gdyż nie ma sensu dzielenia zbioru dla 1 klastra
]

In [None]:
import matplotlib.pyplot as plt
inertias = [model.inertia_ for model in kmeans_per_k]
plt.plot(range(2, 20), inertias, 'bx-')
plt.xlabel('K')
plt.ylabel('SSE')
plt.title('Elbow Method using SSE')
plt.show()

In [None]:
from sklearn.metrics import silhouette_score

silhouette_scores = [
    silhouette_score(X, model.labels_)
    for model in kmeans_per_k
]

In [None]:
from matplotlib import pyplot as plt

plt.figure(figsize=(8, 3))
plt.plot(range(2, 10), silhouette_scores, "bo-")
plt.ylabel("Silhouette score", fontsize=14)
plt.grid()
plt.show()

KMeans we wszystkich odmianach posiada jedną zasadniczą wadę: źle działa dla danych, które nie są zbite w sferyczne grupy. Jeżeli mamy dane, które układają się np. elipsoidalnie (rozrzut wartości w grupie jest różny w różnych kierunkach), KMeans nie będzie działał już tak dobrze.

### Praktyczne użycie KMeans

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

X_digits, y_digits = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = \
    train_test_split(X_digits, y_digits, random_state=2)

log_reg = LogisticRegression(multi_class="ovr", max_iter=5000, random_state=2)
log_reg.fit(X_train, y_train)

print("Bez KMeans :", log_reg.score(X_test, y_test))

pipeline = Pipeline([
    ("kmeans", KMeans(
        n_clusters=40,
        random_state=2
    )),
    ("log_reg", LogisticRegression(
        multi_class="ovr",
        max_iter=5000,
        random_state=2
    )),
])
pipeline.fit(X_train, y_train)

print("Z KMeans :", pipeline.score(X_test, y_test))

Bez KMeans : 0.9466666666666667
Z KMeans : 0.9622222222222222

Jest prostym algorytmem do podziału danych.

Nadaje się do przeskalowanych danych, które są ułożone w zwartą formę.

Słabo działa w przypadku danych nieprzeskalowanych lub niesferycznych.

Powinien być pierwszym wyborem do przetestowania czy i jak zbiór się dzieli. Zazwyczaj, dla pewności, bierze się kilka razy więcej klastrów niż mamy klas.

W praktyce n_init trzeba ustawić na wartość inną niż domyślna 1, aby model dobrze działał. Jest to związane z tym, że model ten ma tendencję do znajdowania czasami złych rozwiązań. Hiperparmetr ten mówi nam, ile razy sklearn ma odpalić algorytm i zachować tylko najlepszy wynik. Im więcej razy go puścimy, tym wynik będzie lepszy, jednak algorytm będzie dłużej działał.

### DBSCAN

Algorytm ten dobrze działa, jeśli dane są gęsto rozmieszczone i jest wyraźna separacja między poszczególnymi klastrami.

Ponadto pozwala on odsiać wszystkie anomalie, czyli dane odbiegające wartościami od pozostałych.

Jest to przydatne dlatego, że podczas nauki modelu takie anomalie potrafią wiele namieszać i można spędzić długie godziny, poprawiając model.

In [None]:
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

# tworzymy zbiór moon
X, y = make_moons(n_samples=1000, noise=0.08)

# tworzymy pierwszy klasyfikator DBSCAN z eps = 0.05
dbscan = DBSCAN(eps=0.05, min_samples=5)
dbscan.fit(X)

# drugi DBSCAN z eps = 0.2 (większy epsilon, większa przestrzeń wokół)
dbscan_2 = DBSCAN(eps=0.2, min_samples=5)
dbscan_2.fit(X)

In [None]:
KMeans_clf = KMeans(n_clusters=2, max_iter=100000)
KMeans_clf.fit(X)

plot_decision_boundaries(KMeans_clf, X)

Jest to prosty algorytm, który posiada tylko dwa hiperparametry:
- epsilon
- min_samples

Z odpowiednio dobranymi parametrami potrafi dopasować się do KAŻDEGO zbioru.

Potrafi wykrywać anomalie (outliers).

Nie posiada jednak metody predict() – jeżeli chcemy zobaczyć, gdzie wpasowują się nowe dane, musimy przeszkolić klasyfikator na nowo ze zbiorem zawierającym stare i nowe dane.

Wada:
- Wymaga O(m^2) pamięci (m — ilość elementów), ale jest bardzo szybki: O(m*log(m)).

### Gaussian Mixture Models (GNN)

In [None]:
from sklearn.datasets import make_blobs
import numpy as np

# tworzymy "bloby", czyli grupy danych
X1, y1 = make_blobs(n_samples=800, centers=((2, -2), (-2, 2)), random_state=2)
X1 = X1.dot(np.array([[0.374, 0.95], [0.732, 0.598]]))
X2, y2 = make_blobs(n_samples=200, centers=1, random_state=42)
X2 = X2 + [6, -8]

# przydatna metoda NumPy r_ - służy do składania dwóch tablic wg wybranej osi
X = np.r_[X1, X2]
y = np.r_[y1, y2]

In [None]:
def plot_gaussian_mixture(clf, X, resolution=1000):
    ...

In [None]:
from sklearn.mixture import GaussianMixture

gm = GaussianMixture(n_components=3, n_init=10, random_state=42)
gm.fit(X)

plt.figure(figsize=(16, 8))

plot_gaussian_mixture(gm, X)
plt.show()

In [None]:
gm.coverged_
gm.n_iter_
gm.predict(X_test)

### GMM jako wykrywacz anomalii

In [None]:
# Pobieramy wartości dla naszego zbioru, które
# mówią nam, jak bardzo element należy do klastrów
density = gm.score_samples(X)

# Tworzymy wartość graniczną, czyli threshold. Wartości,
# które mają wyniki z poprzedniej linii mniejsze od naszego
# threshold, są anomaliami, więc zostają odsiane

# W naszym przypadku chcemy odsiać 5% najgorszych wartości
threshold = np.percentile(density, 5)

# Odsiewamy te wartości poprzez proste porównanie
anomalie = X[density < threshold]

Usuwanie anomalii stosuje się często w następujący sposób:
- skalowanie,
- sprawdzanie, czy są anomalie,
- trenowanie modelu z anomaliami,
- usuwanie anomalii,
- trenowanie nowego modelu bez anomalii,
- sprawdzanie, który model jest lepszy,
- wybór lepszego modelu.

## 5. Redukcja wymiarowości
### Analiza głównych składowych

In [None]:
means = [2.13, -99, 0.11, -1.01] # cztery zmienne z innymi średnimi

# Macierz kowariancji
cov_matrix = np.array([[1, 0.96, 0, 0], [0.96, 1, 0, 0], [0, 0, 1, 0.87], [0, 0, 0.87, 1]])
print('Covariance matrix')
print(cov_matrix)

n=1000 # Liczba wierszy
df = np.random.multivariate_normal(means, cov_matrix, n)
print('Dataframe:')
print(df)

In [None]:
fig = plt.figure(figsize=(8, 16))
ax = fig.add_subplot(111, projection='3d')
img = ax.scatter(xs=df[:,0], ys=df[:,1], zs=df[:,2], c=df[:,3], s=60)
cax = fig.add_axes([ax.get_position().x1+0.10, ax.get_position().y0+0.14, 0.02, ax.get_position().height*0.3])
fig.colorbar(img, cax=cax)
plt.show()

#### Standaryzacja

In [None]:
print('Przed standaryzacją')
print('Średnia:\n',df.mean(axis=0))
print('Odchylenie standardowe:\n',df.std(axis=0))

# Standaryzacja
df_standardizated = (df - np.mean(df, axis=0)) / np.std(df, axis=0)

print('\nPo standaryzacji')
print('Średnia:\n',df_standardizated.mean(axis=0))
print('Odchylenie standardowe:\n',df_standardizated.std(axis=0))

#### Utworzenie macierzy kowariancji w oparciu o wystandaryzowaną macierz

In [None]:
covariance_matrix = np.cov(df_standardizated.T)
covariance_matrix

#### Wektory i Wartości własne

In [None]:
eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix)
print('Wartości własne:\n',eigenvalues,'\n\nWektory własne:\n',eigenvectors)

#### Wyjaśniona wariancja

In [None]:
explained_variance = [round((i/np.sum(eigenvalues)), 3) for i in sorted(eigenvalues, reverse=True)]
print(explained_variance)

#### Transformacja cech

In [None]:
eigenpairs = [(np.abs(eigenvalues[i]), eigenvectors[:, i]) for i in range(len(eigenvalues))]
eigenpairs.sort(key = lambda k: k[0], reverse=True)
w = np.hstack((eigenpairs[0][1][:, np.newaxis],
               eigenpairs[1][1][:, np.newaxis]))
pc1 = df.dot(w.T[0])
pc2 = df.dot(w.T[1])
fig = plt.figure(figsize=(16, 8))
ax = fig.add_subplot(111)
ax.scatter(x=pc1, y=pc2, c='black', s=60)
ax.set_xlabel(xlabel='PC1', rotation=0, loc='center', size=15)
ax.set_ylabel(ylabel='PC2', rotation=90, loc='center', size=15)
plt.show()

### PCA - zastosowanie

In [None]:
import pandas as pd
import seaborn as sns
iris = sns.load_dataset('iris')
iris

In [None]:
iris['species'].value_counts()

### Wizualizacja

In [None]:
fig = plt.figure(figsize=(13, 13))
ax = fig.add_subplot(111, projection='3d')
img = ax.scatter(xs=iris.loc[iris['species']=='virginica', 'sepal_length'],
                 ys=iris.loc[iris['species']=='virginica','sepal_width'],
                 zs=iris.loc[iris['species']=='virginica', 'petal_length'],
                 s=iris.loc[iris['species']=='virginica','petal_width']*50,
                 c='red', label='virginica')
img = ax.scatter(xs=iris.loc[iris['species']=='setosa', 'sepal_length'],
                 ys=iris.loc[iris['species']=='setosa','sepal_width'],
                 zs=iris.loc[iris['species']=='setosa', 'petal_length'],
                 s=iris.loc[iris['species']=='setosa','petal_width']*50,
                 c='green', label='setosa')
img = ax.scatter(xs=iris.loc[iris['species']=='versicolor', 'sepal_length'],
                 ys=iris.loc[iris['species']=='versicolor','sepal_width'],
                 zs=iris.loc[iris['species']=='versicolor', 'petal_length'],
                 s=iris.loc[iris['species']=='versicolor','petal_width']*50,
                 c='blue', label='versicolor')
ax.set_xlabel(xlabel='sepal length', size=15)
ax.set_ylabel(ylabel='sepal width', size=15)
ax.set_zlabel(zlabel='petal length', size=15)
ax.set_title('Rozmiar punktu: petal width', size=15)
plt.legend(title='Species')
plt.show()

In [None]:
sns.pairplot(iris,
             hue='species',
             palette={'virginica': 'red', 'setosa': 'green', 'versicolor': 'blue'})
plt.show()

In [None]:
plt.figure(figsize=(12, 12))
ax = sns.heatmap(iris.corr(),
                 xticklabels=iris.corr().columns,
                 yticklabels=iris.corr().columns,
                 cmap='RdYlGn',
                 center=0,
                 annot=True,
                 vmin=-1,
                 vmax= 1)

plt.title('Korelacja dla zmiennych z IRIS', fontsize=24)
bottom, top = ax.get_ylim()
ax.set_ylim(bottom + 0.5, top - 0.5)
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.show()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
X = iris.drop('species', axis=1).copy()
y = iris['species'].copy()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42, stratify=y)
scaler = StandardScaler()
X_train_scaler = scaler.fit_transform(X_train)
pca = PCA(random_state=42)
X_train_pca = pca.fit_transform(X_train_scaler)
train_iris = pd.DataFrame(np.concatenate([X_train_pca,
                          np.array(y_train).reshape(-1, 1)],
                          axis=1))
train_iris.rename(columns = {0: 'PC1', 1: 'PC2',
                             2: 'PC3', 3: 'PC4', 4: 'species'},
                  inplace=True)
train_iris[['PC1', 'PC2','PC3','PC4']] = train_iris[['PC1', 'PC2','PC3', 'PC4']].astype(float)
train_iris.corr()

#### Grupowanie cech – jakie zmienne przedstawiają tę samą informację

In [None]:
fig, ax = plt.subplots(figsize=(12, 12))
plt.imshow(pca.components_.T, cmap = 'Spectral', vmin =-1, vmax = 1)
plt.yticks(range(len(X_train.columns)), X_train.columns, fontsize=12)
plt.xticks(range(4), range(1, 5), fontsize=12)
plt.xlabel('Główne Składowe', fontsize=15)
plt.ylabel('Zmienne', fontsize=15)
plt.title('Rozkład zmiennych według głównych składowych ~ PCA', fontsize=20)
plt.colorbar()
plt.show()

#### Redukcja wymiaru bez znacznej utraty informacji

In [None]:
fig = plt.figure(figsize=(12,8))
fig.subplots_adjust(wspace=.4, hspace=.4)
ax = fig.add_subplot(2, 1, 1)
ax.bar(range(1, 1+pca.n_components_), pca.explained_variance_ratio_, color='black')
ax.set(xticks=[1, 2, 3, 4])
plt.yticks(np.arange(0, 1.1, 0.1))
plt.title('Wyjaśniona wariancja', fontsize=15)
plt.xlabel('Główne Składowe', fontsize=13)
plt.ylabel('% wyjaśnionej wariancji', fontsize=13)
ax = fig.add_subplot(2, 1, 2)
ax.bar(range(1, 1+pca.n_components_), np.cumsum(pca.explained_variance_ratio_), color='black')
ax.set(xticks=[1, 2, 3, 4])
plt.yticks(np.arange(0, 1.1, 0.1))
plt.title('Skumulowanana Wyjaśniona wariancja', fontsize=15)
plt.xlabel('Główne Składowe', fontsize=13)
plt.ylabel('% wyjaśnionej wariancji', fontsize=13)
plt.show()

principal_component = 1
cum_explained_var = 0
for explained_var in pca.explained_variance_ratio_:
    cum_explained_var += explained_var
    print(f'Główna składowa: {principal_component}, Wyjaśniona wariancja: {np.round(explained_var, 5)}, Skumulowana Wyjaśniona wariancja: {np.round(cum_explained_var, 5)}')
    principal_component += 1

#### Wizualizacja wielowymiarowych danych z wykorzystaniem redukcji zmiennych

In [None]:
fig = plt.figure(figsize=(12, 12))
plt.scatter(x=train_iris.loc[train_iris['species']=='virginica', 'PC1'],
            y=train_iris.loc[train_iris['species']=='virginica','PC2'],
            c='red', label='virginica', s=50)
plt.scatter(x=train_iris.loc[train_iris['species']=='setosa', 'PC1'],
            y=train_iris.loc[train_iris['species']=='setosa','PC2'],
            c='green', label='setosa', s=50)
plt.scatter(x=train_iris.loc[train_iris['species']=='versicolor', 'PC1'],
            y=train_iris.loc[train_iris['species']=='versicolor','PC2'],
            c='blue', label='versicolor', s=50)
plt.xlabel(xlabel='PC1', size=15)
plt.ylabel(ylabel='PC2', size=15)
plt.title('Wykres Głównych Składowych', size=20)
plt.legend(title='Species')
plt.show()

Redukcja wymiarowości jako inżyniera cech przed Uczeniem Nadzorowanym

In [None]:
from sklearn.linear_model import LogisticRegression
from prettytable import PrettyTable
import datetime

X_test_scaler = scaler.transform(X_test)
X_test_pca = pca.transform(X_test_scaler)

def train_and_check(Xtrain, Xtest, ytrain, ytest):
    classifier = LogisticRegression(max_iter=100000)
    start = datetime.datetime.now()
    classifier.fit(Xtrain, ytrain)
    end = datetime.datetime.now()
    time = (end - start).microseconds
    evaluation = np.round(classifier.score(Xtest, ytest), 4)
    return evaluation, time

results = PrettyTable(['Model',
                       'Dokładność',
                       'Czas trenowania (microseconds)'])

# Trenowanie modelu na nieprzetworzonym zbiorze
not_scaled_data = train_and_check(X_train, X_test, y_train, y_test)
results.add_row(['Nieskalowane dane', not_scaled_data[0], not_scaled_data[1]])

# Trenowanie modelu na przetworzonym zbiorze
scaled_data = train_and_check(X_train_scaler, X_test_scaler, y_train, y_test)
results.add_row(['Skalowane dane', scaled_data[0], scaled_data[1]])

# Trenowanie modelu na czterech Głównych Składowych
PC4_data = train_and_check(X_train_pca, X_test_pca, y_train, y_test)
results.add_row(['4 PC', PC4_data[0], PC4_data[1]])

# Trenowanie modelu na trzech Głównych Składowych
PC3_data = train_and_check(X_train_pca[:, :3], X_test_pca[:, :3], y_train, y_test)
results.add_row(['3 PC', PC3_data[0], PC3_data[1]])

# Trenowanie modelu na dwóch Głównych Składowych
PC2_data = train_and_check(X_train_pca[:, :2], X_test_pca[:, :2], y_train, y_test)
results.add_row(['2 PC', PC2_data[0], PC2_data[1]])

# Trenowanie modelu na jednej Głównej Składowej
PC1_data = train_and_check(X_train_pca[:, :1], X_test_pca[:, :1],  y_train, y_test)
results.add_row(['1 PC', PC1_data[0], PC1_data[1]])
print(results)