Importowanie 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

Zbiór danych New York Times

Ładowanie zbioru danych

In [None]:
df = pd.read_csv('./nyt-frame.csv', header = 0)
data = df.iloc[:, 9:]
array = data.values

Wyświetlanie dwudziestu losowych elementów słownika

In [None]:
header = list(df.columns.values[9:])
sample_word = np.random.choice(header, 20, replace=False)
print(sample_word)

Transformacja PCA

In [None]:
pca = PCA()
X_pca = pca.fit_transform(array)

15 elementów o największej wartości dla pierwszego komponentu

In [None]:
indices = sorted(enumerate(pca.components_[0]), 
                             key=lambda x: x[1], reverse=False)

top_indices = indices[:15]

for i, value in top_indices:
    print(i, header[i])

15 elementów o najmniejszej wartości dla pierwszego komponentu

In [None]:
indices = sorted(enumerate(pca.components_[0]), 
                             key=lambda x: x[1], reverse=True)

top_indices = indices[:15]

for i, value in top_indices:
    print(i, header[i])

15 elementów o największej wartości dla drugiego komponentu

In [None]:
indices = sorted(enumerate(pca.components_[1]), 
                             key=lambda x: x[1], reverse=False)

top_indices = indices[:15]

for i, value in top_indices:
    print(i, header[i])

15 elementów o najmniejszej wartości dla drugiego komponentu

In [None]:
indices = sorted(enumerate(pca.components_[1]), 
                             key=lambda x: x[1], reverse=True)

top_indices = indices[:15]

for i, value in top_indices:
    print(i, header[i])

Projekcja PCA

In [None]:
classes = df["class.labels"].values

reds = np.where(classes == "art")[0]
blues = np.where(classes == "music")[0]

plt.figure()
plt.scatter(X_pca[np.array(reds), 0], X_pca[np.array(reds), 1], c="red")
plt.scatter(X_pca[np.array(blues), 0], X_pca[np.array(blues), 1], c="blue")
plt.title("Projection by PCA")
plt.xlabel("1st component")
plt.ylabel("2nd component")
plt.show()

Wykres zależności wartości wariancji od 

In [None]:
variance_ratio = pca.explained_variance_ratio_
plt.plot(variance_ratio, 'ro')
plt.show()
print(sum(variance_ratio[0:10]))

Zbiór danych 04Cars

Dodatkowe importy

In [None]:
from sklearn.preprocessing import StandardScaler

Ładowanie zbioru danych z pominięciem 11 ostatnich kolumn

In [None]:
df = pd.read_csv('./04cars-data.csv', header = 0)
data = df.iloc[:, -11:]

print(data)

Przeskalowanie wartości

In [None]:
scaler = StandardScaler()

normalized_data = scaler.fit_transform(data)

Transformacja PCA

In [None]:
pca = PCA()
X_pca = pca.fit_transform(normalized_data)

In [None]:
# Macierz kowariancji
cov_matrix = np.cov(X_pca, rowvar=False)

# Wektory i wartości własne
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

sorted_indices = np.argsort(eigenvalues)[::-1]
eigenvalues_sorted = eigenvalues[sorted_indices]
eigenvectors_sorted = eigenvectors[:, sorted_indices]

# Liczba kierunków wiodących
n = len(eigenvalues)
k_values = range(1, n+1)

total_variance = np.sum(eigenvalues_sorted)

absolute_variance = eigenvalues_sorted
relative_variance = absolute_variance / total_variance

In [None]:
plt.figure(figsize=(10, 5))
plt.subplot(1, 2, 1)
plt.plot(k_values, absolute_variance, marker='o')
plt.xlabel('Numer kierunku wiodącego (k)')
plt.ylabel('Bezwzględna wariancja')
plt.title('Zależność bezwzględnej wartości wariancji od numeru k')

plt.subplot(1, 2, 2)
plt.plot(k_values, relative_variance, marker='o')
plt.xlabel('Numer kierunku wiodącego (k)')
plt.ylabel('Względna wariancja')
plt.title('Zależność względnej wartości wariancji od numeru k')

plt.show()

In [None]:
attributes = list(data.columns.values[:11])

pc1 = pca.components_[0]
pc2 = pca.components_[1]
pc3 = pca.components_[2]
pc_loadings = pca.components_.T
models_to_plot = 2

print('Attribute, PC1, PC2')

for i in range(0, pc1.shape[0]):
    print(f"{attributes[i]}:{pc1[i]}:{pc2[i]}")

In [None]:
plt.figure(figsize=(10, 8))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c='b', alpha=0.5)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('Biplot: PC1 vs PC2')

for i, model in enumerate(df['Vehicle Name'].head(models_to_plot)):
    plt.annotate(model, (X_pca[i, 0], X_pca[i, 1]), fontsize=8)

for i, (x, y) in enumerate(zip(pc_loadings[:, 0], pc_loadings[:, 1])):
    scale = 10
    plt.arrow(0, 0, scale*x, scale*y, color='r', alpha=0.5, head_width=0.2, head_length=0.2)
    plt.text(scale*x, scale*y, data.columns[i], color='g', ha='center', va='center')

plt.grid()
plt.axhline(0, color='black', linestyle='--', linewidth=0.5)
plt.axvline(0, color='black', linestyle='--', linewidth=0.5)
plt.show()

In [None]:
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(X_pca[:, 0], X_pca[:, 1], X_pca[:, 2], c='b', alpha=0.5)
ax.set_xlabel('PC1')
ax.set_ylabel('PC2')
ax.set_zlabel('PC3')
ax.set_title('Biplot: PC1 vs PC2 vs PC3')

for i, model in enumerate(df['Vehicle Name'].head(models_to_plot)):
    ax.text(X_pca[i, 0], X_pca[i, 1], X_pca[i, 2], model, fontsize=8)

for i, (x, y, z) in enumerate(zip(pc_loadings[:, 0], pc_loadings[:, 1], pc_loadings[:, 2])):
    scale = 15
    ax.quiver(0, 0, 0, scale*x, scale*y, scale*z, color='r', arrow_length_ratio=0.2)
    ax.text(scale*x, scale*y, scale*z, data.columns[i], color='g', ha='center', va='center')

plt.show()

Taki rodzaj wizualizacji pozwala zobrazować korelację między zmiennymi - im bardziej zbliżony jest kierunek wektorów, tym bardziej skorelowane są reprezentowane przez nie zmienne.

**Budowa eigenfaces w oparciu o LFW**

In [None]:
from sklearn.datasets import fetch_lfw_people

data_home = 'E:/LFW/'

lfw_people = fetch_lfw_people(min_faces_per_person=1, data_home=data_home)

n_people = 1
X_people = lfw_people.images[:n_people]
y_people = lfw_people.target[:n_people]

print("Number of images:", X_people.shape[0])
print("Number of unique individuals:", len(set(y_people)))