# **Principal Component Analysis (PCA)**  
### *Analiza głównych składowych*

---

## **English**

Principal Component Analysis (PCA) is a dimensionality reduction technique that transforms high-dimensional data into a lower-dimensional space while preserving the most important information. It identifies the directions (principal components) along which the data varies the most.

### **Key Concepts**

1. **Principal Components**: Orthogonal directions that capture maximum variance
2. **Eigenvalues**: Measure the amount of variance explained by each component
3. **Eigenvectors**: Direction of the principal components
4. **Explained Variance Ratio**: Proportion of dataset's variance along each component
5. **Cumulative Explained Variance**: Total variance explained by first k components

### **Mathematical Foundation**

PCA finds principal components by solving the eigenvalue problem:
$$
C \mathbf{v} = \lambda \mathbf{v}
$$

Where:
- $C$ is the covariance matrix
- $\mathbf{v}$ are the eigenvectors (principal components)
- $\lambda$ are the eigenvalues (variance explained)

The transformation is given by:
$$
\mathbf{Z} = \mathbf{X} \mathbf{W}
$$

Where $\mathbf{W}$ contains the first k principal components.

### **Steps of PCA Algorithm**

1. **Standardize the data** (if features have different scales)
2. **Calculate covariance matrix** of the standardized data
3. **Find eigenvalues and eigenvectors** of the covariance matrix
4. **Sort eigenvalues** in descending order
5. **Select top k eigenvectors** as principal components
6. **Transform data** to the new k-dimensional space

### **Applications**

- **Dimensionality Reduction**: Reduce feature space while retaining information
- **Data Visualization**: Visualize high-dimensional data in 2D/3D
- **Noise Reduction**: Remove noise by keeping only important components
- **Feature Engineering**: Create new features that capture most variance
- **Data Compression**: Reduce storage requirements

### **Advantages**
- **Variance Preservation**: Maximizes variance retention
- **Orthogonal Components**: No correlation between components
- **Interpretability**: Clear understanding of data structure
- **Computational Efficiency**: Faster training with reduced dimensions

### **Disadvantages**
- **Linear Transformation**: Cannot capture non-linear relationships
- **Interpretability Loss**: Principal components may not have clear meaning
- **Sensitivity to Scaling**: Results depend on feature scaling
- **Information Loss**: Some variance is always lost

---

## **Polish**

Analiza głównych składowych (PCA) to technika redukcji wymiarowości, która przekształca dane wielowymiarowe do przestrzeni o niższej wymiarowości, zachowując najważniejsze informacje. Identyfikuje kierunki (główne składowe), wzdłuż których dane najbardziej się różnią.

### **Kluczowe pojęcia**

1. **Główne składowe**: Ortogonalne kierunki, które wychwytują maksymalną wariancję
2. **Wartości własne**: Mierzy ilość wariancji wyjaśnionej przez każdą składową
3. **Wektory własne**: Kierunek głównych składowych
4. **Współczynnik wyjaśnionej wariancji**: Proporcja wariancji zbioru danych wzdłuż każdej składowej
5. **Skumulowana wyjaśniona wariancja**: Całkowita wariancja wyjaśniona przez pierwsze k składowych

### **Podstawy matematyczne**

PCA znajduje główne składowe rozwiązując problem wartości własnych:
$$
C \mathbf{v} = \lambda \mathbf{v}
$$

Gdzie:
- $C$ to macierz kowariancji
- $\mathbf{v}$ to wektory własne (główne składowe)
- $\lambda$ to wartości własne (wyjaśniona wariancja)

Transformacja dana jest przez:
$$
\mathbf{Z} = \mathbf{X} \mathbf{W}
$$

Gdzie $\mathbf{W}$ zawiera pierwsze k głównych składowych.

### **Kroki algorytmu PCA**

1. **Standaryzacja danych** (jeśli cechy mają różne skale)
2. **Obliczenie macierzy kowariancji** standaryzowanych danych
3. **Znalezienie wartości i wektorów własnych** macierzy kowariancji
4. **Sortowanie wartości własnych** w porządku malejącym
5. **Wybór pierwszych k wektorów własnych** jako głównych składowych
6. **Transformacja danych** do nowej k-wymiarowej przestrzeni

### **Zastosowania**

- **Redukcja wymiarowości**: Zmniejszenie przestrzeni cech przy zachowaniu informacji
- **Wizualizacja danych**: Wizualizacja wielowymiarowych danych w 2D/3D
- **Redukcja szumu**: Usuwanie szumu przez zachowanie tylko ważnych składowych
- **Inżynieria cech**: Tworzenie nowych cech, które wychwytują najwięcej wariancji
- **Kompresja danych**: Zmniejszenie wymagań pamięciowych

### **Zalety**
- **Zachowanie wariancji**: Maksymalizuje retencję wariancji
- **Ortogonalne składowe**: Brak korelacji między składowymi
- **Interpretowalność**: Jasne zrozumienie struktury danych
- **Efektywność obliczeniowa**: Szybsze trenowanie ze zmniejszonymi wymiarami

### **Wady**
- **Transformacja liniowa**: Nie może wychwycić relacji nieliniowych
- **Utrata interpretowalności**: Główne składowe mogą nie mieć jasnego znaczenia
- **Wrażliwość na skalowanie**: Wyniki zależą od skalowania cech
- **Utrata informacji**: Pewna wariancja jest zawsze tracona


In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris, load_digits, make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import seaborn as sns
import pandas as pd

# Basic PCA Example with Iris Dataset
# Podstawowy przykład PCA ze zbiorem danych Iris
print("=== PCA with Iris Dataset | PCA ze zbiorem danych Iris ===\n")

# Load the Iris dataset
iris = load_iris()
X_iris, y_iris = iris.data, iris.target

print(f"Original dataset shape | Kształt oryginalnego zbioru: {X_iris.shape}")
print(f"Feature names | Nazwy cech: {iris.feature_names}")
print(f"Class names | Nazwy klas: {iris.target_names}")

# Standardize the data
scaler = StandardScaler()
X_iris_scaled = scaler.fit_transform(X_iris)

print(f"\nOriginal feature means | Średnie oryginalne: {X_iris.mean(axis=0)}")
print(f"Scaled feature means | Średnie po skalowaniu: {X_iris_scaled.mean(axis=0)}")
print(f"Original feature std | Odchylenia oryginalne: {X_iris.std(axis=0)}")
print(f"Scaled feature std | Odchylenia po skalowaniu: {X_iris_scaled.std(axis=0)}")

# Apply PCA
pca = PCA()
X_iris_pca = pca.fit_transform(X_iris_scaled)

# Print explained variance
print(f"\nExplained variance ratio | Współczynnik wyjaśnionej wariancji:")
for i, ratio in enumerate(pca.explained_variance_ratio_):
    print(f"  PC{i+1}: {ratio:.4f} ({ratio*100:.2f}%)")

print(f"\nCumulative explained variance | Skumulowana wyjaśniona wariancja:")
cumsum = np.cumsum(pca.explained_variance_ratio_)
for i, cum_ratio in enumerate(cumsum):
    print(f"  First {i+1} PCs: {cum_ratio:.4f} ({cum_ratio*100:.2f}%)")

# Components (loadings)
print(f"\nPrincipal Components (Loadings) | Główne składowe:")
components_df = pd.DataFrame(
    pca.components_.T,
    columns=[f'PC{i+1}' for i in range(len(pca.components_))],
    index=iris.feature_names
)
print(components_df.round(3))


=== PCA with Iris Dataset | PCA ze zbiorem danych Iris ===

Original dataset shape | Kształt oryginalnego zbioru: (150, 4)
Feature names | Nazwy cech: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Class names | Nazwy klas: ['setosa' 'versicolor' 'virginica']

Original feature means | Średnie oryginalne: [5.84333333 3.05733333 3.758      1.19933333]
Scaled feature means | Średnie po skalowaniu: [-1.69031455e-15 -1.84297022e-15 -1.69864123e-15 -1.40924309e-15]
Original feature std | Odchylenia oryginalne: [0.82530129 0.43441097 1.75940407 0.75969263]
Scaled feature std | Odchylenia po skalowaniu: [1. 1. 1. 1.]

Explained variance ratio | Współczynnik wyjaśnionej wariancji:
  PC1: 0.7296 (72.96%)
  PC2: 0.2285 (22.85%)
  PC3: 0.0367 (3.67%)
  PC4: 0.0052 (0.52%)

Cumulative explained variance | Skumulowana wyjaśniona wariancja:
  First 1 PCs: 0.7296 (72.96%)
  First 2 PCs: 0.9581 (95.81%)
  First 3 PCs: 0.9948 (99.48%)
  First 4 PCs: 1.0000 (100.00%)

