##konsep eigen value dan eigen vektor##

Analisis Komponen Utama
Secara intuitif , PCA adalah prosedur transformasi yang mengubah matriks data dengan fitur-fitur yang mungkin berkorelasi menjadi sekumpulan variabel yang tidak berkorelasi linier yang disebut komponen utama . Setiap komponen utama merupakan kombinasi linier dari fitur asli ( PCᵢ = Xϕᵢ , di sini PCᵢ adalah singkatan dari komponen utama ke-i) dan memperhitungkan varian terbesar yang mungkin terjadi serta ortogonal terhadap komponen sebelumnya (jika i ≠ j, PCᵢ ⋅ PCⱼ = 0 ).

Mengingat matriks fitur X berbentuk n × p yang berada di tengah , yaitu rata-rata kolom telah dikurangi dan sekarang sama dengan nol , kasus penggunaan PCA yang umum meliputi:

1.Pengurangan dimensi: temukan perkiraan dimensi yang lebih rendah dari X bentuk n × k (di mana k jauh lebih kecil dari p ) dengan tetap mempertahankan sebagian besar varian, sebagai langkah pra-pemrosesan untuk klasifikasi atau visualisasi.

2.Rekayasa fitur: membuat representasi baru dari X dengan p fitur yang tidak berkorelasi linier.

3.Pembelajaran tanpa pengawasan: ekstrak k komponen utama (di mana k seringkali jauh lebih kecil dari p ).

4.Pahami kumpulan data dengan melihat bagaimana fitur asli berkontribusi terhadap faktor-faktor ini

#PCA melalui Dekomposisi Nilai Eigen


Secara konvensional, PCA didasarkan pada EVD pada matriks kovarians sampel C . Dengan asumsi X berada di tengah:


C berbentuk p× p . Ini simetris dan karenanya selalu dapat didiagonalisasi. Kita dapat menerapkan dekomposisi nilai eigen:


Q adalah matriks ortogonal dan kolom-kolomnya merupakan vektor eigen dari C

 ( Q =[ q₁ , q₂ , …, qₚ ])

. ∧ adalah matriks diagonal dengan nilai eigen dalam urutan menurun pada diagonalnya

( λ₁ ≥ λ₂ ≥ … ≥ λₚ ≥ 0):


Di sini qᵢ adalah kolom ke-i dari Q dan disebut juga arah utama ke-i . λᵢ adalah elemen diagonal ke-i dari ∧. Komponen utama merupakan proyeksi matriks fitur asli pada arah utama dan dapat diperoleh dengan XQ . Proporsi varians total yang dijelaskan oleh komponen utama ke-i adalah

 λᵢ / (λ₁ + λ₂ + .. + λₚ) .

Di bawah ini adalah implementasi PCA melalui EVD dengan Python:

In [2]:

import numpy as np


def pcaEVD(X):
    # Center X and get covariance matrix C
    n, p = X.shape
    X -= X.mean(axis=0)
    C = (X.T@X) / (n-1)

    # EVD
    e_vals, e_vecs = np.linalg.eig(C)
    idx = e_vals.argsort()[::-1]
    e_vals = e_vals[idx]
    e_vecs = e_vecs[:, idx]

    # Return principal compnents and eigenvalues to calculate the portion of sample variance explained
    return (X @ e_vecs), e_vals

#PCA melalui Dekomposisi Nilai Singular

Untuk matriks X, t di sini selalu ada matriks U , Σ , V sedemikian rupa sehingga:


U dan V keduanya ortogonal dan Σ diagonal. Elemen diagonal dari Σ disebut nilai singular ( σ₁ ≥ σ₂ ≥ … ≥ σₚ ≥ 0). Pertimbangkan matriks kovarians C :


Bandingkan dengan di atas, kita tahu bahwa kolom V adalah arah utama, dan nilai eigen ke-i λᵢ = σᵢ²/(n-1) . Komponen utama dapat diperoleh dengan XV = UΣ .

Bagaimana cara ini lebih baik dibandingkan penerapan EVD?

Efisiensi komputasi: untuk data berdimensi tinggi ( p >> n ), melakukan penghitungan dengan matriks kovarians C bisa menjadi tidak efisien.
Presisi numerik: pembentukan matriks kovarians C dapat menyebabkan hilangnya presisi.
Stabilitas numerik: sebagian besar implementasi SVD menggunakan pendekatan bagi-dan-taklukkan, sedangkan implementasi EVD menggunakan algoritma QR yang kurang stabil .
Di bawah ini adalah implementasi PCA melalui SVD dengan Python:

In [4]:

def pcaSVD(X):
    # Center X and get covariance matrix C
    n, p = X.shape
    X -= X.mean(axis=0)

    # SVD
    u, sigma, vt = np.linalg.svd(X, full_matrices=False)

    # Return principal compnents and eigenvalues to calculate the portion of sample variance explained
    return (X @ vt.T), (sigma**2) / (n-1)

#PCA untuk Pembelajaran Tanpa Pengawasan

Kami akan menggunakan kumpulan data bunga Iris sebagai ilustrasi tentang cara kerja PCA sebagai alat pembelajaran tanpa pengawasan untuk membantu memahami data.

Kami akan memuat kumpulan data Iris dari scikit-learn . Matriks fitur berisi 150 observasi pada 4 atribut. Setiap baris berisi ukuran panjang dan lebar (dalam cm) sepal dan kelopak bunga iris. Targetnya adalah jenis (1 dari 3) bunganya, namun kita hanya akan menggunakannya untuk visualisasi.

Muat kumpulan data, lakukan prapemrosesan data, dan terapkan SVD. Pertanyaan penting dalam mempersiapkan PCA adalah apakah akan membakukan kumpulan data (yaitu memastikan deviasi standar setiap kolom adalah satu) selain pemusatan. Dari sudut pandang saya, jika fitur-fiturnya berada pada skala yang sama, standarisasi tidak diperlukan. Oleh karena itu, kami hanya akan memusatkan matriks fitur di bawah.

nilai determinan dari matriks segitiga atas dan bawah sesuai dengan aturan bahwa determinan dari matriks segitiga adalah hasil perkalian dari elemen-elemen diagonal utamanya

In [5]:

from sklearn.datasets import load_iris


iris = load_iris()
X = iris['data']
y = iris['target']

X_ = X - X.mean(axis=0)
u, sigma, vt = np.linalg.svd(X_, full_matrices=False)

#contoh hitung eigen value dan eigen vektor pake numpy

Untuk menghitung nilai eigen (eigenvalues) dan vektor eigen (eigenvectors) dari sebuah matriks menggunakan numpy, kamu bisa menggunakan fungsi numpy.linalg.eig.
Berikut adalah langkah-langkah dan contoh kode untuk melakukannya:

Impor numpy.

1.Definisikan matriks yang ingin kamu hitung nilai eigen dan vektor eigennya.

2.Gunakan fungsi numpy.linalg.eig untuk menghitung nilai eigen dan vektor eigen.

3.Tampilkan hasilnya.

Berikut adalah contoh kode lengkapnya:

In [6]:
import numpy as np

# Definisikan matriks
A = np.array([[4, 2],
              [1, 3]])

# Hitung nilai eigen dan vektor eigen
eigenvalues, eigenvectors = np.linalg.eig(A)

# Tampilkan hasilnya
print("Nilai Eigen (Eigenvalues):")
print(eigenvalues)

print("\nVektor Eigen (Eigenvectors):")
print(eigenvectors)


Nilai Eigen (Eigenvalues):
[5. 2.]

Vektor Eigen (Eigenvectors):
[[ 0.89442719 -0.70710678]
 [ 0.4472136   0.70710678]]


Penjelasan:

A adalah matriks 2x2 yang ingin kita analisis.

1.np.linalg.eig(A) mengembalikan dua objek: array eigenvalues dan matriks eigenvectors.

2.eigenvalues adalah array yang berisi nilai eigen dari matriks A.

3.eigenvectors adalah matriks di mana setiap kolomnya adalah vektor eigen yang sesuai dengan nilai eigen pada posisi yang sama dalam array eigenvalues.

