In [2]:
import numpy as np
import pandas as pd
from sklearn import datasets 
import matplotlib.pyplot as plt

In [6]:
import numpy as np

class MyPCA:
    def __init__(self, n_components):
        self.n_components = n_components
        self.mean_ = None
        self.std_ = None
        self.components_ = None
        self.explained_variance_ratio_ = None
        self.cumulative_explained_variance_ratio_ = None

    def fit(self, X):
        # Bước 1: Chuẩn hóa dữ liệu
        self.mean_ = np.mean(X, axis=0)
        self.std_ = np.std(X, axis=0)
        X_std = (X - self.mean_) / self.std_

        # Bước 2: Tính ma trận hiệp phương sai
        cov_matrix = np.cov(X_std, rowvar=False)

        # Bước 3: Tính các trị riêng (eigenvalues) và vector riêng (eigenvectors)
        eigenvalues, eigenvectors = np.linalg.eigh(cov_matrix)

        # Bước 4: Sắp xếp eigenvalues và eigenvectors giảm dần
        sorted_indices = np.argsort(eigenvalues)[::-1]
        eigenvalues = eigenvalues[sorted_indices]
        eigenvectors = eigenvectors[:, sorted_indices]

        # Bước 5: Lưu các thành phần chính
        self.components_ = eigenvectors[:, :self.n_components]

        # Bước 6: Tính tỉ lệ phương sai giải thích
        total_variance = np.sum(eigenvalues)
        explained = eigenvalues[:self.n_components]
        self.explained_variance_ratio_ = explained / total_variance
        self.cumulative_explained_variance_ratio_ = np.sum(self.explained_variance_ratio_)

    def transform(self, X):
        # Bước 1: Chuẩn hóa dữ liệu với mean và std đã tính ở fit()
        X_std = (X - self.mean_) / self.std_

        # Bước 2: Chiếu dữ liệu lên không gian PCA
        return np.dot(X_std, self.components_)


In [7]:
from sklearn.datasets import load_iris

# Tải dữ liệu
iris = load_iris()
X = iris['data']
y = iris['target']

# Khởi tạo và huấn luyện PCA với 4 thành phần
pca = MyPCA(n_components=4)
pca.fit(X)
X_pca = pca.transform(X)

# In thông tin kết quả
print("Tỉ lệ phương sai từng thành phần (EVR):", pca.explained_variance_ratio_)
print("Tổng phương sai giữ lại (CEVR):", pca.cumulative_explained_variance_ratio_)
print("Shape dữ liệu sau PCA:", X_pca.shape)
print("5 dòng đầu sau PCA:\n", X_pca[:5])


Tỉ lệ phương sai từng thành phần (EVR): [0.72962445 0.22850762 0.03668922 0.00517871]
Tổng phương sai giữ lại (CEVR): 1.0
Shape dữ liệu sau PCA: (150, 4)
5 dòng đầu sau PCA:
 [[ 2.26470281  0.4800266   0.12770602  0.0241682 ]
 [ 2.08096115 -0.67413356  0.23460885  0.10300677]
 [ 2.36422905 -0.34190802 -0.04420148  0.02837705]
 [ 2.29938422 -0.59739451 -0.09129011 -0.06595556]
 [ 2.38984217  0.64683538 -0.0157382  -0.03592281]]
