# Implémentation du calcul de PCA

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from random import randint
from tensorflow import keras
from sklearn.decomposition import PCA as sklearnPCA

In [2]:
def centré(data):
    """
    Centrer les données.
    :param data: Données à centrer
    :return: Données centrées
    """
    # Calculer la moyenne
    mean = data.mean(axis=0)

    # Centrer les données
    centered_data = (data - mean)

    return centered_data

In [3]:
def réduite(data):
    """
    Réduire les données.
    :param data: Données à réduire
    :return: Données réduites
    """
    # Calculer l'écart type
    std = data.std(axis=0)

    # Réduire les données
    scaled_data = data / std

    return scaled_data

In [4]:
def covariance(data):
    """
    Calculer la matrice de covariance.
    :param data: Données centrées et réduites
    :return: Matrice de covariance
    """
    # Calculer la matrice de covariance
    covariance_matrix = np.cov(data, rowvar=False)

    return covariance_matrix

In [5]:
def vecteurPropre(data):
    """
    Calculer les vecteurs propres et les valeurs propres.
    :param data: Données à analyser
    :return: Vecteurs propres et valeurs propres
    """
    # Calculer la matrice de covariance
    covariance_matrix = covariance(data)

    # Calculer les valeurs propres et les vecteurs propres
    eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix)

    return eigenvalues, eigenvectors

In [17]:
def PCA(data, n_component):
    """
    Appliquer l'Analyse en Composantes Principales (PCA).
    :param data: Données à analyser
    :param n_component: Nombre de composantes principales à conserver
    :return: Composantes principales
    """
    # Centrer et réduire les données
    centered_reduced_data = centré(data)

    # Calculer les vecteurs propres et les valeurs propres
    eigenvalues, eigenvectors = vecteurPropre(centered_reduced_data)

    # Sélectionner les n premières composantes principales
    principal_components = eigenvectors[:, :n_component]

    # Projeter les données sur les composantes principales
    data_projected = np.dot(centered_reduced_data, principal_components)
    
    #data_normalized = data_projected / np.linalg.norm(data_projected, axis=0)
    return np.ndarray(data_projected.shape, buffer=-data_projected, dtype=data_projected.dtype)

In [7]:
# generate random data
data = pd.DataFrame(np.random.rand(100, 10), columns=[f'feature_{i}' for i in range(10)])

In [8]:
X = data.values
y = np.array([randint(0, 2) for _ in range(len(X))])
labels = np.unique(y)
colors = ['red', 'green', 'blue']

In [22]:
pca = sklearnPCA(n_components=3)
XPCA = pca.fit_transform(X)

components = PCA(X, 3)

print(components)
print(XPCA)

print(np.equal(components, XPCA))

[[ 1.56443992e-01 -8.72581103e-02 -2.80400067e-01]
 [ 8.75765383e-02  2.32364888e-03  3.72402689e-01]
 [ 8.61842601e-01 -7.35014123e-03 -3.65793483e-02]
 [-3.51785308e-01  1.30164725e-01  2.11122610e-01]
 [-2.67037721e-01 -2.17662164e-01  9.44381940e-02]
 [-4.09070888e-01 -1.55919416e-01 -1.47714331e-01]
 [ 8.26806127e-02 -8.66184989e-02  1.97704294e-01]
 [ 3.45065900e-01  1.81764881e-01 -4.33846784e-01]
 [ 2.16901871e-01 -2.70410838e-01  3.54537323e-01]
 [-6.37346363e-01 -1.30098523e-01 -1.69895229e-01]
 [ 1.71109044e-01  4.22435882e-01  6.30607014e-01]
 [-2.64292513e-03  3.83555418e-02 -2.91333169e-01]
 [ 1.67887843e-01  9.19696415e-02 -1.39268858e-01]
 [ 5.95695773e-01  1.16116768e-01  2.92206885e-01]
 [-5.77920387e-01 -1.16302008e-01  5.22182192e-01]
 [-1.30433531e-01 -3.14429683e-01  2.52467856e-01]
 [-2.50678826e-01 -1.98904556e-01  2.74676666e-01]
 [ 6.46078282e-02 -3.52076801e-01  6.15432565e-01]
 [-5.09578778e-01  1.38906599e-02 -3.00069502e-01]
 [-3.03726779e-01 -2.08595910e-