# 1. Introduction

L'Analyse en Composantes Principales (ACP), ou PCA en anglais, est une méthode de réduction de dimension basée sur l'algèbre linéaire. Elle permet de projeter des données de grande dimension dans un espace de plus petite dimension tout en conservant un maximum d'information (variance).

Mathématiquement, l'ACP repose sur les **vecteurs propres** (directions principales) et **valeurs propres** (variances associées) de la **matrice de covariance** des données centrées. Ces éléments sont issus de la résolution du problème suivant :

\[
\Sigma v = \lambda v
\]

où :
- \( \Sigma \) est la matrice de covariance des données centrées,
- \( v \) est un vecteur propre (axe principal),
- \( \lambda \) est la valeur propre associée (variance projetée sur cet axe).

L'algèbre linéaire intervient donc à chaque étape : **centrage**, **produits matriciels**, **calculs des valeurs/vecteurs propres**, et **projection** dans un nouvel espace.

Dans ce projet, nous appliquons pas à pas l'ACP sur le jeu de données `digits`, uniquement avec NumPy et les outils d'algèbre linéaire.



# 2. Chargement, préparation des données 

In [2]:
from sklearn.datasets import load_digits
import numpy as np
import matplotlib.pyplot as plt

Dans cette étape, nous chargeons le jeu de données `digits` depuis `sklearn.datasets`. Ce jeu contient **1797 images de chiffres manuscrits** (de 0 à 9), chacun représenté par une matrice de **8×8 pixels**, soit **64 pixels** par image.

Chaque image est **applatie** sous forme d’un vecteur ligne de 64 valeurs. Ainsi, notre matrice `X` contient :
- **1797 lignes** (chaque ligne = une image),
- **64 colonnes** (chaque colonne = intensité d’un pixel).

Nous stockons aussi les étiquettes associées (0 à 9) dans le vecteur `y`, qui nous permettra plus tard d’afficher les chiffres selon leur vraie classe.

Cette structure est essentielle pour appliquer l’algèbre linéaire : la matrice \( X \in \mathbb{R}^{1797 \times 64} \) sera utilisée pour calculer la matrice de covariance et effectuer la réduction de dimension via les outils de l’algèbre linéaire.

In [None]:
digits = load_digits()
X = digits.data  # matrice des pixels (1797, 64)
y = digits.target  # étiquettes de 0 à 9  # données (1797,)

# 3.  Centrage des données

In [4]:
# Calcul de la moyenne de chaque colonne
mean = np.mean(X, axis=0)

# Centrage de X
X_centered = X - mean

# 4. Calcul de la matrice de covariance

In [None]:
n_samples = X_centered.shape[0]
cov_matrix = (1 / (n_samples - 1)) * X_centered.T @ X_centered

# 5. Calcul des valeurs propres et vecteurs propres

In [None]:
eig_vals, eig_vecs = np.linalg.eigh(cov_matrix)  # car matrice symétrique

# Tri décroissant
sorted_idx = np.argsort(eig_vals)[::-1]
eig_vals = eig_vals[sorted_idx]
eig_vecs = eig_vecs[:, sorted_idx]

# 6. Sélection des composantes principales (2D ou 3D)

# 7. Projection dans l'espace réduit

# 8. Visualisation en 2D

# 9. Projection en 3D

# 10. Explication de la variance expliquée