# ACP et reconnaissance d'images

Dans cet exercice, nous utiliserons l'ACP sur un ensemble de données de plusieurs images en noir et blanc.

Ici :
- chaque image est une observation (échantillon)
- le niveau de luminosité de chaque pixel est une caractéristique (beaucoup de caractéristiques !!)

Nous allons utiliser l'ACP pour compresser l'image en réduisant le nombre de caractéristiques utilisées pour la décrire.

# 1. Chargement du jeu de données

L'utilisation de l'ACP pour la réduction de la dimensionnalité implique la mise à zéro d'une ou plusieurs des plus petites composantes principales, ce qui donne lieu à une **projection en plus petite dimension** des données qui préserve la variance maximale des données.

Nous pouvons ensuite utiliser ces nouvelles représentations comme caractéristiques pour alimenter n'importe quel modèle. Cela peut être très utile car vous avez souvent beaucoup de caractéristiques, et vous voulez transformer et conserver un nombre restreint de caractéristiques qui sont les plus représentatives de ce que vous voulez modéliser.

__Chargeons un ensemble de données d'images de visages et appliquons l'ACP.__

In [None]:
# Load data
from sklearn.datasets import fetch_lfw_people
faces = fetch_lfw_people(min_faces_per_person=70, resize=0.4)

Vous avez accès à
- `faces.images` qui sont des matrices de __50 x 37 pixels__ que vous pouvez représenter
- `faces.data` pour la version aplatie de taille __1850 x 1__ (parce que 50 x 37 = 1850). 
- `faces.target` l'indice de la personne à laquelle l'image correspond

In [None]:
# 1288 images
faces.images.shape

---
**Q1** Représentez quelques photos.

# 2. ACP

Dans ce jeu de données, nous avons des images de 50 × 37 pixels (1850 dimensions !). Comme nous l'avons déjà souligné, trop de dimensions dans un système est plus souvent un défaut qu'une qualité. 

C'est pourquoi nous utilisons l'ACP pour réduire ces dimensions à une taille plus exploitable, tout en conservant la plupart des informations du jeu de données.

---
**Q1** Appliquez l'ACP au jeu de données aplati `faces.data` (à la fois l'ajustement et la transformation), pour réduire les dimensions à 150, en mettant `n_components=150`. Enregistrez votre transformation dans une variable nommée `data_projected`.

L'ensemble des données sur les visages n'a été projeté que sur les 150 premières composantes principales !

Cela signifie que, maintenant, nous n'avons plus besoin de 1850 pixels pour décrire chaque image mais seulement de 150 valeurs. Un gain d'un facteur 12.

Comment est-ce possible ?

- Ce sont les composantes qui présentent le plus de variance. 

- Vous pouvez y accéder dans `pca.components_`.

---
**Q2** Regardez la première composante de ce tableau de composantes, et sa forme

Comme vous pouvez le voir, c'est un vecteur de 1850 valeurs. Nous avons maintenant 150 composantes de 1850 valeurs chacune.

Un visage est maintenant décrit comme une combinaison (somme) de ces composantes.

Reconstruisons une image à partir de sa représentation réduite pour voir comment cela fonctionne.

---
**Q3** Utilisez `inverse_transform` sur votre `data_projected` pour reconstruire un jeu de données `data_reconstructed`.

---
**Q4** Représentez la 13ème image (Gearge W Bush) de l'ensemble de données reconstruit, et comparez-la à l'image originale. 

# 3. Etude des composantes

---
**Q1** Représentez le visage "moyen"

---
**Q2** Représentez sous forme d'image les **5 premières** composantes principales en colorant via `cmap=plt.cm.coolwarm`. Commentez les résultats obtenus.

# 4. Pour aller plus loin

Pensez vous qu'il était nécessaire d'utiliser 150 composantes ? 

---
**Q1** Justifiez via des graphiques votre hypothèse.