# PCA: Dataset caras de Olivetti

## ¿Qué vamos a hacer?
- Reducir la dimensionalidad de un dataset de alta dimensionalidad como el LFW
- Escoger un el subconjunto mínimo de vectores
- Representar los vectores principales

En el ejercicio anterior vimos cómo implementar PCA con Scikit-learn para reducir la dimensionalidad, particularmente de cara a la representación de los datos.

En este ejercicio nos vamos a centrar en encontrar el número mínimo de componentes principales al que podemos reducir la dimensionalidad del dataset perdiendo el mínimo de información o varianza posible.

Para ello, vamos a utilizar el dataset de (caras de Olivetti)[https://scikit-learn.org/stable/datasets/real_world.html#olivetti-faces-dataset] para poder explorar la representación gráfica de los componentes principales en clasificación de imágenes y su relación con las imágenes originales.

*NOTA*: Para este ejercicio te puedes basar las siguientes páginas de la documentación de Scikit-learn:
- [sklearn.decomposition.PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html).
- [Faces dataset decompositions](https://scikit-learn.org/stable/auto_examples/decomposition/plot_faces_decomposition.html).

*PD: Habitualmente, la labor de un ingeniero de software es saber buscar en la documentación y ejemplos en internet cómo hacer algo, y modificar dicho código para su caso de uso. Por eso, en este y otros ejercicios te invitamos a trabajar componiendo un código a través de partes de otros ejemplos =).*

In [None]:
# TODO: Importa todas las librerías necesarias aquí

import matplotlib.pyplot as plt
import numpy as np

from sklearn import datasets
from sklearn.decomposition import PCA

rng = np.random.RandomState(42)

fignum = 1

## El dataset de caras de Olivetti

Primero vamos a descargar el dataset de caras de Olivetti, extraer las 6 primeras caras y representarlas en una gráfica.

Para ello, sigue las instrucciones para completar la siguiente celda de código:

In [None]:
# Configuración de la repesentación de las imágenes

n_col = 3    # Nº de columnas y filas de la gráfica
n_row = 2    # Gráfica de 2x3 imágenes
image_shape = (64, 64)    # Tamaño en px de la imagen

In [None]:
# TODO: Descarga el dataset de caras de Olivetti, extrae las 6 primeras caras y represéntalas en una gráfica

# Descarga las imágenes del dataset
# Para este ejemplo no vamos a clasificar el dataset, por lo que podemos descartar las clases
faces, _ = datasets.fetch_olivetti_faces(return_X_y=True, shuffle=True, random_state=rng)

# Extrae el nº de ejemplos y características del mismo, m y n
m, n = [...]

# Extrae las 6 primeras imágenes
faces = [...]

# Centra las imágenes
# Para ello, puedes basarte en el ejemplo mencionado previamente
faces_centered = [...]

# Representa gráficamente las 6 primeras imágenes
plt.figure(fignum, figsize=(2. * n_col, 2.25 * n_row))

plt.suptitle('6 primeras imágenes originales')

for i, face in enumerate(faces_centered):
    plt.subplot(n_row, n_col, i + 1)
    vmax = max(face.max(), -face.min())
    
    plt.imshow(face.reshape(image_reshape), cmap=plt.cm.gray, interpolation='nearest', vmin=-vmax, vmax=vmax)

    plt.xticks(())
    plt.yticks(())

plt.subplots_adjust(0.01, 0.05, 0.99, 0.93, 0.04, 0.)

fignum += 1

## Reducción de dimensionalidad

Ahora vamos a comprobar cómo es la representación gráfica de una reducción de dimensionalidad en imágenes.

Al pasar de las imágenes originales a los componentes principales, veremos cómo el PCA muestra los rasgos principales de cada imagen.

Sigue las instrucciones de la siguiente celda para representar los 6 primeros componentes principales por PCA de dichas caras:

In [None]:
# TODO: Representa los 6 primeros componentes principales de las caras y represéntalas gráficamente

pca_6 = PCA(n_components=6, svd_solver='randomized', whiten=True)

components = pca_6.fit([...]).components_

# Representa los componentes principales para las 6 primeras caras
plt.figure(fignum, figsize=(2. * n_col, 2.25 * n_row))

[...]

fignum += 1

## Escoger el nº óptimo de componentes principales

En el ejemplo anterior hemos obtenido los 6 primeros componentes principales. Sin embargo, dicho número de componentes ha sido un número escogido a discreción.

Habitualmente, para reducir la dimensionalidad de un dataset a la hora de entrenar un modelo de ML, queremos reducirla al máximo, encontrando el número mínimo de componentes que mantiene el máximo de información o varianza del dataset original por el método [MLE de Minka](https://vismod.media.mit.edu/tech-reports/TR-514.pdf).

Para ello, antes de continuar, hazte las siguientes preguntas:
- *¿Qué representa el parámetro de "sdv_solver" del método PCA()?*
- *¿Y el de "n_components", y su relación con "sdv_solver"?*
- *¿Qué método implementa el "n_components == 'mle'"?*
- *¿Qué representan los atributos del método PCA()? "components_", "explained_variance_", etc.*
- *¿En qué orden se ordenan los "components_" que devuelve el PCA()?*

Para encontrar el número mínimo de componentes principales, sigue las instrucciones para completar la siguiente celda:

In [None]:
# TODO: Escoge el nº óptimo de componentes principales

pca_min = PCA(n_components='mle')

components = pca_min.fit([...]).components_

# Representa los componentes principales para las 6 primeras caras
plt.figure(fignum, figsize=(2. * n_col, 2.25 * n_row))

[...]

fignum += 1

El método MLE de Minka intenta establecer un heurístico para escoger el nº de componentes.

También podemos escoger nosotros un porcentaje mínimo de varianza o información que queremos preservar del dataset, y el método PCA devolverá el nº mínimo de componentes que preservan dicho porcentaje o más.

Para ello, sigue las instrucciones de la siguiente celda:

In [None]:
# TODO: Escoge el nº óptimo de componentes principales

min_var = 0.9    # Varianza mín. a preservar

pca_min_var = PCA(n_components=min_var, svd_solver='full')

pca_min_var_fitted = pca_min_var.fit([...])

# Representa los componentes principales para las 6 primeras caras
plt.figure(fignum, figsize=(2. * n_col, 2.25 * n_row))

[...]

fignum += 1

# Analiza el nº de componentes y la varianza explicada por cada uno de ellos
print('Nº de componentes:', len(pca_min_var_fitted.components_))
print('Ratio de varianza explicada:')
print(pca_min_var_fitted.explained_variance_ratio)

Varía el valor de la varianza mínima a preservar y fíjate en el nº de componentes y la varianza explicada por cada uno de ellos.

*¿Cuántos componentes se preservan con una varianza mínima del 100%? ¿Y del 95%, 90%, 85%, 75% y 50%?*

*¿Cómo varían los ratios de varianza explicada en los primeros componentes devueltos en cada caso?*