# PCA: Dataset de rostos de Olivetti

## O que vamos fazer?
- Reduzir dimensionalidade de um dataset de alta dimensionalidade como LFW 
- Escolher um subconjunto mínimo de vetores
- Representar os principais vetores

No exercício anterior vimos como implementar o PCA com Scikit-learn para reduzir a dimensionalidade, particularmente para a representação dos dados.

Neste exercício, vamos centrar-nos em encontrar o número mínimo de componentes principais para os quais podemos reduzir a dimensionalidade do dataset perdendo o mínimo de informação ou variação possível.

Para isso, vamos utilizar o dataset (rostos de Olivetti)[https://scikit-learn.org/stable/datasets/real_world.html#olivetti-faces-dataset] para explorar a representação gráfica dos principais componentes na classificação de imagens e a sua relação com as imagens originais.


*NOTA*:  Para este exercício pode basear-se nas seguintes páginas da documentação Scikit-learn:

- [sklearn.decomposition.PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html).
- [Faces dataset decompositions](https://scikit-learn.org/stable/auto_examples/decomposition/plot_faces_decomposition.html).

*PD: Normalmente, o trabalho de um engenheiro de software é saber como procurar na documentação e exemplos na Internet como fazer algo, e modificar esse código para o seu caso de uso. Portanto, neste e noutros exercícios convidamo-lo a trabalhar na composição de código a partir de partes de outros exemplos =).*

In [None]:
# TODO: Importar todas as livrarias necessárias aqui

import matplotlib.pyplot as plt
import numpy as np

from sklearn import datasets
from sklearn.decomposition import PCA

rng = np.random.RandomState(42)

fignum = 1

## O dataset de rostos de Olivetti

Primeiro vamos descarregar o dataset de rostos Olivetti, extrair os primeiros 6 e representá-los num gráfico.

Para isso, seguir as instruções para completar a seguinte célula de código:

In [None]:
# Configuração da representação das imagens

n_col = 3   # N.º de colunas e filas do gráfico
n_row = 2   # Gráfico de 2x3 imagens
image_shape = (64, 64) # Tamanho em px da imagem

In [None]:
# TODO: Descarregar o dataset de rostos Olivetti, extrair os primeiros 6 rostos e representá-los num gráfico.

# Descarregar as imagens do dataset
# Para este exemplo não vamos a classificar o dataset, pelo que podemos descartar as classes
faces, _ = datasets.fetch_olivetti_faces(return_X_y=True, shuffle=True, random_state=rng)

# Extrair o n.º de exemplos e características do mesmo, m e n
m, n = [...]

# Extrair as 6 primeiras imagens
faces = [...]

# Centrar as imagens
# Para isso, pode basear-se no exemplo mencionado previamente
faces_centered = [...]

# Representar graficamente as 6 primeiras imagens
plt.figure(fignum, figsize=(2. * n_col, 2.25 * n_row)) plt.suptitle('6 primeiras imagens originais')

for i, face in 
    enumerate(faces_centered): 
    plt.subplot(n_row, n_col, i + 1)
    vmax = max(face.max(), -face.min())
    
    plt.imshow(face.reshape(image_reshape), cmap=plt.cm.gray, interpolation='nearest', vmin=-vmax, vmax=vmax) plt.xticks(())
    
    plt.yticks(())
    
plt.subplots_adjust(0,01, 0,05, 0,99, 0,93, 0,04, 0.)

fignum += 1

## Redução da dimensionalidade

Agora vamos comprovar como é a representação gráfica de uma redução de dimensionalidade em imagens.

Ao passar das imagens originais aos componentes principais, veremos como o PCA mostra as principais características de cada imagem. 

Seguir as instruções na célula seguinte para representar os 6 primeiros componentes principais por PCA desses rostos:

In [None]:
# TODO: Representar os 6 primeiros componentes principais dos rostos e representá-los graficamente

pca_6 = PCA(n_components=6, svd_solver='randomized', whiten=True) components = pca_6.fit([...]).components_

# Representar os componentes principais para os 6 primeiros rostos
plt.figure(fignum, figsize=(2. * n_col, 2.25 * n_row)) [...]

fignum += 1

## Escolher o n.º ótimo de componentes principais

No exemplo acima, obtivemos os primeiros 6 componentes principais. No entanto, este número de componentes tem sido um número escolhido à vontade.

Normalmente, para reduzir a dimensionalidade de um dataset quando se forma um modelo ML, queremos reduzi-lo tanto quanto possível, encontrando o número mínimo de componentes que mantenha o máximo de informação ou variação do dataset original pelo método [MLE de Minka](https://vismod.media.mit.edu/tech-reports/TR-514.pdf).

Para isso, antes de continuar, fazer as seguintes perguntas:
- *O que representa o parâmetro de "sdv_solver" do método PCA()?*
- *E o de “n_components”, e a sua relação com "sdv_solver"?*
- *Que método implementa o “n_components == 'mle'"?*
- *O que representam os atributos do método PCA()? "components_", "explainedvariance", etc.*
- *Em que ordem se ordenam os "components_" que devolve o PCA()?*

Para encontrar o número mínimo de componentes principais, seguir as instruções para completar a seguinte célula:

In [None]:
# TODO: Escolher o n.º ótimo de componentes principais

pca_min = PCA(n_components='mle') 

components = pca_min.fit([...]).components_

# Representar os componentes principais para os 6 primeiros rostos
plt.figure(fignum, figsize=(2. * n_col, 2.25 * n_row)) [...]

O método MLE de Minka tenta estabelecer uma heurística para escolher do número de componentes.

Podemos também escolher uma percentagem mínima de variância ou informação que queremos preservar o dataset, e o método 

PCA irá devolver o n.º mínimo de componentes que preservam essa percentagem ou mais.

Para isso, seguir as instruções na célula seguinte:

In [None]:
# TODO: Escolher o n.º ótimo de componentes principais

min_var = 0.9    # Variância mín. a preservar

pca_min_var = PCA(n_components=min_var, svd_solver='full')

pca_min_var_fitted = pca_min_var.fit([...])

# Representar os componentes principais para os 6 primeiros rostos
plt.figure(fignum, figsize=(2. * n_col, 2.25 * n_row)) [...]

fignum += 1

# Analisar o n.º de componentes e a variância explicada por cada um deles

print('N.º de componentes:',len(pca_min_var_fitted.components_)) 
print('Ratio de variância explicada:') 
print(pca_min_var_fitted.explained_variance_ratio)

Variar o valor da variância mínima a preservar e anotar o número de componentes e a variância explicada por cada um deles.

*Quantos componentes são preservados com uma variância mínima de 100%? E 95%, 90%, 85%, 75% e 50%?*

*Como é que os ratios de variância explicados nos primeiros componentes devolvidos em cada caso?*