# PCA: Dataset Iris

## O que vamos fazer?
- Reduzir a dimensionalidade de um dataset por PCA. 
- Implementar PCA com Scikit-learn.
- Representar graficamente as novas dimensões

In [None]:
# TODO: Importar todas as livrarias necessárias aqui

import numpy as np
import matpltolib as plt

from sklearn import datasets
from sklearn.decomposition import PCA
from mpl_toolkits.mplot3d import Axes3D

fignum = 1

## O dataset Iris

Embora já tenhamos trabalhado anteriormente com o dataset Iris, vamos recordar as suas principais características:
- Dataset com informação de modelos de íris para classificação. 
- 3 classes: Iris Setosa, Iris Versicolor ou Iris Virgínica.
- Uma classe é linearmente separável do resto, as outras 2 não são linearmente separáveis. 
- 4 dimensões: comprimento e largura de sépalas e pétalas em cm.
- 150 exemplos, 50 de cada classe.

A priori não é um dataset de alta dimensionalidade que necessita de redução por PCA, mas ter poucas dimensões permite-nos visualizá-las de uma forma mais simples.

Para este exercício, pode consultar os seguintes exemplos a partir da documentação Scikit-learn:
- [The Iris Dataset](https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html).
- [PCA example with Iris Data-set](https://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_iris.html).
- [Comparison of LDA and PCA 2D projection of Iris dataset](https://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_vs_lda.html).
- [K-means Clustering](https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_iris.html).

Seguir as instruções para completar a seguinte célula de código, onde iremos descarregar e visualizar o dataset:

PD: Para todos os gráficos utilizar um gráfico de pontos e inclui título, etiquetas para cada dimensão, uma grade e a legenda com as 3 classes.

In [None]:
# TODO: Descarregar o dataset de Iris e representá-lo graficamente

# Descarregar o dataset de Iris
X, y = [...]

# Criar um gráfico com 4 subgráficos 3D e representar as 3 classes com etiquetas e cores diferentes
# As 4 subgráficas irão mostrar a combinação das 4 características:
# - comprimento das sépalas, largura das sépalas e comprimento das pétalas
# - comprimento das sépalas, largura das sépalas e largura das pétalas.
# - comprimento das pétalas, largura das pétalas e comprimento das sépalas.
# - comprimento das pétalas, largura das pétalas, largura das sépalas
fig = plt.figure(fignum, figsize=(4, 3)) 
ax = Axes3D([...])

[...]

fig.show() 

fignum += 1

Observar atenciosamente os gráficos.

*É capaz de separar as 3 classes linearmente com um plano? Que classes estão mais próximas ou mais afastadas do resto?*

## Redução da dimensionalidade

Tendo um dataset de 4 dimensões, é difícil representá-lo num gráfico. Para isso, podemos representar em 4 gráficos diferentes, como temos feito, ou representar a 4ª dimensão no mesmo gráfico com formas, tamanhos ou cores diferentes.

Vamos transformar o espaço dimensional do dataset por PCA para dimensões diferentes. Neste caso, iremos fazê-lo para tentar melhorar a classificação das classes de uma forma visual.

Para tal, vamos reduzir a dimensionalidade do dataset aos seus 3 primeiros componentes principais, ou às 3 primeiras dimensões após a transformar por PCA.

Seguir as instruções para completar a seguinte célula de código:

In [None]:
#  TODO: Reduzir a dimensionalidade do dataset aos 3 primeiros componentes principais

# Reduzir a dimensionalidade de X aos seus 3 primeiros componentes principais
pca_3 = PCA([...])

X_pca_3 = pca_3.fit_transform([...])

# Representar graficamente os seus 3 primeiros componentes principais, utilizando cores diferentes para cada classe
plt.figure(fignum, figsize=(8, 6)) 

ax = Axes3D([...])

[...]

plt.show() 

fignum += 1

Analisar os resultados da redução da dimensionalidade:

*É agora mais fácil diferenciar as 3 classes?*

Recordar que as 3 dimensões após a redução não correspondem com nenhuma dimensão inicial, os comprimentos e as larguras das pétalas e sépalas.

### Redução da dimensionalidade para 2 componentes principais

Para representar o dataset em 2 dimensões, reduzi-lo agora aos seus 2 primeiros componentes principais e representar o resultado num gráfico 2D.

Seguir as instruções para completar a seguinte célula de código:

In [None]:
#  TODO: Reduzir a dimensionalidade do dataset aos 2 primeiros componentes principais

# Reduzir a dimensionalidade de X aos seus 2 primeiros componentes principais
pca_2 = PCA([...])

X_pca_2 = pca_3.fit_transform([...])

# Representar graficamente os seus 2 primeiros componentes principais, com cores diferentes para cada classe
plt.figure(fignum, figsize=(8, 6)) 

[...]

plt.show()

fignum += 1

Finalmente, voltar a analisar os resultados do último gráfico:

*É agora mais ou menos fácil diferenciar as 3 classes do que no gráfico anterior?*

*E em comparação com os gráficos originais, é mais fácil fazê-lo após a transformação PCA?*