# PCA: Dataset Iris

## ¿Qué vamos a hacer?
- Reducir la dimensionalidad de un dataset por PCA.
- Implementar PCA con Scikit-learn.
- Representar gráficamente las nuevas dimensiones.

In [None]:
# TODO: Importa todas las librerías necesarias aquí

import numpy as np
import matpltolib as plt

from sklearn import datasets
from sklearn.decomposition import PCA
from mpl_toolkits.mplot3d import Axes3D

fignum = 1

## El dataset Iris

Aunque ya hemos trabajado previamente con el dataset Iris, vamos a recordar sus características principales:
- Dataset con la información de plantas de iris para clasificación.
- 3 clases: Iris Setosa, Iris Versicolor o Iris Virgínica.
- Una clase es linealmente separable del resto, las otras 2 no son linealmente seperables.
- 4 dimensiones: longitud y anchura de los sépalos y de los pétalos en cm.
- 150 ejemplos, 50 de cada clase.

A priori no es un dataset de alta dimensionalidad que necesite de reducción por PCA, pero al tener pocas dimensiones nos permite visualizarlas de forma más sencilla.

Para este ejercicio, puedes fijarte en los siguientes ejemplos de la documentación de Scikit-learn:
- [The Iris Dataset](https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html).
- [PCA example with Iris Data-set](https://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_iris.html).
- [Comparison of LDA and PCA 2D projection of Iris dataset](https://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_vs_lda.html).
- [K-means Clustering](https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_iris.html).

Sigue las instrucciones para completar la siguiente celda de código, donde descargaremos y visualizaremos el dataset:

PD: Para todas las gráficas utiliza un gráfico de puntos e incluye título, etiquetas de cada dimensión, una rejilla y la leyenda con las 3 clases.

In [None]:
# TODO: Descarga el dataset de Iris y represéntalo gráficamente

# Descarga el dataset de Iris
X, y = [...]

# Crea una gráfica con 4 subgráficas 3D y representa las 3 clases con etiquetas y colores diferentes
# Las 4 subgráficas mostrarán la combinación de las 4 características:
# - longitud de los sépalos, anchura de los sépalos, longitud de los pétalos
# - longitud de los sépalos, anchura de los sépalos, anchura de los pétalos
# - longitud de los pétalos, anchura de los pétalos, longitud de los sépalos
# - longitud de los pétalos, anchura de los pétalos, anchura de los sépalos
fig = plt.figure(fignum, figsize=(4, 3))
ax = Axes3D([...])

[...]

fig.show()

fignum += 1

Observa con detenimiento las gráficas.

*¿Eres capaz de separar linealmente con un plano las 3 clases? ¿Qué clases están más cerca o lejos del resto?*

## Reducción de dimensionalidad

Al tener un dataset de 4 dimensiones, es difícil representarlo en una gráfica. Para ello, podemos representarlo en 4 gráficas diferentes, como hemos hecho, o representar la 4ª dimensión en la misma gráfica con formas, tamaños o colores diferentes.

Vamos a transformar el espacio dimensional del dataset por PCA a unas dimensiones diferentes. En este caso lo haremos para intentar mejorar la clasificación de las clases de forma visual.

Para ello, vamos a reducir la dimensionalidad del dataset a sus 3 primeros componentes principales, o las 3 primeras dimensiones tras transformar por PCA.

Sigue las instrucciones para completar la siguiente celda de código:

In [None]:
# TODO: Reduce la dimensionalidad del dataset a los 3 primeros componentes principales

# Reduce la dimensionalidad de X a sus 3 primeros componentes principales
pca_3 = PCA([...])

X_pca_3 = pca_3.fit_transform([...])

# Representa gráficamente sus 3 primeros componentes principales, utilizando colores diferentes para cada clase
plt.figure(fignum, figsize=(8, 6))

ax = Axes3D([...])

[...]

plt.show()

fignum += 1

Analiza los resultados de la reducción de dimensionalidad:

*¿Es ahora más fácil diferenciar las 3 clases?*

Recuerda que las 3 dimensiones tras la reducción no se corresponden con ninguna dimensión inicial, las longitudes y anchura de los pétalos y sépalos.

### Reducción de dimensionalidad a 2 componentes principales

Para representar el dataset en 2 dimensiones, redúcelo ahora a sus 2 primeros componentes principales y representa el resultado en una gráfica 2D.

Sigue las instrucciones para completar la siguiente celda de código:

In [None]:
# TODO: Reduce la dimensionalidad del dataset a los 2 primeros componentes principales

# Reduce la dimensionalidad de X a sus 2 primeros componentes principales
pca_2 = PCA([...])

X_pca_2 = pca_3.fit_transform([...])

# Representa gráficamente sus 2 primeros componentes principales, utilizando colores diferentes para cada clase
plt.figure(fignum, figsize=(8, 6))

[...]

plt.show()

fignum += 1

Por último, vuelve a analizar los resultados de la última gráfica:

*¿Es ahora más o menos sencillo diferenciar las 3 clases que en la gráfica anterior?*

*¿Y en comparación con las gráficas originales, es más sencillo hacerlo tras la transformación por PCA?*