# PCA: Scikit-learn sobre dataset Iris
M5U3 - Ejercicio 1

## ¿Qué vamos a hacer?
- Reducir la dimensionalidad de un dataset por PCA
- Implementar PCA con Scikit-learn
- Representar gráficamente las nuevas dimensiones

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones
### El dataset Iris

Aunque ya hemos trabajado previamente con él, vamos a recordar sus características principales:
- Dataset con la información de plantas de iris para clasificación.
- 3 clases: Iris Setosa, Iris Versicolor o Iris Virgínica.
- Una de las clases es linealmente separable del resto, las otras 2 no.
- 4 dimensiones: longitud y anchura de los sépalos y de los pétalos, en cm.
- 150 ejemplos, 50 de cada una de las 3 clases.

A priori no es un dataset de alta dimensionalidad que necesite de reducción por PCA, pero al tener pocas dimensiones nos permite visualizarlas de forma más sencilla.

Para este ejercicio, puedes fijarte en los siguientes ejemplos de la documentación de Scikit-learn:
- [The Iris Dataset](https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html).
- [PCA example with Iris Data-set](https://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_iris.html).
- [Comparison of LDA and PCA 2D projection of Iris dataset](https://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_vs_lda.html).
- [K-means Clustering](https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_iris.html).

In [None]:
# TODO: Importa todas las librerías necesarias aquí

import numpy as np
import matpltolib as plt

from sklearn import datasets
from sklearn.decomposition import PCA
from mpl_toolkits.mplot3d import Axes3D

plot_n = 1

Sigue las instrucciones para descargar y visualizar el dataset en la siguiente celda de código:

*NOTA:* Utiliza un gráfico de puntos para todas las gráficas e incluye título, etiquetas de cada dimensión, una rejilla y la leyenda con las 3 clases.

In [None]:
# TODO: Descarga el dataset de Iris y represéntalo gráficamente

# Descarga el dataset de Iris
X, y = [...]

# Crea una gráfica con 4 subgráficas 3D y representa las 3 clases con etiquetas y colores diferentes en cada una con:
# - longitud de los sépalos, anchura de los sépalos, longitud de los pétalos
# - longitud de los sépalos, anchura de los sépalos, anchura de los pétalos
# - longitud de los pétalos, anchura de los pétalos, longitud de los sépalos
# - longitud de los pétalos, anchura de los pétalos, anchura de los sépalos
fig = plt.figure(plot_n, figsize=(4, 3))
ax = Axes3D([...])

[...]

fig.show()

plot_n += 1

*¿Eres capaz de separar linealmente con un plano las 3 clases? ¿Qué clases están más cerca o lejos del resto?*

## Reducción de dimensionalidad

Es difícil representar en una gráfica un dataset de 4D. Podemos representarlo en 4 gráficas diferentes, como hemos hecho, representar la 4ª dimensión en la misma gráfica con formas, tamaños o colores diferentes, etc., o reducir su dimensionalidad a 3D o 2D.

Vamos a transformar el espacio dimensional del dataset por PCA a un espacio de dimensiones diferentes. En este caso lo haremos para intentar mejorar la clasificación de las clases de forma visual, como también sería indicado para reducir la complejidad/dimensionalidad de un modelo.

Para ello, vamos a reducir la dimensionalidad del dataset a sus 3 primeros componentes principales, o las 3 primeras dimensiones tras transformar por PCA:

In [None]:
# TODO: Reduce la dimensionalidad del dataset a los 3 primeros componentes principales

# Reduce la dimensionalidad de X a sus 3 primeros componentes principales
pca_3 = PCA([...])

X_pca_3 = pca_3.fit_transform([...])

# Representa gráficamente sus 3 primeros componentes principales, utilizando colores diferentes para cada clase
plt.figure(plot_n, figsize=(8, 6))

ax = Axes3D([...])

[...]

plt.show()

plot_n += 1

Analiza los resultados de la reducción de dimensionalidad:

*¿Es ahora más fácil diferenciar las 3 clases?*

Recuerda que las 3 dimensiones tras la reducción no se corresponden con las dimensiones iniciales, las longitudes y anchura de los pétalos y sépalos en cm.

### Reducción de dimensionalidad a 2 componentes principales

Prueba también a representar el dataset en sólo 2D, reduciéndolo a sus 2 primeros componentes principales y representa el resultado:

In [None]:
# TODO: Reduce la dimensionalidad del dataset a los 2 primeros componentes principales

# Reduce la dimensionalidad de X a sus 2 primeros componentes principales
pca_2 = PCA([...])

X_pca_2 = pca_2.fit_transform([...])

# Representa gráficamente sus 2 primeros componentes principales, utilizando colores diferentes para cada clase
plt.figure(plot_n, figsize=(8, 6))

[...]

plt.show()

plot_n += 1

Vuelve a analizar los resultados de esta última gráfica:

*¿Es ahora más o menos sencillo diferenciar las 3 clases que en la gráfica de los 3 primeros componentes principales?*

*¿Y en comparación con las gráficas originales, sigue siendo más o menos sencillo?*