# Ejemplo de PCA
Comenzando por examinar un conjunto de datos simple, los datos de Iris disponibles de forma predeterminada en Scikit-Learn.
Los datos consisten en mediciones de tres especies diferentes de iris. 

Hay tres especies de iris en el conjunto de datos: 1. Iris Virginica 2. Iris Setosa 3. Iris Versicolor

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
iris.keys()

In [None]:
# la forma de datos y lista de características (x matriz)
print(iris.data.shape)
print(iris.feature_names) 

# valores objetivo 
print( iris.target_names)

In [None]:
# Importar e instanciar PCA con 2 componentes.
from sklearn.decomposition import PCA 

pca = PCA(2) 
pca

In [None]:
# Ajustar PCA al conjunto de datos de Iris y transformarlo en 2 componentes principales
X, y = iris.data, iris.target 
X_proj = pca.fit_transform(X) 
X_proj.shape

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

# Graficar los componentes principales proyectados e intente comprender los datos.
plt.scatter(X_proj[:,0], X_proj[:,1],c=y) 
plt.show()

In [None]:
# PCA.components_ contiene el significado de cada componente principal, esencialmente cómo se derivó
# La forma verificación nos dice que tiene 2 filas, una para cada componente principal y 4 columnas, la proporción de cada una de las 4 características
# Para cada fila
print(pca.components_ )
print(pca.components_.shape)

In [None]:
# Tratando de descifrar el significado de los componentes principales
print("Significado de los 2 componentes:" )
for component in pca.components_:
    print( " + ".join("%.2f x %s" % (value, name) for value, name in zip(component, iris.feature_names)))

In [None]:
# Esto nos dice hasta qué punto cada componente explica el conjunto de datos original.
# Entonces, el primer componente puede explicar ~ 92% de x y el segundo solo alrededor del 5,3%
# Juntos pueden explicar alrededor del 97.3% de la varianza de x
print( pca.explained_variance_ratio_)

In [None]:
# Entonces, si solo necesitábamos una variación del 92%, en realidad necesitamos un solo componente, verifiquemos
pca=PCA(0.92)
X_new=pca.fit_transform(X) 
print(X_new.shape )

# Si necesitamos más del 97% de variación, comenzamos a necesitar más componentes
pca=PCA(0.98)
X_new=pca.fit_transform(X)
print(X_new.shape)

### Más ejemplos:
https://shankarmsy.github.io/posts/pca-sklearn.html