# Chapter 08 - Dimensionality Reduction

In [13]:
import numpy as np

In [1]:
# PCA in SciKit-Learn
from sklearn.decomposition import PCA
from sklearn.datasets import make_moons

X, y = make_moons()

In [2]:
pca = PCA(n_components = 1)
X1D = pca.fit_transform(X)

In [3]:
print(X.shape, X1D.shape)

(100, 2) (100, 1)


Una dimensión menos!

In [4]:
pca.explained_variance_ratio_

array([0.81968748])

OK. Me queda una sola dimensión que captura el 82% de la varianza del dataset original. Esta dimensión es el PC (Principal Component)

In [5]:
# TODO: buscar un dummy dataset de 3 dimensiones
from sklearn.datasets import load_iris

iris_dataset = load_iris()
X = iris_dataset["data"]
y = iris_dataset["target"]

In [6]:
X.shape

(150, 4)

In [7]:
pca = PCA(n_components=2)
X2D = pca.fit_transform(X)

In [8]:
X2D.shape

(150, 2)

In [10]:
pca.explained_variance_ratio_

array([0.92461872, 0.05306648])

Ok... Un eje captura el 92% de la varianza en el dataset original. El otro eje prácticamente lo podría eliminar por tener MUY poca varianza.

### Cómo elegir el número correcto de dimensiones? 
Tal vez, bajar de 4 a 2 es un montón.

In [14]:
# Código para lograr reducir dimensiones de modo tal que se capture un 95% de la varianza del dataset original.
pca = PCA()
pca.fit(X)  # Notar que llamo al método fit. No al método fit transform
cumsum = np.cumsum(pca.explained_variance_ratio_)
d = np.argmax(cumsum >= 0.95) + 1

In [15]:
d

2

In [16]:
pca.explained_variance_ratio_

array([0.92461872, 0.05306648, 0.01710261, 0.00521218])

In [17]:
cumsum

array([0.92461872, 0.97768521, 0.99478782, 1.        ])

Como tengo 4 dimensiones (4 features), el transformer me devuelve 4 ejes ortogonales *QUE NO SON LOS ORIGINALES* (pero pueden coincidir) y me dice la varianza de los datos en estos nuevos ejes.<br>
Se ve que el primer eje logra capturar un 92.4% de la varianza del dataset original, el segundo al rededor de un 5.3%, el tercero un 1.7%, etc.<br>
Entonces, cuando hago la suma cumulativa (cumsum), con los primeros 2 ejes ya estoy capturando un 97.7% de la varianza del dataset original, y reduje las dimensiones a la mitad. Nada mal!

In [19]:
# Esto mismo, pero hecho en sklearn
new_pca = PCA(n_components=0.95)  # Si le paso un float, le digo qué porcentaje de varianza quiero capturar
new_X = new_pca.fit_transform(X)
new_X.shape

(150, 2)

In [20]:
new_pca.explained_variance_ratio_

array([0.92461872, 0.05306648])

Mismo resultado que antes!

## Kernel PCA

In [21]:
from sklearn.decomposition import KernelPCA

rbf_pca = KernelPCA(n_components=2, kernel="rbf", gamma=0.04)
X_reduced = rbf_pca.fit_transform(X)

Esto aplica el mismo kernel (mismo concepto) que vimos con las SVMs. <br>
Se lleva todo a otro subespacio. Define dimensiones ortogonales en ese otro espacio y después "destransforma" para volver al espacio original. <br>
Notar que es una técnica NO supervisada.