# PASOS REDUCCIÓN DE DIMENSIONALIDAD

In [2]:
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd
import statsmodels.api as sm

# Gráficos
# ==============================================================================
import matplotlib.pyplot as plt
import matplotlib.font_manager
from matplotlib import style
style.use('ggplot') or plt.style.use('ggplot')

# Preprocesado y modelado
# ==============================================================================
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import scale
from sklearn.pipeline import Pipeline

# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Entrenamiento modelo PCA con escalado de los datos. Nota: Es muy importante hacer regularización antes.
# ==============================================================================
pca_pipe = Pipeline([("scaler",StandardScaler()),("pca", PCA(n_components=X))])
pca_pipe.fit(df)

# Para acceder a un elemento del Pipe podemos hacerlo asi. Aprovechamos e instanciamos el modelo
modelo_pca = pca_pipe['pca']

In [None]:
# Podemos observar que el modelo contiene los "pesos" de cada PC (PC1, PC2, PC3 y PC4 en este caso). 
# Esos se multiplican por cada variable respectivamente y se obtiene un conjunto de números totalmente aparte.
modelo_pca.components_

array([[ 0.53589947,  0.58318363,  0.27819087,  0.54343209],
       [ 0.41818087,  0.1879856 , -0.87280619, -0.16731864],
       [-0.34123273, -0.26814843, -0.37801579,  0.81777791],
       [ 0.6492278 , -0.74340748,  0.13387773,  0.08902432]])

# Por ejemplo, asi se obtenia en el ejemplo PC1
PC1=0.535899 Murder+0.583184 Assault+0.278191 UrbanPop+0.543432 Rape

In [None]:
# Con esto se obtiene cuanto de la varianza explicada por cada PC. NOTA: Las primeras siempre explican mas. 
modelo_pca.explained_variance_ratio_

array([0.62006039, 0.24744129, 0.0891408 , 0.04335752])

In [None]:
# Con esto se obtiene cuanto de la varianza explicada por cada PC adicional acumulada. 
modelo_pca.explained_variance_ratio_.cumsum()

array([0.62006039, 0.86750168, 0.95664248, 1.        ])

In [None]:
# Una vez decidimos cuantas PC's incluir, volvemos a ejecutar el Pipe.
pca_pipe = Pipeline([("scaler",StandardScaler()),("pca", PCA(n_components=2))])
modelo_pca = pca_pipe['pca']
# Fit con los datos de entrenamiento
pca_pipe.fit(df)

# Transformar tanto los datos de entrenamiento como los de prueba (Si tenemos)
# Nota: Transform se usa cuando hay un cambio matemático del dataframe.
# En este caso PCA lo necesita porque no es realmente una predicción, es una transformación.
X_train_transformed = pca_pipe.transform(df)
X_test_transformed = pca_pipe.transform(df_a_probar)  # Esto si se quisiera aplicar a otro conjunto de datos.


In [None]:
# Recostruccion de las proyecciones. Esto lo podemos comparar con los originales para ver que tan bien reconstruye.
# Nota: Recordar analogía de cuando comprimes y descomprimes una imagen, evalúas que tanta calidad se perdió.
# ==============================================================================
reconstruccion = pca_pipe.inverse_transform(proyecciones)
reconstruccion = pd.DataFrame(
    reconstruccion,
    columns = datos.columns,
    index = datos.index
)

print('------------------')
print('Valores reconstruidos')
print('------------------')
display(reconstruccion.head())

print('---------------------')
print('Valores originales')
print('---------------------')
display(datos.head())

------------------
Valores reconstruidos
------------------


Unnamed: 0,Murder,Assault,UrbanPop,Rape
Alabama,12.108907,235.755815,55.293753,24.439738
Alaska,14.229193,281.230658,59.891444,29.393422
Arizona,10.517042,244.021633,81.897906,31.273586
Arkansas,9.480315,181.322623,50.97131,18.782131
California,10.83801,268.266387,94.898277,36.343663


---------------------
Valores originales
---------------------


Unnamed: 0,Murder,Assault,UrbanPop,Rape
Alabama,13.2,236,58,21.2
Alaska,10.0,263,48,44.5
Arizona,8.1,294,80,31.0
Arkansas,8.8,190,50,19.5
California,9.0,276,91,40.6
