In [16]:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
import umap.umap_ as umap
from sklearn.preprocessing import StandardScaler

In [17]:
%config InlineBackend.figure_format = 'retina'
import warnings
warnings.simplefilter("ignore")

## Cargar el dataset transformado

In [18]:
df_transformed = pd.read_csv("data_transformada.csv")

## Estandarizar

In [19]:
X_scaled = StandardScaler().fit_transform(df_transformed)

## Reducir con PCA
### Definición:
Transforma los datos en un nuevo espacio de características ortogonales (componentes principales) que maximizan la varianza.
### Ventajas:
- Fácil de implementar.
- Útil para eliminar multicolinealidad.
### Desventajas:
- Supone linealidad en los datos.

In [30]:
pca = PCA(n_components=6).fit(X_scaled)
pca.fit(X_scaled)
PCA_ds = pd.DataFrame(pca.transform(X_scaled), columns=(["col1","col2", "col3","col4","col5","col6"]))
PCA_ds.to_csv('data_reduccion_PCA.csv',index=False)

: 

## Reducir con t-SNE
### Definición:
Técnica no lineal que modela la probabilidad de vecindad entre puntos en el espacio original y en el espacio reducido. Conserva relaciones locales mejor que globales.
### Ventajas:
- Excelente para datos no lineales.
### Desventajas:
- Computacionalmente costoso.
- No es determinista (resultados pueden variar).

In [31]:
X_tsne = TSNE(n_components=2, perplexity=30, random_state=42).fit_transform(X_scaled)
TSNE_ds = pd.DataFrame(X_tsne,columns=(["col1","col2"]))
TSNE_ds.to_csv('data_reduccion_TSNE.csv',index=False)

## Reducir con UMAP
### Definición:
Método basado en geometría topológica que preserva tanto relaciones locales como globales. Es más escalable que T-SNE y produce resultados más claros en menos tiempo.
### Ventajas:
- Más rápido que t-SNE.
- Mejor conservación de la estructura global.
### Desventajas:
- Requiere ajuste de hiperparámetros.


In [32]:
reducer = umap.UMAP(n_components=2, random_state=42)
X_umap = reducer.fit_transform(X_scaled)
UMAP_ds = pd.DataFrame(X_umap,columns=(["col1","col2"]))
UMAP_ds.to_csv('data_reduccion_UMAP.csv',index=False)