
# Reducción de la Dimensionalidad: Técnicas y Aplicaciones

La **reducción de la dimensionalidad** es una técnica fundamental cuando trabajamos con conjuntos de datos con muchas variables. Permite:

- Eliminar ruido y redundancia.
- Visualizar datos en 2D o 3D.
- Mejorar el rendimiento de los modelos.

---

## Objetivos:

1. Entender la motivación y fundamentos matemáticos.
2. Aplicar técnicas como **PCA**, **MFA**, **t-SNE** y **UMAP**.
3. Usar `scikit-learn` y visualizar resultados.


In [None]:

from sklearn.datasets import load_iris
import pandas as pd

# Cargar dataset Iris
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target
X.head()



## 1. Análisis de Componentes Principales (PCA)

### ¿Qué es PCA?

PCA busca nuevas variables (componentes principales) que sean combinaciones lineales de las variables originales, maximizando la varianza.

---

### Matemáticamente:

1. Estandarizar los datos.
2. Calcular matriz de covarianza:  
\[
\Sigma = \frac{1}{n} X^T X
\]
3. Calcular autovalores y autovectores de \(\Sigma\).
4. Elegir los k vectores propios más grandes.
5. Transformar los datos:
\[
X_{\text{reducido}} = X W_k
\]

Donde \(W_k\) contiene los vectores propios seleccionados.


In [None]:

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# Estandarizar
X_std = StandardScaler().fit_transform(X)

# PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_std)

# Visualizar
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis')
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('PCA - Componentes principales')
plt.grid(True)
plt.show()



## 2. Análisis de Factores Múltiples (MFA)

El **MFA** es una extensión del PCA para **datos estructurados en grupos** (bloques de variables).

- Se aplica un PCA en cada grupo.
- Se ponderan los datos según la inercia.
- Se obtiene una representación global equilibrada.

Es útil cuando tenemos variables de diferentes tipos o grupos lógicos, como:
- Opiniones (bloque 1)
- Comportamientos (bloque 2)
- Datos demográficos (bloque 3)

```bash
pip install prince
```


In [None]:

import prince

# Ejemplo simple: simular 2 bloques
df = X.copy()
df['grupo1'] = y  # Simular un bloque adicional

mfa = prince.MFA(
    groups={'medidas': 4, 'grupo1': 1},
    n_components=2,
    normalize=True
)

mfa = mfa.fit(df)
mfa.plot_row_coordinates(df, ax=None, figsize=(6, 6))



## 3. Otras Técnicas: t-SNE y UMAP

### t-SNE (t-distributed Stochastic Neighbor Embedding)

- Preserva distancias locales.
- Útil para visualizar datos complejos no lineales.

```python
from sklearn.manifold import TSNE
```

---

### UMAP (Uniform Manifold Approximation and Projection)

- Más rápido que t-SNE en grandes conjuntos.
- Preserva tanto estructura global como local.

```python
import umap
```


In [None]:

from sklearn.manifold import TSNE
import umap

# t-SNE
tsne = TSNE(n_components=2, random_state=42)
X_tsne = tsne.fit_transform(X_std)

# UMAP
reducer = umap.UMAP(n_components=2, random_state=42)
X_umap = reducer.fit_transform(X_std)

# Visualización comparativa
fig, axs = plt.subplots(1, 2, figsize=(12, 5))

axs[0].scatter(X_tsne[:, 0], X_tsne[:, 1], c=y, cmap='Spectral')
axs[0].set_title("t-SNE")

axs[1].scatter(X_umap[:, 0], X_umap[:, 1], c=y, cmap='Spectral')
axs[1].set_title("UMAP")

plt.show()



## Comparación: PCA vs UMAP

| Característica                 | PCA                                | UMAP                                 |
|-------------------------------|-------------------------------------|--------------------------------------|
| Tipo de reducción             | Lineal                              | No lineal                            |
| Preservación de estructura    | Global                              | Local y global                       |
| Interpretabilidad             | Alta (combinaciones lineales)       | Baja (espacio proyectado no lineal) |
| Sensible a escalado           | Sí                                  | Sí                                   |
| Velocidad                     | Muy rápida                          | Rápida (más lenta que PCA)          |
| Visualización                 | Buena para datos lineales           | Excelente para estructuras complejas|
| Dependencia de hiperparámetros| No (solo n_components)              | Sí (n_neighbors, min_dist, etc.)    |
| Uso típico                    | Preprocesamiento, explicación       | Visualización, descubrimiento       |



## Ejercicio Final

1. Usa el dataset `load_wine()` o cualquier otro de alta dimensión.
2. Aplica PCA, t-SNE y UMAP.
3. Compara visualmente las representaciones reducidas.
4. ¿Qué técnica conserva mejor la separación entre clases?

¿Notas diferencias en velocidad, dispersión o agrupamientos?
