# 01 — PCA por SVD (desde cero) + Comparación con scikit-learn

**Objetivo:** entender la relación SVD↔PCA, calcular componentes principales, varianza explicada y comparar con `sklearn`.

**Vas a aprender a:**
- Construir PCA con SVD: `X = U Σ V^T`.
- Centrar y escalar datos.
- Calcular varianza explicada y *scree plot*.
- Comparar con `sklearn.decomposition.PCA`.


In [None]:

# %pip install numpy pandas matplotlib scikit-learn --quiet
import numpy as np, pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
np.random.seed(42)


In [None]:

# Datos sintéticos
n = 400
C = np.array([[1.0, 0.8],[0.8, 1.0]])
X = np.random.multivariate_normal(mean=[0,0], cov=C, size=n)
X = np.vstack([X, np.random.multivariate_normal([4,5], C, size=n)])
df = pd.DataFrame(X, columns=["x1","x2"])
df.head()


In [None]:

# Centrado y escalado
scaler = StandardScaler()
Xs = scaler.fit_transform(df.values)

# PCA por SVD
U, S, VT = np.linalg.svd(Xs, full_matrices=False)
components = VT
explained_var = (S**2) / (Xs.shape[0]-1)
explained_var_ratio = explained_var / explained_var.sum()
explained_var_ratio


In [None]:

# PCA sklearn para comparar
pca = PCA().fit(Xs)
pca.explained_variance_ratio_, components[0], pca.components_[0]


In [None]:

# Proyección y gráficos
Z = Xs @ components.T
plt.figure(figsize=(5,4))
plt.scatter(Z[:,0], Z[:,1], s=8)
plt.title("Espacio de componentes (PCA por SVD)")
plt.xlabel("PC1"); plt.ylabel("PC2"); plt.show()

plt.figure(figsize=(5,4))
xs = np.arange(1, len(explained_var_ratio)+1)
plt.plot(xs, explained_var_ratio, marker="o")
plt.title("Varianza explicada")
plt.xlabel("Componente"); plt.ylabel("Ratio"); plt.show()


---

**Tarea:** repetir con Iris/Wine, comparar PCA con/ sin escalar y explicar diferencias.