# Análisis PCA del dataset Wine

En este notebook exploraremos cómo usar PCA (Análisis de Componentes Principales) para reducir la dimensionalidad del dataset 'wine' de `sklearn`, que contiene 13 variables numéricas y 3 clases de vinos.

## Cargar y escalar los datos
Usamos el dataset `wine` de sklearn y aplicamos escalamiento estándar para que PCA funcione adecuadamente.

In [None]:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Cargar datos
data = load_wine()
X = data.data
y = data.target
target_names = data.target_names

# Escalamiento
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)


## Aplicar PCA (2 Componentes)
Reducimos a 2 dimensiones para visualizar los datos en un plano 2D.

In [None]:

# PCA con 2 componentes
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)


## Visualización del espacio reducido
Mostramos cómo los datos proyectados en los dos primeros componentes permiten cierta separación de las clases.

In [None]:

plt.figure(figsize=(8, 6))
for target, name in enumerate(target_names):
    plt.scatter(X_pca[y == target, 0], X_pca[y == target, 1], label=name, s=30)

plt.title("Reducción con PCA del dataset Wine (13 → 2 variables)")
plt.xlabel("Componente Principal 1")
plt.ylabel("Componente Principal 2")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


## Varianza explicada por los componentes principales

In [None]:

explained = pca.explained_variance_ratio_
print(f"Varianza explicada por PC1: {explained[0]:.2%}")
print(f"Varianza explicada por PC2: {explained[1]:.2%}")
print(f"Varianza total explicada por los dos primeros componentes: {explained[:2].sum():.2%}")


## Scree Plot
Este gráfico muestra cuánta varianza explica cada componente. Permite decidir cuántos componentes conservar.

In [None]:

# PCA completo para Scree plot
pca_full = PCA()
X_pca_full = pca_full.fit_transform(X_scaled)

plt.figure(figsize=(8, 5))
plt.plot(np.arange(1, len(pca_full.explained_variance_ratio_) + 1),
         pca_full.explained_variance_ratio_, marker='o', linestyle='-')
plt.title('Scree Plot - Varianza explicada por componente')
plt.xlabel('Número de componente principal')
plt.ylabel('Proporción de varianza explicada')
plt.xticks(np.arange(1, len(pca_full.explained_variance_ratio_) + 1))
plt.grid(True)
plt.tight_layout()
plt.show()


## Matriz de cargas (loading matrix)
Esta matriz muestra cómo se combinan las variables originales para formar los componentes principales.

In [None]:
import pandas as pd

# Mostrar la matriz de cargas
loading_matrix = pd.DataFrame(pca.components_.T,
                              columns=['PC1', 'PC2'],
                              index=data.feature_names)
loading_matrix


## Varianza explicada acumulada
Este gráfico ayuda a identificar cuántos componentes se necesitan para cubrir un porcentaje deseado de varianza (por ejemplo, 90%).

In [None]:

# Scree plot acumulado
var_exp = pca_full.explained_variance_ratio_
cum_var_exp = np.cumsum(var_exp)

plt.figure(figsize=(8, 5))
plt.plot(np.arange(1, len(cum_var_exp) + 1), cum_var_exp, marker='o', linestyle='-')
plt.axhline(y=0.9, color='r', linestyle='--', label='90% de varianza')
plt.title('Varianza explicada acumulada')
plt.xlabel('Número de componentes principales')
plt.ylabel('Varianza acumulada')
plt.xticks(np.arange(1, len(cum_var_exp) + 1))
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()
