Considere los datos en el archivo **"cars.dat"**.  
Estos datos corresponden a **calificaciones promedio** que cuarenta personas les asignaron a 23 modelos de automóviles,  
y se tiene que las variables (cualidades) evaluadas fueron:

| Variable | Columna | Cualidad evaluada | Abreviatura (nombre) |
|-----------|----------|------------------|----------------------|
| $$X_1$$ | 1 | Economía | *Economy* |
| $$X_2$$ | 2 | Servicio | *Service* |
| $$X_3$$ | 3 | No depreciación de su valor | *Value* |
| $$X_4$$ | 4 | Precio | *Price* |
| $$X_5$$ | 5 | El diseño (la experiencia) | *Design* |
| $$X_6$$ | 6 | Aspecto deportivo | *Sporty* |
| $$X_7$$ | 7 | Grado de seguridad del vehículo | *Safety* |
| $$X_8$$ | 8 | Facilidad de manejo | *Easy* |

Las calificaciones van desde **1 (muy bueno)** a **6 (muy malo)**.

---

Haga un **análisis de componentes principales (PCA)** de estos datos.  
Interprete y obtenga conclusiones relevantes usando los **dos primeros componentes principales**.  
¿Es necesario utilizar la **tercera componente principal**?  
¿Por qué sí o por qué no?


In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import seaborn as sns

# === 1. Cargar los datos ===
df = pd.read_csv("cars.dat", sep="\s+", header=None)
df.columns = ["Economy", "Service", "Value", "Price", "Design", "Sporty", "Safety", "Easy"]

print("Dimensiones del dataset:", df.shape)
display(df.head())

# === 2. Estandarización ===
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df)

# === 3. Aplicar PCA ===
pca = PCA(n_components=8)
X_pca = pca.fit_transform(X_scaled)

# === 4. Varianza explicada ===
var_exp = pca.explained_variance_ratio_
cum_var = var_exp.cumsum()

print("Varianza explicada por cada componente:\n", var_exp)
print("Varianza acumulada:\n", cum_var)

# === 5. Gráfico de varianza explicada ===
plt.figure(figsize=(6,4))
plt.plot(range(1,9), cum_var, marker='o')
plt.xlabel('Número de Componentes')
plt.ylabel('Varianza Acumulada')
plt.title('Varianza explicada por los componentes principales')
plt.grid(True)
plt.show()

# === 6. Matriz de cargas (loadings) ===
loadings = pd.DataFrame(pca.components_.T,
                        columns=[f'PC{i+1}' for i in range(8)],
                        index=df.columns)
display(loadings)

# === 7. Gráfico biplot (PC1 vs PC2) ===
plt.figure(figsize=(8,6))
sns.scatterplot(x=X_pca[:,0], y=X_pca[:,1])
for i, var in enumerate(df.columns):
    plt.arrow(0, 0, pca.components_[0, i]*3, pca.components_[1, i]*3,
              color='r', alpha=0.6)
    plt.text(pca.components_[0, i]*3.2, pca.components_[1, i]*3.2, var, color='r')

plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('Biplot: Componentes principales 1 y 2')
plt.grid(True)
plt.show()
