In [None]:
# Parte II - PCA, K-means y Clustering Jerárquico
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import dendrogram, linkage

# Simular datos representativos
np.random.seed(42)
n = 500
df_final = pd.DataFrame({
    'EDAD': np.random.normal(40, 10, n),
    'educ': np.random.normal(12, 2, n),
    'salario_semanal': np.random.normal(80000, 15000, n),
    'horastrab': np.random.normal(40, 5, n),
    'ESTADO': np.random.choice(['Ocupado', 'Desocupado'], n, p=[0.8, 0.2])
})
df_final['edad2'] = df_final['EDAD'] ** 2

In [None]:
# PCA - Proporción de varianza explicada
variables = ['EDAD', 'edad2', 'educ', 'salario_semanal', 'horastrab']
X = df_final[variables]
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
pca = PCA()
X_pca = pca.fit_transform(X_scaled)
varianza_explicada = np.cumsum(pca.explained_variance_ratio_)
plt.figure(figsize=(8, 5))
plt.plot(range(1, len(varianza_explicada) + 1), varianza_explicada, marker='o')
plt.title('Proporción acumulada de varianza explicada por componente')
plt.xlabel('Número de componentes')
plt.ylabel('Varianza explicada acumulada')
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
# K-means con k=2, 4, 10
def plot_kmeans(X, k):
    kmeans = KMeans(n_clusters=k, n_init=20, random_state=1)
    labels = kmeans.fit_predict(X)
    plt.figure(figsize=(6, 5))
    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='tab10', s=30)
    plt.title(f'K-means (k={k}) sobre componentes PCA')
    plt.xlabel('PC1')
    plt.ylabel('PC2')
    plt.grid(True)
    plt.tight_layout()
    plt.show()

plot_kmeans(X_pca[:, :2], 2)
plot_kmeans(X_pca[:, :2], 4)
plot_kmeans(X_pca[:, :2], 10)

In [None]:
# K=2: Edad vs Educación con color por estado
df_cluster = df_final.copy()
kmeans_k2 = KMeans(n_clusters=2, n_init=20, random_state=1)
df_cluster['cluster_k2'] = kmeans_k2.fit_predict(df_cluster[['EDAD', 'educ']])
plt.figure(figsize=(8, 6))
sns.scatterplot(data=df_cluster, x='EDAD', y='educ', hue='ESTADO', style='cluster_k2', palette='Set1')
plt.title('K=2: Edad vs Educación (color por Estado, estilo por Cluster)')
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
# Dendograma - Clustering jerárquico
linkage_matrix = linkage(X_scaled, method='ward')
plt.figure(figsize=(12, 6))
dendrogram(linkage_matrix, truncate_mode='level', p=20)
plt.title('Dendograma - Clustering jerárquico')
plt.xlabel('Observaciones agrupadas')
plt.ylabel('Distancia')
plt.tight_layout()
plt.show()