# 🧬 Segmentación de pacientes con K-Means
Este notebook aplica **K-Means** para agrupar pacientes según variables de estilo de vida, usando un dataset sintético de salud.

Es ideal para escenarios preventivos en APS, permitiendo **detectar perfiles de riesgo** y orientar intervenciones.

In [None]:
# Librerías
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

In [None]:
# Cargar datos
df = pd.read_csv("synthetic_health_data.csv")
df = df[['Age', 'BMI', 'Exercise_Frequency', 'Diet_Quality', 'Sleep_Hours', 'Health_Score']]
df.head()

## ⚙️ Escalado de variables
K-means es sensible a la escala → normalizamos con StandardScaler.

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df)


## 🔢 Aplicar K-Means con k=3

In [None]:
kmeans = KMeans(n_clusters=3, random_state=42)
clusters = kmeans.fit_predict(X_scaled)
df['Cluster'] = clusters

## 📊 Visualización 2D con PCA

In [None]:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

plt.figure(figsize=(8,6))
sns.scatterplot(x=X_pca[:,0], y=X_pca[:,1], hue=clusters, palette='Set2')
plt.title("Clusters de pacientes (PCA 2D)")
plt.xlabel("Componente 1")
plt.ylabel("Componente 2")
plt.show()

## 🧠 Análisis por clúster
Resumen estadístico por grupo para entender los perfiles:

In [None]:
df.groupby('Cluster').mean().round(2)

## 📝 Actividades sugeridas
1. Cambia `k` a 2 o 4 y analiza cómo cambian los grupos.
2. Agrega `Smoking_Status` como variable adicional.
3. Interpreta el grupo con menor Health Score → ¿intervención prioritaria?