# Bloque 1.1 ‚Äî Fundamentos y M√©tricas de Distancia
**M√°ster en Ciencia de Datos ¬∑ M√≥dulo: Algoritmos de Clustering**
**Sesi√≥n 1 ¬∑ Duraci√≥n: 55 min**

---
> üìå **C√≥mo usar este notebook:**
> Ejecuta las celdas **en orden**. Cada secci√≥n comienza con explicaci√≥n te√≥rica (en Markdown) seguida del c√≥digo correspondiente.
> Los comentarios `# ---` delimitan ejercicios opcionales para profundizar.


## üîß Setup y verificaci√≥n del entorno

In [None]:
# ============================================================
# SETUP ‚Äî ejecutar siempre en primer lugar
# ============================================================
import warnings
warnings.filterwarnings('ignore')

# Verificar librer√≠as clave
import importlib, sys

required = {
    'numpy': 'numpy',
    'pandas': 'pandas',
    'matplotlib': 'matplotlib',
    'seaborn': 'seaborn',
    'sklearn': 'scikit-learn',
    'scipy': 'scipy',
}

optional = {
    'sklearn_extra': 'scikit-learn-extra  # pip install scikit-learn-extra',
    'minisom': 'minisom               # pip install minisom',
    'umap': 'umap-learn             # pip install umap-learn',
    'hdbscan': 'hdbscan               # pip install hdbscan',
    'yellowbrick': 'yellowbrick          # pip install yellowbrick',
}

print("Librer√≠as requeridas:")
for mod, pkg in required.items():
    ok = importlib.util.find_spec(mod) is not None
    print(f"  {'‚úÖ' if ok else '‚ùå'} {pkg}")

print("\nLibrer√≠as opcionales:")
for mod, pkg in optional.items():
    ok = importlib.util.find_spec(mod) is not None
    print(f"  {'‚úÖ' if ok else '‚ö†Ô∏è '} {pkg}")

In [None]:
# ============================================================
# BLOQUE 1.1 ‚Äî Introducci√≥n al Clustering y Espacio de Datos
# M√°ster en Ciencia de Datos
# ============================================================

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.spatial import distance

# Generadores de datos sint√©ticos
from sklearn.datasets import make_blobs, make_moons, make_circles

# Configuraci√≥n visual
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12
sns.set_style("whitegrid")
np.random.seed(42)

print("‚úì Librer√≠as cargadas correctamente")

**Nota al instructor:** Aprovechar esta celda para verificar que todos los alumnos tienen el entorno funcionando. Pedir que ejecuten y confirmen el mensaje de OK.

---

#### Celda 2 ‚Äî Datasets sint√©ticos: los tres escenarios cl√°sicos

In [None]:
# Generamos tres tipos de distribuciones de datos
# Cada una plantea un reto diferente para los algoritmos de clustering

# Escenario A: Blobs bien separados (el caso "f√°cil")
X_blobs, y_blobs = make_blobs(n_samples=300, centers=4, cluster_std=0.8)

# Escenario B: Lunas entrelazadas (clusters no convexos)
X_moons, y_moons = make_moons(n_samples=300, noise=0.05)

# Escenario C: C√≠rculos conc√©ntricos (clusters anidados)
X_circles, y_circles = make_circles(n_samples=300, noise=0.05, factor=0.5)

# Visualizaci√≥n
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

datasets = [
    (X_blobs,   y_blobs,   "A ‚Äî Blobs separados\n(caso ideal para K-Means)"),
    (X_moons,   y_moons,   "B ‚Äî Lunas entrelazadas\n(requiere densidad o kernels)"),
    (X_circles, y_circles, "C ‚Äî C√≠rculos conc√©ntricos\n(K-Means fallar√° aqu√≠)")
]

for ax, (X, y, title) in zip(axes, datasets):
    scatter = ax.scatter(X[:, 0], X[:, 1], c=y, cmap='tab10', alpha=0.7, s=30)
    ax.set_title(title, fontsize=11)
    ax.set_xlabel("Caracter√≠stica 1")
    ax.set_ylabel("Caracter√≠stica 2")

plt.suptitle("Tres morfolog√≠as de datos ‚Äî ¬øUn solo algoritmo puede con todos?",
             fontsize=13, fontweight='bold')
plt.tight_layout()
plt.savefig("img_datasets_sinteticos.png", dpi=150, bbox_inches='tight')
plt.show()

**Script de explicaci√≥n para el instructor:**

*"Fijaos en estos tres escenarios. El escenario A es el sue√±o de cualquier algoritmo: los grupos son compactos, esf√©ricos y bien separados. Aqu√≠ cualquier m√©todo funciona. El B y el C son m√°s interesantes: tienen estructura clara (los humanos los identificamos perfectamente), pero esa estructura no es esf√©rica. En los pr√≥ximos bloques vamos a ver qu√© algoritmos fallan aqu√≠ y por qu√©."*

*"Cuando trabaj√©is con datos reales nunca sabr√©is en qu√© escenario est√°is. Por eso el primer paso siempre es visualizar ‚Äîsi la dimensionalidad lo permite‚Äî y entender la forma de los datos."*

---

#### Celda 3 ‚Äî El impacto de la escala en las distancias

In [None]:
# Demostraci√≥n: por qu√© hay que normalizar antes de clusterizar

# Dataset artificial: dos clientes descritos por edad e ingresos anuales
# Cliente A: 25 a√±os, 25.000‚Ç¨ anuales
# Cliente B: 26 a√±os, 80.000‚Ç¨ anuales
# Cliente C: 55 a√±os, 27.000‚Ç¨ anuales
# ¬øQui√©n est√° m√°s "cerca" de A?

clientes = np.array([
    [25,  25000],   # Cliente A (referencia)
    [26,  80000],   # Cliente B (1 a√±o m√°s, mucho m√°s rico)
    [55,  27000],   # Cliente C (30 a√±os m√°s, ingresos similares)
])

nombres = ["A (referencia)", "B", "C"]

# Calculamos distancias euclidianas sin normalizar
print("=== Distancias EUCLIDIANAS (sin normalizar) ===")
d_AB = distance.euclidean(clientes[0], clientes[1])
d_AC = distance.euclidean(clientes[0], clientes[2])
print(f"  d(A, B) = {d_AB:,.0f}  ‚Üê 1 a√±o de diferencia, 55k‚Ç¨ de diferencia")
print(f"  d(A, C) = {d_AC:,.0f}  ‚Üê 30 a√±os de diferencia, 2k‚Ç¨ de diferencia")
print(f"\n  ‚Üí Seg√∫n distancia euclidiana, B est√° m√°s cerca de A que C")
print(f"  ‚Üí ¬øTiene sentido para negocio? B tiene ingresos 3x mayores que A...")

# Normalizamos con StandardScaler
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
clientes_norm = scaler.fit_transform(clientes)

print("\n=== Distancias EUCLIDIANAS (tras normalizaci√≥n z-score) ===")
d_AB_n = distance.euclidean(clientes_norm[0], clientes_norm[1])
d_AC_n = distance.euclidean(clientes_norm[0], clientes_norm[1])
d_AB_n = distance.euclidean(clientes_norm[0], clientes_norm[1])
d_AC_n = distance.euclidean(clientes_norm[0], clientes_norm[2])
print(f"  d(A, B) normalizada = {d_AB_n:.3f}")
print(f"  d(A, C) normalizada = {d_AC_n:.3f}")
print(f"\n  ‚Üí Ahora C est√° m√°s cerca de A (comparten nivel de ingresos)")
print(f"  ‚Üí La normalizaci√≥n restaura el balance entre variables")

**Script de explicaci√≥n:**

*"Este ejemplo parece trivial pero es uno de los errores m√°s frecuentes en proyectos reales. La distancia euclidiana sin normalizar est√° completamente dominada por los ingresos porque tienen una escala 1000 veces mayor que la edad. Al normalizar, ambas variables contribuyen de forma equilibrada."*

*"La pregunta que deb√©is haceros siempre antes de clusterizar: '¬øMis variables est√°n en la misma escala? ¬øQuiero que contribuyan por igual?' Si la respuesta es s√≠, normalizad. Si quereis que una variable tenga m√°s peso, pod√©is escalarla con un factor diferente."*

---

#### Celda 4 ‚Äî Visualizaci√≥n de matrices de distancia

In [None]:
# Las matrices de distancia revelan la estructura de los datos
# antes de aplicar ning√∫n algoritmo

# Usamos los blobs (caso simple) para ver qu√© aspecto tiene una matriz "buena"
from sklearn.preprocessing import StandardScaler

X_blobs_norm = StandardScaler().fit_transform(X_blobs)

# Calculamos la matriz de distancias
dist_matrix = distance.cdist(X_blobs_norm[:80], X_blobs_norm[:80], metric='euclidean')

# Ordenamos por etiqueta real para ver la estructura de bloque
idx_sorted = np.argsort(y_blobs[:80])
dist_sorted = dist_matrix[np.ix_(idx_sorted, idx_sorted)]

fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Sin ordenar
im1 = axes[0].imshow(dist_matrix, cmap='viridis_r', aspect='auto')
axes[0].set_title("Matriz de distancias\n(puntos en orden original)", fontsize=11)
axes[0].set_xlabel("√çndice de punto")
axes[0].set_ylabel("√çndice de punto")
plt.colorbar(im1, ax=axes[0], label="Distancia euclidiana")

# Ordenada por cluster real
im2 = axes[1].imshow(dist_sorted, cmap='viridis_r', aspect='auto')
axes[1].set_title("Matriz de distancias\n(puntos ordenados por cluster real)", fontsize=11)
axes[1].set_xlabel("√çndice de punto (ordenado)")
axes[1].set_ylabel("√çndice de punto (ordenado)")
plt.colorbar(im2, ax=axes[1], label="Distancia euclidiana")

plt.suptitle("Estructura de bloque diagonal = clusters bien separados",
             fontsize=12, fontweight='bold')
plt.tight_layout()
plt.show()

print("Interpretaci√≥n:")
print("  Colores oscuros = distancia corta (puntos similares)")
print("  Colores claros = distancia larga (puntos distintos)")
print("  Bloques diagonales oscuros = clusters compactos y separados")

**Script de explicaci√≥n:**

*"La imagen de la derecha es lo que queremos ver: bloques oscuros en la diagonal. Cada bloque representa un cluster donde los puntos est√°n cerca entre s√≠, y la zona clara fuera de los bloques indica que los clusters est√°n bien separados entre ellos. En datos reales, esta estructura perfecta raramente aparece ‚Äî veremos se√±ales m√°s ambiguas."*

---

#### Celda 5 ‚Äî Comparaci√≥n de m√©tricas de distancia (ejercicio interactivo)

In [None]:
# ¬øLa m√©trica de distancia cambia la estructura que percibimos?

from scipy.spatial.distance import cdist

# Mismo dataset, tres m√©tricas distintas
metricas = {
    'Euclidiana (L2)': 'euclidean',
    'Manhattan (L1)':  'cityblock',
    'Coseno':          'cosine'
}

# Tomamos una muestra peque√±a de los datos de lunas para visualizar
sample_idx = np.random.choice(len(X_moons), 60, replace=False)
X_sample = StandardScaler().fit_transform(X_moons[sample_idx])
y_sample = y_moons[sample_idx]
idx_sorted = np.argsort(y_sample)

fig, axes = plt.subplots(1, 3, figsize=(16, 5))

for ax, (nombre, metrica) in zip(axes, metricas.items()):
    D = cdist(X_sample, X_sample, metric=metrica)
    D_sorted = D[np.ix_(idx_sorted, idx_sorted)]
    im = ax.imshow(D_sorted, cmap='viridis_r', aspect='auto')
    ax.set_title(f"Distancia: {nombre}", fontsize=11)
    ax.set_xlabel("Punto (ordenado por cluster)")
    ax.set_ylabel("Punto (ordenado por cluster)")
    plt.colorbar(im, ax=ax)

plt.suptitle("Dataset 'Lunas' ‚Äî La misma estructura, vista con tres m√©tricas distintas",
             fontsize=12, fontweight='bold')
plt.tight_layout()
plt.show()

print("Reflexi√≥n:")
print("  ¬øLas tres m√©tricas revelan la misma estructura de bloques?")
print("  ¬øCon cu√°l se ve m√°s claramente la separaci√≥n entre los dos grupos?")

**Script de discusi√≥n:**

*"Mirad las tres matrices. Las tres muestran la misma estructura subyacente ‚Äîdos grupos‚Äî pero con claridad distinta seg√∫n la m√©trica. Este es el punto de partida de cualquier an√°lisis de clustering: antes de elegir un algoritmo, explorad qu√© m√©trica de distancia captura mejor la estructura que os importa."*

---

#### Celda 6 ‚Äî Discusi√≥n de cierre + pregunta reflexiva

In [None]:
# RESUMEN DEL BLOQUE 1.1
# =======================
print("=" * 55)
print("PUNTOS CLAVE DEL BLOQUE 1.1")
print("=" * 55)
print("""
1. El clustering busca estructura no etiquetada en los datos.
   No hay 'respuesta correcta' ‚Äî hay soluciones m√°s o menos √∫tiles.

2. Existen 5 paradigmas principales: particional, jer√°rquico,
   basado en densidad, probabil√≠stico y neuronal.
   Cada sesi√≥n cubrir√° representantes de cada familia.

3. La elecci√≥n de la m√©trica de distancia es tan importante
   como la elecci√≥n del algoritmo. Siempre normalizar primero.

4. En alta dimensionalidad, las distancias pierden significado.
   Reducci√≥n de dimensionalidad (Sesi√≥n 2) es la soluci√≥n.

5. Visualizar los datos ANTES de modelar es obligatorio.
   Las matrices de distancia son una herramienta infrautilizada.
""")
print("=" * 55)

**Pregunta final de discusi√≥n (3 min):**

*"Antes de que pasemos al siguiente bloque, quiero que pens√©is en un dataset de vuestro trabajo o sector. ¬øQu√© columnas usar√≠ais para clusterizar? ¬øTendr√≠an todas la misma escala? ¬øQu√© m√©trica de distancia tendr√≠a sentido?"*

---

## NOTAS DE PRODUCCI√ìN

### Para las slides

- **Slide 1:** Portada del bloque con t√≠tulo, duraci√≥n y objetivo.
- **Slide 2:** Comparativa supervisado / no supervisado con tabla y ejemplos.
- **Slide 3:** Los 5 paradigmas de clustering con iconos y ejemplo de output visual de cada uno.
- **Slide 4:** Aplicaciones reales ‚Äî usar iconos de sector (compras, banco, gen√©tica). M√≠nimo texto, m√°ximo imagen.
- **Slide 5:** F√≥rmulas de las 4 m√©tricas de distancia + c√≠rculos unitarios L1/L2/L‚àû.
- **Slide 6:** Tabla resumen de m√©tricas (cu√°ndo usar cada una).
- **Slide 7:** Advertencia de escalado ‚Äî el ejemplo de edad vs. ingresos.

### Para el handout (papel o PDF)

El handout de este bloque debe incluir:
- Tabla resumen de los 5 paradigmas de clustering.
- Tabla de m√©tricas de distancia con las f√≥rmulas y el contexto de uso.
- Los tres gr√°ficos de los datasets sint√©ticos (blobs, lunas, c√≠rculos).
- La imagen de la matriz de distancias ordenada.
- Checklist pre-clustering: *(1) ¬øDatos normalizados? (2) ¬øM√©trica adecuada? (3) ¬øDatos visualizados?*

### Para el Jupyter Notebook (entrega a alumnos)

El notebook de este bloque se distribuye con las celdas de c√≥digo completas pero con **celdas de ejercicio** intercaladas con `# TODO:` marcando qu√© deben completar los alumnos:

**Ejercicio 1:** A√±adir la distancia de Minkowski generalizada con p=3 a la comparativa de la Celda 5 e interpretar los resultados.

**Ejercicio 2:** Generar un cuarto dataset con `make_blobs` pero con `cluster_std` muy alto (=3.0). ¬øSe siguen viendo bloques diagonales en la matriz de distancias?

**Ejercicio 3 (opcional/avanzado):** Implementar la funci√≥n de distancia euclidiana desde cero usando solo NumPy (sin scipy) y verificar que produce los mismos resultados.

---

## GESTI√ìN DEL TIEMPO

| Segmento | Duraci√≥n | Indicador de progreso |
|---|---|---|
| Apertura y contrato de aprendizaje | 5 min | Los alumnos tienen el notebook abierto |
| ¬øQu√© es unsupervised learning? | 7 min | Tabla supervisado/no supervisado en pantalla |
| Tipos de clustering + aplicaciones | 9 min | Diagrama de 5 paradigmas en pantalla |
| M√©tricas de distancia | 4 min | Tabla de m√©tricas en pantalla |
| Pr√°ctica Celda 1-2 (setup + datasets) | 8 min | Todos ejecutan sin errores |
| Pr√°ctica Celda 3 (escala) | 7 min | Discusi√≥n del output |
| Pr√°ctica Celda 4-5 (matrices) | 10 min | Visualizaciones generadas |
| Cierre y discusi√≥n | 5 min | Pregunta reflexiva respondida |
| **Total** | **55 min** | |

---

*Bloque 1.1 desarrollado para el m√≥dulo "Algoritmos de Clustering" ‚Äî M√°ster en Ciencia de Datos*

---
## üí° Para explorar m√°s ‚Äî Ejercicios propuestos

Los ejercicios pr√°cticos est√°n marcados con comentarios `# EJERCICIO` en el c√≥digo.

**Entrega sugerida:** Exporta este notebook como HTML o PDF (`File ‚Üí Download ‚Üí HTML`)
y a√±ade tus conclusiones en una celda Markdown al final de cada secci√≥n.

---
*M√°ster en Ciencia de Datos ¬∑ M√≥dulo Clustering ¬∑ Bloque 1.1*