# 🌍 Módulo 3.1: Introducción al Aprendizaje No Supervisado
### Curso: **Machine Learning con Python** (IFCD093PO)
**Duración estimada:** 4 horas

---

## 🎯 Objetivos del Módulo

Bienvenido a un nuevo paradigma del Machine Learning. Hasta ahora, siempre hemos tenido una "respuesta correcta" (etiqueta) que guíaba el aprendizaje. ¿Pero qué pasa cuando no la tenemos? En este módulo, te sumergirás en el **Aprendizaje No Supervisado**, el arte de encontrar patrones y estructura en datos sin etiquetar.

Al finalizar, serás capaz de:

- ✅ Diferenciar claramente entre **Aprendizaje Supervisado y No Supervisado**.
- ✅ Entender el propósito y las aplicaciones de las tres tareas principales del aprendizaje no supervisado:
  - **Clustering (Agrupamiento)**: Para descubrir grupos naturales en los datos.
  - **Reducción de Dimensionalidad**: Para simplificar y visualizar datos complejos.
  - **Detección de Anomalías**: Para encontrar observaciones inusuales.
- ✅ Conocer los desafíos únicos de este tipo de aprendizaje, como la dificultad de evaluar los resultados.
- ✅ Identificar problemas de negocio que pueden resolverse con técnicas no supervisadas.

**¡Prepárate para convertirte en un detective de datos y descubrir las historias ocultas que tus datos tienen que contar!**

---

## 📚 Tabla de Contenidos

1. [Un Mundo sin Etiquetas](#1-sin-etiquetas)
   - [Repaso: Aprendizaje Supervisado](#1.1-repaso-sup)
   - [El Cambio de Paradigma: Aprendizaje No Supervisado](#1.2-cambio-paradigma)
2. [Principales Tareas del Aprendizaje No Supervisado](#2-tareas)
   - [Clustering: Encontrando los Grupos](#2.1-clustering)
   - [Reducción de Dimensionalidad: Simplificando la Complejidad](#2.2-reduccion)
   - [Detección de Anomalías: Buscando lo Extraño](#2.3-anomalias)
3. [Aplicaciones en el Mundo Real](#3-aplicaciones)
4. [Desafíos del Aprendizaje No Supervisado](#4-desafios)
5. [Resumen y Próximos Pasos](#5-resumen)

---

## 🗺️ 1. Un Mundo sin Etiquetas <a id='1-sin-etiquetas'></a>

### 1.1 Repaso: Aprendizaje Supervisado <a id='1.1-repaso-sup'></a>

En el aprendizaje supervisado, el objetivo es aprender una función que mapea las entradas `X` a las salidas `y`.

`(X, y) -> Modelo -> Predicción`

- **Datos**: Tenemos características (`X`) y una etiqueta o variable objetivo (`y`).
- **Objetivo**: Predecir `y` para nuevos datos `X`.
- **Evaluación**: Comparamos las predicciones con las etiquetas reales (`y_test`).
- **Ejemplos**: Predecir el precio de una casa, clasificar si un email es spam.

![Supervised Learning](imagenes/Supervised_Learning.png)

### 1.2 El Cambio de Paradigma: Aprendizaje No Supervisado <a id='1.2-cambio-paradigma'></a>

En el aprendizaje no supervisado, **no tenemos una variable objetivo `y`**. Solo tenemos los datos de entrada `X`.

`X -> Modelo -> Estructura/Patrones`

- **Datos**: Solo tenemos características (`X`). No hay "respuesta correcta".
- **Objetivo**: Encontrar estructura, patrones, grupos o anomalías inherentes en los datos.
- **Evaluación**: Mucho más difícil y subjetiva. A menudo requiere inspección humana o métricas indirectas.
- **Ejemplos**: Segmentar clientes en grupos de marketing, comprimir imágenes, detectar transacciones fraudulentas.

![Unsupervised Learning](imagenes/Unsupervised_Learning.png)

**¿Por qué es útil?** En muchos escenarios del mundo real, obtener datos etiquetados es caro, lento o simplemente imposible. El aprendizaje no supervisado nos permite extraer valor de grandes cantidades de datos sin etiquetar.

---

## 🚀 2. Principales Tareas del Aprendizaje No Supervisado <a id='2-tareas'></a>

Vamos a explorar las tres familias principales de algoritmos no supervisados.

### 2.1 Clustering: Encontrando los Grupos <a id='2.1-clustering'></a>

El **clustering** es la tarea de agrupar un conjunto de objetos de tal manera que los objetos en el mismo grupo (llamado **clúster**) sean más similares entre sí que con los de otros grupos.

**Objetivo**: Descubrir las agrupaciones naturales en los datos.

**Algoritmos Comunes**: K-Means, DBSCAN, Clustering Jerárquico.

**Ejemplo Visual**: Imagina que tenemos datos de clientes basados en sus gastos y frecuencia de compra. Un algoritmo de clustering podría identificar automáticamente diferentes segmentos de clientes.

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# Generar datos sintéticos con 3 grupos claros
# make_blobs crea datos para clustering
# Parámetros:
# - n_samples: número de muestras
# - centers: número de centros (grupos)
# - n_features: número de características
# - random_state: semilla para reproducibilidad
# - cluster_std: desviación estándar de los clusters

X, y = make_blobs(n_samples=300, centers=3, n_features=2, random_state=42, cluster_std=1.0)

plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title("Datos sin Etiquetar para Clustering")
plt.xlabel("Característica 1")
plt.ylabel("Característica 2")
plt.show()

print("El objetivo del clustering sería identificar estos 3 grupos sin conocer las etiquetas de color.")

### 2.2 Reducción de Dimensionalidad: Simplificando la Complejidad <a id='2.2-reduccion'></a>

La **reducción de dimensionalidad** consiste en reducir el número de características (dimensiones) de un conjunto de datos, conservando la mayor cantidad de información relevante posible.

**¿Por qué hacerlo?**
- **Visualización**: Los humanos no podemos visualizar datos en más de 3 dimensiones. Reducir los datos a 2D o 3D nos permite explorarlos visualmente.
- **Eficiencia Computacional**: Menos características significa que los modelos se entrenan más rápido.
- **Combatir la "Maldición de la Dimensionalidad"**: En dimensiones muy altas, los datos se vuelven muy dispersos, lo que puede dificultar el aprendizaje de los modelos.

**Algoritmos Comunes**: PCA (Análisis de Componentes Principales), t-SNE, UMAP.

**Ejemplo**: El famoso dataset de dígitos escritos a mano tiene 64 características (una por cada píxel de 8x8). Usando PCA, podemos reducirlo a 2 características y visualizar cómo se agrupan los diferentes dígitos.

In [None]:
# El conjunto de datos de dígitos manuscritos es un buen ejemplo para aplicar PCA

from sklearn.datasets import load_digits # Cargar el conjunto de datos de dígitos
from sklearn.decomposition import PCA # Análisis de Componentes Principales
import warnings
warnings.filterwarnings("ignore") # Ignorar advertencias para una salida más limpia

digits = load_digits() # Cargar datos de dígitos manuscritos
X_digits = digits.data # Datos de características (64 dimensiones)
y_digits = digits.target # Etiquetas de los dígitos (0-9)
# Para visualizar un dígito los diez primeros digitos manuscritos
# En tamaño más pequeño para que se vea mejor y en horizontal uno al lado del otro   
plt.figure(figsize=(8, 2))
for i in range(10):
    plt.subplot(1, 10, i + 1)
    plt.imshow(X_digits[i].reshape(8, 8), cmap='gray')
    plt.title(f"{y_digits[i]}")
    plt.axis('off')
plt.tight_layout()
plt.show()

print(f"Dimensiones originales de los datos: {X_digits.shape}")

# Reducir de 64 a 2 dimensiones
pca = PCA(n_components=2) # Inicializar PCA para 2 componentes
X_digits_pca = pca.fit_transform(X_digits) # Aplicar PCA a los datos

print(f"Dimensiones después de PCA: {X_digits_pca.shape}")

# Visualizar los datos reducidos
plt.figure(figsize=(10, 8))
plt.scatter(X_digits_pca[:, 0], X_digits_pca[:, 1], c=y_digits, cmap=plt.cm.get_cmap('jet', 10))
plt.colorbar(label='Dígito', ticks=range(10))
plt.title("Visualización de los Dígitos en 2D usando PCA")
plt.xlabel("Componente Principal 1")
plt.ylabel("Componente Principal 2")
plt.show()


**Explicación del gráfico:**

- El gráfico muestra cómo se ven los datos de los dígitos manuscritos (imágenes de 8x8 píxeles) después de aplicar **PCA** para reducir su complejidad.
- **Originalmente**, cada imagen es un punto en un espacio de 64 dimensiones (una dimensión por cada píxel).
- **PCA** (Análisis de Componentes Principales) nos permite resumir la información más importante de esos 64 valores en solo **2 dimensiones**. Así, podemos visualizar los datos en un plano 2D.
- **Cada punto** en el gráfico es una imagen de un dígito. El **color** del punto indica qué número representa (del 0 al 9).
- Si ves que los puntos del mismo color tienden a agruparse y están separados de otros colores, significa que PCA ha logrado encontrar patrones que distinguen bien los diferentes dígitos.
- En resumen: este gráfico nos ayuda a ver si los dígitos escritos a mano tienen características que los hacen distinguibles, incluso después de simplificar mucho la información.

### 2.3 Detección de Anomalías: Buscando lo Extraño <a id='2.3-anomalias'></a>

La **detección de anomalías (o outliers)** es la tarea de identificar observaciones que son raras y se desvían significativamente del resto de los datos.

**Objetivo**: Encontrar los "puntos raros".

**Algoritmos Comunes**: Isolation Forest, Local Outlier Factor (LOF), One-Class SVM.

**Ejemplo**: En un conjunto de datos de transacciones con tarjeta de crédito, la gran mayoría son legítimas. Las transacciones fraudulentas son raras y tienen patrones diferentes. Un algoritmo de detección de anomalías puede identificarlas sin haber visto nunca una etiqueta de "fraude".

---

## 🏢 3. Aplicaciones en el Mundo Real <a id='3-aplicaciones'></a>

| Tarea | Aplicación de Negocio |
| :--- | :--- |
| **Clustering** | **Segmentación de Clientes**: Agrupar clientes con comportamientos de compra similares para campañas de marketing dirigidas. |
| | **Agrupación de Documentos**: Organizar noticias o documentos por temas sin necesidad de leerlos. |
| | **Genómica**: Agrupar genes con patrones de expresión similares. |
| **Reducción de Dim.** | **Compresión de Imágenes**: Reducir el tamaño de las imágenes eliminando información redundante. |
| | **Visualización de Datos**: Explorar datasets de alta dimensión en gráficos 2D/3D. |
| | **Preprocesamiento**: Usar las componentes principales como características para un modelo supervisado posterior. |
| **Detección de Anom.** | **Detección de Fraude**: Identificar transacciones fraudulentas en sistemas bancarios. |
| | **Mantenimiento Predictivo**: Detectar lecturas anómalas en sensores de maquinaria para predecir fallos. |
| | **Ciberseguridad**: Detectar intrusiones o comportamientos extraños en una red. |

---

## 🚧 4. Desafíos del Aprendizaje No Supervisado <a id='4-desafios'></a>

1.  **Evaluación Difícil**: Sin una "verdad fundamental" (ground truth), es difícil saber si tu modelo es "bueno". ¿Son 3 clústeres mejores que 4? La respuesta a menudo depende del contexto y de la interpretación humana.

2.  **Interpretación de Resultados**: El modelo puede encontrar grupos, pero no te dice *qué significan*. El científico de datos debe analizar los clústeres para entender sus características y darles un nombre o sentido de negocio.

3.  **Sensibilidad a los Hiperparámetros**: Muchos algoritmos no supervisados son muy sensibles a la configuración de sus hiperparámetros (por ejemplo, el número de clústeres `k` en K-Means).

4.  **La Maldición de la Dimensionalidad**: A medida que aumenta el número de características, la distancia entre los puntos se vuelve menos significativa, lo que puede dificultar la tarea de algoritmos basados en distancia como el clustering.

---

## 📝 5. Resumen y Próximos Pasos <a id='5-resumen'></a>

### 🎉 ¡Has abierto la puerta a un nuevo universo de posibilidades en Machine Learning!

#### ✅ Lo que has aprendido:

1. **El Concepto Clave**
   - El Aprendizaje No Supervisado se trata de **encontrar estructura en datos sin etiquetar**.

2. **Las Tres Grandes Tareas**
   - **Clustering**: Para encontrar grupos (ej. segmentos de clientes).
   - **Reducción de Dimensionalidad**: Para simplificar y visualizar (ej. PCA).
   - **Detección de Anomalías**: Para encontrar lo inusual (ej. fraude).

3. **Aplicaciones y Desafíos**
   - Has visto cómo estas técnicas resuelven problemas de negocio reales.
   - Comprendes que la evaluación e interpretación son los mayores desafíos en este campo.

---

### 🚀 Próximo Módulo: Métricas en Aprendizaje No Supervisado

Hemos dicho que evaluar los modelos no supervisados es difícil, pero no imposible. Existen métricas que nos pueden ayudar a cuantificar la calidad de nuestros resultados, especialmente en el clustering.

En el próximo módulo, exploraremos:

- **Métricas de Evaluación de Clustering**: ¿Cómo sabemos si nuestros clústeres son buenos? Aprenderás sobre el Coeficiente de Silueta, el Índice de Davies-Bouldin y más.
- **El Método del Codo (Elbow Method)**: Una técnica para ayudarnos a elegir el número óptimo de clústeres.

**Has aprendido a buscar patrones. Ahora, ¡vamos a aprender a medir la calidad de los patrones que encontramos!**