# üåç M√≥dulo 3.1: Introducci√≥n al Aprendizaje No Supervisado
### Curso: **Machine Learning con Python** (IFCD093PO)
**Duraci√≥n estimada:** 4 horas

---

## üéØ Objetivos del M√≥dulo

Bienvenido a un nuevo paradigma del Machine Learning. Hasta ahora, siempre hemos tenido una "respuesta correcta" (etiqueta) que gu√≠aba el aprendizaje. ¬øPero qu√© pasa cuando no la tenemos? En este m√≥dulo, te sumergir√°s en el **Aprendizaje No Supervisado**, el arte de encontrar patrones y estructura en datos sin etiquetar.

Al finalizar, ser√°s capaz de:

- ‚úÖ Diferenciar claramente entre **Aprendizaje Supervisado y No Supervisado**.
- ‚úÖ Entender el prop√≥sito y las aplicaciones de las tres tareas principales del aprendizaje no supervisado:
  - **Clustering (Agrupamiento)**: Para descubrir grupos naturales en los datos.
  - **Reducci√≥n de Dimensionalidad**: Para simplificar y visualizar datos complejos.
  - **Detecci√≥n de Anomal√≠as**: Para encontrar observaciones inusuales.
- ‚úÖ Conocer los desaf√≠os √∫nicos de este tipo de aprendizaje, como la dificultad de evaluar los resultados.
- ‚úÖ Identificar problemas de negocio que pueden resolverse con t√©cnicas no supervisadas.

**¬°Prep√°rate para convertirte en un detective de datos y descubrir las historias ocultas que tus datos tienen que contar!**

---

## üìö Tabla de Contenidos

1. [Un Mundo sin Etiquetas](#1-sin-etiquetas)
   - [Repaso: Aprendizaje Supervisado](#1.1-repaso-sup)
   - [El Cambio de Paradigma: Aprendizaje No Supervisado](#1.2-cambio-paradigma)
2. [Principales Tareas del Aprendizaje No Supervisado](#2-tareas)
   - [Clustering: Encontrando los Grupos](#2.1-clustering)
   - [Reducci√≥n de Dimensionalidad: Simplificando la Complejidad](#2.2-reduccion)
   - [Detecci√≥n de Anomal√≠as: Buscando lo Extra√±o](#2.3-anomalias)
3. [Aplicaciones en el Mundo Real](#3-aplicaciones)
4. [Desaf√≠os del Aprendizaje No Supervisado](#4-desafios)
5. [Resumen y Pr√≥ximos Pasos](#5-resumen)

---

## üó∫Ô∏è 1. Un Mundo sin Etiquetas <a id='1-sin-etiquetas'></a>

### 1.1 Repaso: Aprendizaje Supervisado <a id='1.1-repaso-sup'></a>

En el aprendizaje supervisado, el objetivo es aprender una funci√≥n que mapea las entradas `X` a las salidas `y`.

`(X, y) -> Modelo -> Predicci√≥n`

- **Datos**: Tenemos caracter√≠sticas (`X`) y una etiqueta o variable objetivo (`y`).
- **Objetivo**: Predecir `y` para nuevos datos `X`.
- **Evaluaci√≥n**: Comparamos las predicciones con las etiquetas reales (`y_test`).
- **Ejemplos**: Predecir el precio de una casa, clasificar si un email es spam.

![Supervised Learning](imagenes/Supervised_Learning.png)

### 1.2 El Cambio de Paradigma: Aprendizaje No Supervisado <a id='1.2-cambio-paradigma'></a>

En el aprendizaje no supervisado, **no tenemos una variable objetivo `y`**. Solo tenemos los datos de entrada `X`.

`X -> Modelo -> Estructura/Patrones`

- **Datos**: Solo tenemos caracter√≠sticas (`X`). No hay "respuesta correcta".
- **Objetivo**: Encontrar estructura, patrones, grupos o anomal√≠as inherentes en los datos.
- **Evaluaci√≥n**: Mucho m√°s dif√≠cil y subjetiva. A menudo requiere inspecci√≥n humana o m√©tricas indirectas.
- **Ejemplos**: Segmentar clientes en grupos de marketing, comprimir im√°genes, detectar transacciones fraudulentas.

![Unsupervised Learning](imagenes/Unsupervised_Learning.png)

**¬øPor qu√© es √∫til?** En muchos escenarios del mundo real, obtener datos etiquetados es caro, lento o simplemente imposible. El aprendizaje no supervisado nos permite extraer valor de grandes cantidades de datos sin etiquetar.

---

## üöÄ 2. Principales Tareas del Aprendizaje No Supervisado <a id='2-tareas'></a>

Vamos a explorar las tres familias principales de algoritmos no supervisados.

### 2.1 Clustering: Encontrando los Grupos <a id='2.1-clustering'></a>

El **clustering** es la tarea de agrupar un conjunto de objetos de tal manera que los objetos en el mismo grupo (llamado **cl√∫ster**) sean m√°s similares entre s√≠ que con los de otros grupos.

**Objetivo**: Descubrir las agrupaciones naturales en los datos.

**Algoritmos Comunes**: K-Means, DBSCAN, Clustering Jer√°rquico.

**Ejemplo Visual**: Imagina que tenemos datos de clientes basados en sus gastos y frecuencia de compra. Un algoritmo de clustering podr√≠a identificar autom√°ticamente diferentes segmentos de clientes.

In [None]:
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# Generar datos sint√©ticos con 3 grupos claros
# make_blobs crea datos para clustering
# Par√°metros:
# - n_samples: n√∫mero de muestras
# - centers: n√∫mero de centros (grupos)
# - n_features: n√∫mero de caracter√≠sticas
# - random_state: semilla para reproducibilidad
# - cluster_std: desviaci√≥n est√°ndar de los clusters

X, y = make_blobs(n_samples=300, centers=3, n_features=2, random_state=42, cluster_std=1.0)

plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title("Datos sin Etiquetar para Clustering")
plt.xlabel("Caracter√≠stica 1")
plt.ylabel("Caracter√≠stica 2")
plt.show()

print("El objetivo del clustering ser√≠a identificar estos 3 grupos sin conocer las etiquetas de color.")

### 2.2 Reducci√≥n de Dimensionalidad: Simplificando la Complejidad <a id='2.2-reduccion'></a>

La **reducci√≥n de dimensionalidad** consiste en reducir el n√∫mero de caracter√≠sticas (dimensiones) de un conjunto de datos, conservando la mayor cantidad de informaci√≥n relevante posible.

**¬øPor qu√© hacerlo?**
- **Visualizaci√≥n**: Los humanos no podemos visualizar datos en m√°s de 3 dimensiones. Reducir los datos a 2D o 3D nos permite explorarlos visualmente.
- **Eficiencia Computacional**: Menos caracter√≠sticas significa que los modelos se entrenan m√°s r√°pido.
- **Combatir la "Maldici√≥n de la Dimensionalidad"**: En dimensiones muy altas, los datos se vuelven muy dispersos, lo que puede dificultar el aprendizaje de los modelos.

**Algoritmos Comunes**: PCA (An√°lisis de Componentes Principales), t-SNE, UMAP.

**Ejemplo**: El famoso dataset de d√≠gitos escritos a mano tiene 64 caracter√≠sticas (una por cada p√≠xel de 8x8). Usando PCA, podemos reducirlo a 2 caracter√≠sticas y visualizar c√≥mo se agrupan los diferentes d√≠gitos.

In [None]:
# El conjunto de datos de d√≠gitos manuscritos es un buen ejemplo para aplicar PCA

from sklearn.datasets import load_digits # Cargar el conjunto de datos de d√≠gitos
from sklearn.decomposition import PCA # An√°lisis de Componentes Principales
import warnings
warnings.filterwarnings("ignore") # Ignorar advertencias para una salida m√°s limpia

digits = load_digits() # Cargar datos de d√≠gitos manuscritos
X_digits = digits.data # Datos de caracter√≠sticas (64 dimensiones)
y_digits = digits.target # Etiquetas de los d√≠gitos (0-9)
# Para visualizar un d√≠gito los diez primeros digitos manuscritos
# En tama√±o m√°s peque√±o para que se vea mejor y en horizontal uno al lado del otro   
plt.figure(figsize=(8, 2))
for i in range(10):
    plt.subplot(1, 10, i + 1)
    plt.imshow(X_digits[i].reshape(8, 8), cmap='gray')
    plt.title(f"{y_digits[i]}")
    plt.axis('off')
plt.tight_layout()
plt.show()

print(f"Dimensiones originales de los datos: {X_digits.shape}")

# Reducir de 64 a 2 dimensiones
pca = PCA(n_components=2) # Inicializar PCA para 2 componentes
X_digits_pca = pca.fit_transform(X_digits) # Aplicar PCA a los datos

print(f"Dimensiones despu√©s de PCA: {X_digits_pca.shape}")

# Visualizar los datos reducidos
plt.figure(figsize=(10, 8))
plt.scatter(X_digits_pca[:, 0], X_digits_pca[:, 1], c=y_digits, cmap=plt.cm.get_cmap('jet', 10))
plt.colorbar(label='D√≠gito', ticks=range(10))
plt.title("Visualizaci√≥n de los D√≠gitos en 2D usando PCA")
plt.xlabel("Componente Principal 1")
plt.ylabel("Componente Principal 2")
plt.show()


**Explicaci√≥n del gr√°fico:**

- El gr√°fico muestra c√≥mo se ven los datos de los d√≠gitos manuscritos (im√°genes de 8x8 p√≠xeles) despu√©s de aplicar **PCA** para reducir su complejidad.
- **Originalmente**, cada imagen es un punto en un espacio de 64 dimensiones (una dimensi√≥n por cada p√≠xel).
- **PCA** (An√°lisis de Componentes Principales) nos permite resumir la informaci√≥n m√°s importante de esos 64 valores en solo **2 dimensiones**. As√≠, podemos visualizar los datos en un plano 2D.
- **Cada punto** en el gr√°fico es una imagen de un d√≠gito. El **color** del punto indica qu√© n√∫mero representa (del 0 al 9).
- Si ves que los puntos del mismo color tienden a agruparse y est√°n separados de otros colores, significa que PCA ha logrado encontrar patrones que distinguen bien los diferentes d√≠gitos.
- En resumen: este gr√°fico nos ayuda a ver si los d√≠gitos escritos a mano tienen caracter√≠sticas que los hacen distinguibles, incluso despu√©s de simplificar mucho la informaci√≥n.

### 2.3 Detecci√≥n de Anomal√≠as: Buscando lo Extra√±o <a id='2.3-anomalias'></a>

La **detecci√≥n de anomal√≠as (o outliers)** es la tarea de identificar observaciones que son raras y se desv√≠an significativamente del resto de los datos.

**Objetivo**: Encontrar los "puntos raros".

**Algoritmos Comunes**: Isolation Forest, Local Outlier Factor (LOF), One-Class SVM.

**Ejemplo**: En un conjunto de datos de transacciones con tarjeta de cr√©dito, la gran mayor√≠a son leg√≠timas. Las transacciones fraudulentas son raras y tienen patrones diferentes. Un algoritmo de detecci√≥n de anomal√≠as puede identificarlas sin haber visto nunca una etiqueta de "fraude".

---

## üè¢ 3. Aplicaciones en el Mundo Real <a id='3-aplicaciones'></a>

| Tarea | Aplicaci√≥n de Negocio |
| :--- | :--- |
| **Clustering** | **Segmentaci√≥n de Clientes**: Agrupar clientes con comportamientos de compra similares para campa√±as de marketing dirigidas. |
| | **Agrupaci√≥n de Documentos**: Organizar noticias o documentos por temas sin necesidad de leerlos. |
| | **Gen√≥mica**: Agrupar genes con patrones de expresi√≥n similares. |
| **Reducci√≥n de Dim.** | **Compresi√≥n de Im√°genes**: Reducir el tama√±o de las im√°genes eliminando informaci√≥n redundante. |
| | **Visualizaci√≥n de Datos**: Explorar datasets de alta dimensi√≥n en gr√°ficos 2D/3D. |
| | **Preprocesamiento**: Usar las componentes principales como caracter√≠sticas para un modelo supervisado posterior. |
| **Detecci√≥n de Anom.** | **Detecci√≥n de Fraude**: Identificar transacciones fraudulentas en sistemas bancarios. |
| | **Mantenimiento Predictivo**: Detectar lecturas an√≥malas en sensores de maquinaria para predecir fallos. |
| | **Ciberseguridad**: Detectar intrusiones o comportamientos extra√±os en una red. |

---

## üöß 4. Desaf√≠os del Aprendizaje No Supervisado <a id='4-desafios'></a>

1.  **Evaluaci√≥n Dif√≠cil**: Sin una "verdad fundamental" (ground truth), es dif√≠cil saber si tu modelo es "bueno". ¬øSon 3 cl√∫steres mejores que 4? La respuesta a menudo depende del contexto y de la interpretaci√≥n humana.

2.  **Interpretaci√≥n de Resultados**: El modelo puede encontrar grupos, pero no te dice *qu√© significan*. El cient√≠fico de datos debe analizar los cl√∫steres para entender sus caracter√≠sticas y darles un nombre o sentido de negocio.

3.  **Sensibilidad a los Hiperpar√°metros**: Muchos algoritmos no supervisados son muy sensibles a la configuraci√≥n de sus hiperpar√°metros (por ejemplo, el n√∫mero de cl√∫steres `k` en K-Means).

4.  **La Maldici√≥n de la Dimensionalidad**: A medida que aumenta el n√∫mero de caracter√≠sticas, la distancia entre los puntos se vuelve menos significativa, lo que puede dificultar la tarea de algoritmos basados en distancia como el clustering.

---

## üìù 5. Resumen y Pr√≥ximos Pasos <a id='5-resumen'></a>

### üéâ ¬°Has abierto la puerta a un nuevo universo de posibilidades en Machine Learning!

#### ‚úÖ Lo que has aprendido:

1. **El Concepto Clave**
   - El Aprendizaje No Supervisado se trata de **encontrar estructura en datos sin etiquetar**.

2. **Las Tres Grandes Tareas**
   - **Clustering**: Para encontrar grupos (ej. segmentos de clientes).
   - **Reducci√≥n de Dimensionalidad**: Para simplificar y visualizar (ej. PCA).
   - **Detecci√≥n de Anomal√≠as**: Para encontrar lo inusual (ej. fraude).

3. **Aplicaciones y Desaf√≠os**
   - Has visto c√≥mo estas t√©cnicas resuelven problemas de negocio reales.
   - Comprendes que la evaluaci√≥n e interpretaci√≥n son los mayores desaf√≠os en este campo.

---

### üöÄ Pr√≥ximo M√≥dulo: M√©tricas en Aprendizaje No Supervisado

Hemos dicho que evaluar los modelos no supervisados es dif√≠cil, pero no imposible. Existen m√©tricas que nos pueden ayudar a cuantificar la calidad de nuestros resultados, especialmente en el clustering.

En el pr√≥ximo m√≥dulo, exploraremos:

- **M√©tricas de Evaluaci√≥n de Clustering**: ¬øC√≥mo sabemos si nuestros cl√∫steres son buenos? Aprender√°s sobre el Coeficiente de Silueta, el √çndice de Davies-Bouldin y m√°s.
- **El M√©todo del Codo (Elbow Method)**: Una t√©cnica para ayudarnos a elegir el n√∫mero √≥ptimo de cl√∫steres.

**Has aprendido a buscar patrones. Ahora, ¬°vamos a aprender a medir la calidad de los patrones que encontramos!**