# üß© Cap√≠tulo 8 ‚Äì Detecci√≥n de Anomal√≠as con Autoencoders

En este cap√≠tulo se introduce el enfoque de **Autoencoders**, uno de los primeros modelos de **Deep Learning** aplicados a la detecci√≥n de anomal√≠as.  

Su principal fortaleza radica en que **aprenden una representaci√≥n comprimida (codificaci√≥n) de los datos normales y luego intentan reconstruirlos**.  
Cuando el modelo encuentra un dato an√≥malo ‚Äîalgo que no encaja en el patr√≥n aprendido‚Äî el **error de reconstrucci√≥n** tiende a ser mayor, lo que permite identificar la anomal√≠a.

---

## üéØ ¬øPor qu√© Autoencoders?

La elecci√≥n de Autoencoders responde a varias motivaciones:

- Son capaces de **modelar relaciones no lineales complejas** en los datos.  
- No requieren etiquetas, solo datos representativos de comportamiento normal.  
- Pueden incorporar **estructuras temporales** (mediante secuencias de entrada o variantes recurrentes).  
- Funcionan bien como paso previo a modelos m√°s avanzados (ej. LSTM Autoencoders).  
- Representan una primera aproximaci√≥n a las capacidades del **Deep Learning** en la detecci√≥n de anomal√≠as.

---

## üß≠ Objetivo de este cap√≠tulo

A lo largo del cap√≠tulo se abordar√°n:

- Los fundamentos te√≥ricos de los Autoencoders y su uso para detecci√≥n de anomal√≠as.  
- La construcci√≥n de un **modelo base** entrenado sobre datos sint√©ticos y MDF.  
- El an√°lisis del **error de reconstrucci√≥n** como score de anomal√≠a.  
- La comparaci√≥n cualitativa con los modelos cl√°sicos (PCA, Isolation Forest, One-Class SVM).  

Adem√°s, se discutir√°n las principales variantes de Autoencoders y se introducir√°n las bases de su extensi√≥n hacia arquitecturas recurrentes como el **LSTM Autoencoder**.

---

## üîç Intuici√≥n

El Autoencoder es una red neuronal con dos partes:

- **Encoder**: comprime los datos de entrada en una representaci√≥n de menor dimensi√≥n (*latent space*).  
- **Decoder**: intenta reconstruir la entrada a partir de esa representaci√≥n comprimida.  

De forma intuitiva:  

> "Un Autoencoder aprende a copiar los datos normales. Cuando recibe algo raro (an√≥malo), no sabe reconstruirlo bien y el error de reconstrucci√≥n aumenta."

---

## üß† Fundamento Te√≥rico

El entrenamiento de un Autoencoder se plantea como la minimizaci√≥n del error de reconstrucci√≥n:

$$
\min_{\theta} \; L(x, g_{\theta}(f_{\theta}(x)))
$$

Donde:

- $ f_{\theta}(x) $: encoder (codificaci√≥n al espacio latente).  
- $ g_{\theta}(z) $: decoder (reconstrucci√≥n a partir del latente $z$).  
- $ L(\cdot)$: funci√≥n de p√©rdida, normalmente el **MSE** (Mean Squared Error).  

El **score de anomal√≠a** para un punto $x$ se define como:

$$
s(x) = \|x - \hat{x}\|^2
$$

Si $s(x)$ supera un umbral, el punto se clasifica como an√≥malo.

---

## üìê Funci√≥n de Decisi√≥n y Scores

- **Salida del modelo**: reconstrucci√≥n $\hat{x}$ de la entrada $x$.  
- **Score de anomal√≠a**: error de reconstrucci√≥n.  
  - Error bajo ‚Üí dato normal.  
  - Error alto ‚Üí posible anomal√≠a.

---

## ‚öôÔ∏è Par√°metros Clave

- **Dimensi√≥n del espacio latente**: controla la compresi√≥n (similar al n√∫mero de componentes en PCA).  
- **N√∫mero de capas y neuronas**: mayor capacidad para aprender relaciones complejas.  
- **Funci√≥n de activaci√≥n**: ReLU, tanh, etc.  
- **Funci√≥n de p√©rdida**: MSE, MAE o variantes robustas.  
- **Regularizaci√≥n**: dropout, weight decay, sparsity para evitar sobreajuste.

---

## ‚úÖ Ventajas

- Gran capacidad para modelar relaciones no lineales.  
- Se adaptan bien a problemas de alta dimensi√≥n.  
- Escalables a grandes vol√∫menes de datos.  
- Flexibles: pueden extenderse a variantes recurrentes (LSTM, GRU) o convolucionales.

---

## üö´ Limitaciones

- Requieren mayor poder computacional y tiempo de entrenamiento.  
- Mayor complejidad en la configuraci√≥n (arquitectura, optimizador, regularizaci√≥n).  
- Pueden sobreajustar si se entrenan demasiado tiempo o con datos ruidosos.  
- El umbral para anomal√≠as debe definirse cuidadosamente a partir de la distribuci√≥n del error.

---

### üîß Ejemplo concreto

Supongamos que queremos monitorizar las **vibraciones de un motor** registradas por tres sensores.  

- En condiciones normales, las tres se√±ales est√°n correlacionadas: cuando una aumenta, las otras siguen un patr√≥n consistente.  
- Entrenamos un Autoencoder para que aprenda estas relaciones y reconstruya las tres se√±ales a la vez.  

Ahora, si en un momento dado el motor empieza a vibrar de forma irregular en uno de los ejes, el Autoencoder **no podr√° reconstruir correctamente esa se√±al**, ya que rompe la correlaci√≥n aprendida.  

El error de reconstrucci√≥n en ese punto ser√° mucho mayor que en condiciones normales, permitiendo etiquetarlo como an√≥malo.

---

## üîó Referencias

Hinton, Geoffrey E., and Ruslan R. Salakhutdinov.  
**"Reducing the dimensionality of data with neural networks."** Science 313.5786 (2006): 504-507.  

Sakurada, Mayu, and Takehisa Yairi.  
**"Anomaly detection using autoencoders with nonlinear dimensionality reduction."** Proceedings of the MLSDA 2014 2nd workshop on machine learning for sensory data analysis. 2014.  

Zong, Bo, et al.  
**"Deep autoencoding Gaussian mixture model for unsupervised anomaly detection."** ICLR 2018.  
