# Redes Neuronales Estadísticamente Informadas

![uami](./figuras/uami.png)

**Maestría en Matemáticas Aplicadas**

Alan Badillo Salas (cbi2242800355@xanum.uam.mx)

> Taller de Modelado II
> 
> Parte II (2137080)
> 
> **Trabajo Final**
> 
> *Trimestre: 25-P*
>
> Profesor: Dr. Joaquín Delgado Fernández

# Introducción

La motivación sobre este tema es brindarle a las redes neuronales información estadística que acelere su entrenamiento y mejore las predicciones. Por ejemplo, aumentando la dimensión de los datos mediante información estadística o aplicando técnicas estadísticas para sintentizar los datos de una manera más coherente que permita que las redes neuronales profundas puedan alcanzar mejores resultados.

> ¿Qué son las Redes Neuronales Estadísticamente Informadas?

Son modelos de *deep learning* que incorporan principios, estructuras o transformaciones estadísticas explícitamente en la arquitectura, el preprocesamiento, o la interpretación de los datos.

Se busca evitar supuestos ingenuos como la normalidad multivariada, o la linealidad simple, integrando herramientas estadísticas más robustas o estructuras informadas por la teoría del dominio.

# Avances relevantes y áreas de exploración

## 1. Aumento de Dimensionalidad con Variables Derivadas Estadísticamente

> ¿Qué es?

Agregar variables cuadráticas, interacciones, polinomios, estadísticas resumen, componentes principales, o funciones kernel antes de entrenar redes.

> Ejemplos:

Método | Descripción
--- | ---
**Polynomial Networks** | Redes que reciben no solo las variables originales sino también sus combinaciones polinomiales.
**Deep Feature Synthesis (AutoML tools como Featuretools)** | Generan automáticamente interacciones y estadísticas cruzadas.
**Higher-Order Neural Units (HONUs)** | Redes con nodos que modelan interacciones cuadráticas o cúbicas directamente.
**Functional ANOVA Embedding** | Usa el análisis de varianza funcional para definir interacciones significativas.

## 2. Espacios Latentes con Significado Estadístico

> ¿Qué es?

Transformar las variables de entrada a espacios donde los datos están mejor distribuidos sin imponer normalidad (como PCA lo hace bajo varianzas)

> Ejemplos:

Método | Descripción
--- | ---
**Normalizing Flows** | Aprenden una transformación invertible que convierte la distribución original a una distribución simple (como la normal), pero sin perder información.
**Variational Autoencoders (VAEs)** | Encoders con prior no normal o basados en copulas.
**Copula-based Neural Networks** | Modelan explícitamente las dependencias entre variables sin asumir su distribución marginal.

## 3. Normalización Informada (Statistical Normalization Layers)

> ¿Qué es?

Son transformaciones que se pueden aplicar en lugar de `StandardScaler` o `BatchNorm`.

> Ejemplos:

Método | Descripción
--- | ---
**Quantile Normalization Layers** | Genera normalizaciones por agrupaciones cuantílicas
**Rank Transformations** | Genera transformaciones basadas en ponderaciones
**Group-wise normalization** | Separa por grupos estadísticos (por ejemplo, clases, regiones) antes de normalizar.

> Bibliotecas útiles:

* **torchsort**: para incorporar ordenamientos o cuantiles como capas diferenciables.
* **normflows, nflows**: para flujos normales en *PyTorch*.

## 4. Modelos con Componentes Estadísticos Internos

> ¿Qué es?

Son modelos que pueden ajustar componentes internos mediante redes neuronales, por ejemplo:

$$
y \approx f_1(x_1) + f_2(x_2) + f_{12}(x_1, x_2)
$$

donde $f_1, f_2, f_{12}$ son pequeñas redes neuronales.

> Híbridos entre modelos estadísticos y redes neuronales:

Modelo | Descripción
--- | ---
**GLM-Nets** | Redes que incorporan partes de modelos lineales generalizados.
**Neural Additive Models (NAMs)** | Redes donde cada variable tiene su propia subred, manteniendo interpretabilidad tipo regresión aditiva.
**Spline-based models** | Incorporan funciones splines dentro de la arquitectura (usado en medicina, bioestadística).

## 5. Regularización basada en estadística

> ¿Qué es?

Usar la teoría estadística para regularizar modelos de *deep learning*.

> Ejemplos:

Método | Descripción
--- | ---
**Informative Priors** | Utiliza los priors informativos en redes bayesianas.
**Dropout no uniforme** | Regularización informada por la varianza o la importancia estadística de las variables.
**Sparse regression layers** | Funcina como LASSO o Ridge dentro de una red.

## 6. Modelos Cuadráticos / Interacciones Explicitas

> ¿Qué es?

Son estructuras que permiten expresar:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{12} x_1 x_2 + \beta_{13} x_1 x_3 + \dots
$$

> Ejemplos:

Modelo | Descripción
--- | ---
**Factorization Machines (FMs)** | Genera factorizaciones complejas
**Field-aware FMs (FFMs)** | Modelos de factorización más avanzados
**PolyNet**, **Deep Cross Networks** | Funciona como en los modelos de recomendación
**Tensor Neural Networks** | Aprenden interacciones cruzadas de alto orden.

## 7. Modelos Deep + Estadísticos en Series de Tiempo

> ¿Qué es?

Son modelos que permiten usar información temporal para las predicciones (*forecasting*).

> Ejemplos:

Modelo | Descripción
--- | ---
**DeepAR** | Redes recurrentes con modelos probabilísticos por serie.
**Deep State Space Models** | Combinación de redes con modelos espacio-estado estadísticos.

# Referencias de interés

> Artículos clave

Título | Autores
--- | ---
**Neural Additive Models: Interpretable Machine Learning with Neural Nets** | Agarwal et al., 2021
**Normalizing Flows for Probabilistic Modeling and Inference** | Papamakarios et al., 2021
**Deep Factorization Machines for Knowledge Tracing** | Vie & Kashima, 2020
**Deep Feature Synthesis: Towards Automating Data Science Endeavors** | Kanter & Veeramachaneni, 2015

> Libros recomendados

Título | Autor
--- | ---
**Deep Learning with PyTorch** | Manning Publications
**Probabilistic Deep Learning** | Kevin Murphy
**Elements of Statistical Learning** | Hastie, Tibshirani y Friedman