![imagenes](logo.png)

Cuando hablamos de regresión, muchas personas piensan de inmediato en una recta: una variable que crece, otra que responde de manera proporcional, y una ecuación del tipo $$y=\beta_0+\beta_1 x$$

Esa idea es correcta… pero solo para regresión lineal. En deep learning, la noción de regresión es mucho más amplia.

La esencia no está en la forma de la función, sino en el tipo de variable que queremos predecir. En una tarea de regresión, el objetivo es predecir un valor numérico continuo:

– un precio

– una temperatura

– una cantidad de ventas

– una concentración

– una distancia

– un tiempo

Nada de esto obliga a que la relación entre entrada y salida sea lineal.



## ¿Qué hace que una regresión sea “deep”?

Una red neuronal no aprende una fórmula explícita como en la regresión clásica. Aprende una función compuesta:
$$f(\boldsymbol{x})=f_{out}(...f_2(f_1(\boldsymbol{x}))...)$$

Cada capa transforma el espacio de entrada, y gracias a las funciones de activación no lineales, la red puede modelar relaciones altamente complejas.

Así, aunque la salida sea un solo número, la relación interna puede ser no lineal, no monótona, con interacciones complejas entre variables o altamente sensible a combinaciones específicas de entradas.

Por eso hablamos de regresión no lineal aprendida, no de una simple recta ajustada.

## Capa de salida

En problemas de regresión, la capa de salida casi siempre tiene:

- una sola neurona

- función de activación lineal

¿Por qué? Porque no queremos restringir artificialmente el rango de valores posibles. Si usamos una sigmoide, por ejemplo, la salida quedaría forzada entre 0 y 1, lo cual solo tendría sentido en casos muy específicos. La red aprende las no linealidades antes, en las capas ocultas.
La capa final solo “lee” ese conocimiento y lo traduce en un número real.

Imagina que quieres predecir el gasto mensual de un cliente a partir de edad, ingresos, frecuencia de visitas, tipo de producto que consume. La relación entre estas variables y el gasto no es lineal. Dos personas con el mismo ingreso pueden gastar distinto según hábitos, edad o combinaciones de factores.

Una red neuronal aprende regiones del espacio de características donde el comportamiento cambia, sin que tú tengas que definir esas reglas explícitamente. Eso es lo que vuelve poderosa a la regresión con deep learning: no la complejidad matemática visible, sino la capacidad de aproximar funciones complejas a partir de datos.

## Métricas de evaluación en problemas de regresión

Una vez que entrenamos un modelo de regresión, la pregunta central ya no es “¿aprendió?”, sino qué tan bien predice.
Para responder eso necesitamos métricas de evaluación, es decir, funciones que cuantifican qué tan lejos están las predicciones del modelo respecto a los valores reales.

En regresión, a diferencia de clasificación, no hablamos de aciertos o errores discretos, sino de distancias numéricas.

Supongamos que para cada observación tenemos $y_i$, el valor real, y $\hat{y}_i$, el valor predicho por la red.

El error individual es simplemente la diferencia $e_i=y_i-\hat{y}_i$. Pero como los errores pueden ser positivos o negativos, necesitamos una forma de agregarlos sin que se cancelen entre sí. De aquí nacen las métricas más importantes.

- **Error cuadrático medio (MSE)** $$MSE=\frac{1}{n}\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

Es la métrica más utilizada en entrenamiento de redes neuronales para regresión: penaliza fuertemente los errores grandes; tiene una interpretación geométrica clara: distancia cuadrática promedio. 

Su desventaja es que no está en las mismas unidades que la variable original, lo que dificulta la interpretación directa.

- **Error absoluto medio (MAE)** $$MAE=\frac{1}{n}\sum_{i=1}^n|y_i-\hat{y}_i|$$

El MAE mide el error promedio sin amplificar valores grandes. Comparado con el MSE es más robusto a valores atípicos; penaliza todos los errores de manera lineal; es más estable cuando existen outliers.

Por eso suele usarse cuando los datos tienen ruido fuerte o colas largas.


## ¿Cuál métrica usar?

No existe una respuesta universal, pero sí criterios claros:

- **MSE / RMSE:** Útiles cuando los errores grandes son especialmente costosos y quieres que el modelo los evite.

- **MAE:** Adecuado cuando deseas una medida más robusta y fácilmente interpretable.

En deep learning, lo más común es entrenar con MSE y reportar MAE o RMSE para interpretar resultados.



## Regularización en modelos de regresión profunda

Cuando entrenamos una red neuronal con suficiente capacidad, existe un riesgo importante: que el modelo no solo aprenda la relación subyacente entre las variables, sino también el ruido específico del conjunto de entrenamiento. A este fenómeno se le conoce como sobreajuste (overfitting).

La regularización es el conjunto de técnicas cuyo objetivo es controlar la complejidad efectiva del modelo, de modo que generalice mejor a datos no vistos.

En el contexto de redes neuronales, la regularización no consiste en “simplificar” el modelo eliminando capas, sino en guiar el proceso de aprendizaje para evitar soluciones excesivamente ajustadas a los datos de entrenamiento.

### Regularización por penalización de pesos (L2)

Una de las técnicas más utilizadas es la regularización L2, también conocida como weight decay.

En este enfoque, la función de pérdida se modifica añadiendo un término que penaliza valores grandes de los pesos:

$$
\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{datos}} + \lambda \sum_j w_j^2
$$

donde:

- $\mathcal{L}_{\text{datos}}$ es la pérdida original (por ejemplo, MSE),
- $w_j$ son los pesos de la red,
- $\lambda$ controla la intensidad de la regularización.

El efecto práctico es que el modelo prefiere soluciones con pesos más pequeños, lo que tiende a producir funciones más suaves y menos sensibles a pequeñas variaciones en los datos de entrada.

### Regularización mediante dropout

Otra técnica muy utilizada en deep learning es el dropout. Durante el entrenamiento, se desactivan aleatoriamente algunas neuronas con una cierta probabilidad.

Esto obliga a la red a no depender excesivamente de un subconjunto particular de neuronas y promueve representaciones más robustas.

Desde un punto de vista conceptual, el dropout puede interpretarse como el entrenamiento implícito de muchos modelos distintos que comparten pesos, cuyo promedio se utiliza en la fase de inferencia.

### Regularización mediante early stopping

Además de penalizar pesos (L2) o introducir ruido estructural (dropout), existe una forma muy efectiva de regularización que no modifica la arquitectura, sino el momento en que detenemos el aprendizaje: early stopping.

La idea es simple: al entrenar una red, el error en entrenamiento suele seguir bajando con las épocas, pero el desempeño en validación no necesariamente mejora indefinidamente. Llega un punto en el que el modelo empieza a ajustar detalles específicos del conjunto de entrenamiento (ruido, patrones accidentales) y la generalización empeora.

El early stopping consiste en:

- Monitorear una métrica en un conjunto de validación (típicamente val_loss),

- Detener el entrenamiento cuando esa métrica deja de mejorar durante cierto número de épocas (patience),

- Y, usualmente, restaurar los pesos del mejor punto observado.

Conceptualmente, esto funciona como una regularización porque limita la complejidad efectiva que la red alcanza durante el entrenamiento: no dejamos que siga “afinándose” sobre el entrenamiento cuando ya no está mejorando su capacidad de generalizar.

En regresión esto es especialmente importante, porque una red con mucha capacidad puede seguir disminuyendo MSE en entrenamiento mientras en validación comienza a deteriorarse: el modelo se vuelve más sensible y menos estable.

En la práctica, es común combinar L2 + dropout + early stopping: cada uno ataca el sobreajuste desde un ángulo distinto.

## Regularización y capacidad del modelo

Es importante entender que la regularización no busca hacer el modelo “pequeño”, sino controlar su capacidad efectiva.
Una red profunda puede ser muy expresiva y, al mismo tiempo, generalizar bien si está adecuadamente regularizada.

En problemas de regresión, esto es especialmente relevante: un modelo demasiado flexible puede interpolar perfectamente los datos de entrenamiento y aun así producir predicciones inestables o poco realistas fuera de ese conjunto.

Por ello, la regularización no es un detalle técnico, sino un componente central del diseño del modelo.

## Pseudocódigo para diseñar una red para regresión

```python
# ============================================================
# Diseñador de arquitectura + regularización para regresión
# (tabular, no lineal, con L2 + dropout + early stopping)
# ============================================================

k     ← 10            # máximo de parámetros por dato (P_max = k * d)
c1    ← 2.0           # factor de expansión inicial
r     ← 0.5           # tasa de reducción entre capas
n_min ← 8             # tamaño mínimo de capa oculta
L_max ← 4             # máximo de capas ocultas

ALGORITHM DiseñarRedRegresión(d, n0)

    # 0. Tope adaptativo de ancho (según tamaño de muestra)
    n_max ← MIN(1024, MAX(64, floor(0.25 * d)))

    # 1. Verificación mínima de viabilidad (suave)
    IF d < 2 * n0 THEN
        RETURN "Dataset muy pequeño: alto riesgo de sobreajuste"
    END IF

    # 2. Presupuesto total de parámetros
    P_max ← floor(k * d)

    # 3. Tamaño de la primera capa oculta (capado por presupuesto y por n_max)
    n1_cap_presupuesto ← floor(P_max / (n0 + 1))
    n1 ← MIN( floor(c1 * n0), n1_cap_presupuesto, n_max )

    IF n1 < n_min THEN
        RETURN "Presupuesto insuficiente: no se puede ni una capa >= n_min"
    END IF

    capas ← [n1]

    # 4. Construcción iterativa de capas ocultas (embudo)
    WHILE TRUE DO

        IF length(capas) >= L_max THEN
            BREAK
        END IF

        n_prev ← last(capas)
        n_new  ← floor(r * n_prev)

        IF n_new < n_min THEN
            BREAK
        END IF

        n_new ← MIN(n_new, n_max)
        append n_new to capas

    END WHILE

    # 5. Estimación de parámetros (incluye sesgos y salida)
    P ← (n0 + 1) * capas[1]
    FOR i FROM 2 TO length(capas) DO
        P ← P + (capas[i-1] + 1) * capas[i]
    END FOR
    P ← P + (last(capas) + 1) * 1

    # 6. Validación de complejidad (recorte iterativo)
    WHILE P > P_max DO

        IF length(capas) > 1 THEN
            REMOVE last element from capas
        ELSE
            n_old ← capas[1]
            capas[1] ← floor(0.9 * capas[1])   # reducción suave
            IF capas[1] >= n_old THEN
                capas[1] ← n_old - 1           # garantiza progreso
            END IF
            IF capas[1] < n_min THEN
                RETURN "Presupuesto insuficiente: no cabe una capa >= n_min"
            END IF
        END IF

        # recalcular P
        P ← (n0 + 1) * capas[1]
        FOR i FROM 2 TO length(capas) DO
            P ← P + (capas[i-1] + 1) * capas[i]
        END FOR
        P ← P + (last(capas) + 1) * 1

    END WHILE


    # ========================================================
    # 7. HIPERPARÁMETROS DE REGULARIZACIÓN (L2, Dropout, ES)
    # ========================================================

    # 7.1 Ocupación del presupuesto
    rho ← P / P_max

    # -------- Dropout base por tamaño de muestra --------
    IF d < 2000 THEN
        drop_base ← 0.35
    ELSE IF d < 20000 THEN
        drop_base ← 0.25
    ELSE
        drop_base ← 0.15
    END IF

    # -------- Ajuste por ocupación rho --------
    IF rho >= 0.8 THEN
        drop ← drop_base + 0.10
    ELSE IF rho >= 0.4 THEN
        drop ← drop_base
    ELSE
        drop ← drop_base - 0.10
    END IF
    drop ← CLIP(drop, 0.05, 0.50)

    # Dropout por capa (más alto al inicio)
    dropouts ← []
    FOR i FROM 1 TO length(capas) DO
        di ← drop * (1.0 - 0.15*(i-1))
        di ← CLIP(di, 0.05, 0.50)
        append di to dropouts
    END FOR


    # -------- L2 base por tamaño de muestra --------
    IF d < 2000 THEN
        l2_base ← 1e-3
    ELSE IF d < 20000 THEN
        l2_base ← 3e-4
    ELSE
        l2_base ← 1e-4
    END IF

    # -------- Ajuste por ocupación rho --------
    IF rho >= 0.8 THEN
        l2 ← 3 * l2_base
    ELSE IF rho >= 0.4 THEN
        l2 ← 1 * l2_base
    ELSE
        l2 ← 0.3 * l2_base
    END IF
    l2 ← CLIP(l2, 1e-6, 3e-3)


    # -------- Early stopping (patience) --------
    IF d < 2000 THEN
        patience ← 20
        max_epochs ← 400
    ELSE IF d < 20000 THEN
        patience ← 15
        max_epochs ← 200
    ELSE
        patience ← 10
        max_epochs ← 100
    END IF

    # (opcional) min_delta fijo simple
    min_delta ← 1e-4


    RETURN (capas, P, rho, l2, dropouts, patience, min_delta, max_epochs)

END ALGORITHM
```