# Criterios de información

---

**1. AIC (Akaike Information Criterion)**  

$$
AIC = -2 \ln(\hat{L}) + 2k
$$

- $\hat{L}$: verosimilitud máxima del modelo  
- $k$: número de parámetros  

Favorece modelos con buen ajuste, pero penaliza por cantidad de parámetros.  
Puede sobreajustar en muestras pequeñas.  
Bueno para predicción más que para identificar el modelo "verdadero".  

---

**2. AICc (Corrected AIC)**  

$$
AIC_c = AIC + \frac{2k(k+1)}{n-k-1}
$$

- Corrección del AIC para muestras pequeñas.  
- Se recomienda usar AICc cuando $n/k < 40$.  
- Evita que AIC seleccione modelos demasiado complejos en datasets pequeños.  

---

**3. BIC (Bayesian Information Criterion / Schwarz Criterion)**  

$$
BIC = -2 \ln(\hat{L}) + k \ln(n)
$$

- Penalización más fuerte que AIC ($\ln(n)$ en vez de 2).  
- Tiende a seleccionar modelos más parsimoniosos (simples).  
- Justificación bayesiana: aproxima la evidencia del modelo $P(\text{datos} \mid \text{modelo})$.  
- Útil para selección del modelo verdadero (consistente).  

---

**4. HQIC (Hannan–Quinn Information Criterion)**  

$$
HQIC = -2 \ln(\hat{L}) + 2k \ln(\ln(n))
$$

- Compromiso entre AIC y BIC: penaliza más que AIC, menos que BIC.  
- Consistente como BIC ($n \to \infty$).  
- Poco usado en la práctica, pero aparece en econometría y series de tiempo.  

---

**5. DIC (Deviance Information Criterion)**  

$$
DIC = \overline{D(\theta)} + p_D
$$

donde:

$$
D(\theta) = -2 \ln P(\text{datos} \mid \theta)
$$

- $\overline{D(\theta)}$: media posterior de la devianza  
- $p_D$: número efectivo de parámetros  

Se usa en modelos bayesianos con MCMC.  
Penaliza la complejidad de manera más flexible que AIC/BIC.  

---

**6. WAIC (Watanabe–Akaike Information Criterion)**  

$$
WAIC = -2 \sum_{i=1}^n \ln \Bigg( \frac{1}{S} \sum_{s=1}^S P(y_i \mid \theta^{(s)}) \Bigg) + 2 p_{WAIC}
$$

- Variante totalmente bayesiana, basada en la densidad predictiva puntual.  
- Usa muestras de la posterior $\theta^{(s)}$.  
- Mejor que DIC en modelos jerárquicos o multimodales.  
- Aproximación bayesiana al error de predicción esperado.  

---

**7. LOOIC (Leave-One-Out Information Criterion)**  

- Basado en validación cruzada leave-one-out.  
- Estima el error predictivo esperado quitando una observación a la vez.  
- Más robusto que WAIC en presencia de outliers o mala especificación.  
- Computacionalmente costoso, aunque existen aproximaciones eficientes (PSIS-LOO).  

---

**8. Otros menos comunes**  

- **CAIC (Consistent AIC)**: similar a BIC pero penaliza más fuerte.  
- **TIC (Takeuchi’s Information Criterion)**: generaliza AIC cuando el modelo está mal especificado.  
- **MDL (Minimum Description Length)**: selecciona el modelo que codifique los datos de la forma más eficiente.  

---

## Resumen comparativo

| Criterio | Penalización             | Consistencia | Uso típico |
|----------|--------------------------|--------------|------------|
| **AIC**  | $2k$                     | No           | Predicción |
| **AICc** | $2k +$ corrección        | No           | Predicción en muestras pequeñas |
| **BIC**  | $k \ln(n)$               | Sí           | Selección de modelo verdadero |
| **HQIC** | $2k \ln(\ln(n))$         | Sí           | Series de tiempo / econometría |
| **DIC**  | Posterior + $p_D$        | No siempre   | Modelos bayesianos |
| **WAIC** | Bayesiana, predictiva    | Sí (asint.)  | Modelos jerárquicos bayesianos |
| **LOOIC**| Validación cruzada       | Sí           | Evaluación predictiva robusta |


**Idea para “criterio de información con FLOPs”**

$$
IC_{\text{FLOP}} = -2 \ln(\hat{L}) + \alpha k + \beta \cdot \log(\text{FLOPs})
$$

- \(\alpha\): penalización clásica por parámetros.  
- \(\beta\): peso dado al costo computacional.  
- \(\log(\text{FLOPs})\): se usa logaritmo para que el efecto no sea desproporcionado.

Esto alinearía la selección de modelo no solo con *qué tan bien explica los datos*, sino también con su **eficiencia computacional**.


$$
IC_{\text{FLOP}} \;=\; -2 \ln(\hat{L}) \;+\; \alpha k \;+\; \beta \cdot \log(\text{FLOPs})
$$
