# **Comparaciones y Conclusiones**

## Modelos Implementados y Resultados

| Modelo                      | Accuracy    | F1-Score Weighted | F1-Score Macro | ROC-AUC Macro | Observaciones                                                                          |
| --------------------------- | ----------- | ----------------- | -------------- | ------------- | -------------------------------------------------------------------------------------- |
| **DistilBERT**              | **91.02 %** | **90.94 %**       | 90.73 %        | **99.17 %**   | Mejor desempeño global, balanceado entre clases, excelente separación probabilística.  |
| **Word2Vec + BiLSTM**       | 73.82 %     | 73.42 %           | 72.98 %        | 95.86 %       | Buen discriminador, pero sobreajuste y debilidad en clases con solapamiento semántico. |
| **CNN-1D (con GloVe)**      | 87.78 %     | 87.70 %           | 87.50 %        | 98.84 %       | Muy sólido, generaliza bien, errores concentrados en pocas clases ambiguas.            |
| **TF-IDF + XGBoost (GPU)**  | 73.82 %     | 73.62 %           | 73.03 %        | 97.05 %       | Rendimiento competitivo, robusto en alta dimensionalidad, leve sobreajuste.            |
| **FastText (preentrenado)** | 68.33 %     | 68.23 %           | 68.10 %        | 95.72 %       | Más eficiente pero el peor en efectividad; confunde clases con vocabulario similar.    |

## Comparaciones y Análisis Crítico

El análisis comparativo de los cinco modelos implementados evidencia diferencias claras en cuanto a **capacidad de generalización, eficiencia y robustez**:

* **DistilBERT** se posiciona como el modelo con mejor rendimiento global, alcanzando un **F1-Score Weighted de 90.94 %** y un **ROC-AUC Macro de 99.17 %**.

  * **Razones de su éxito:** la arquitectura basada en *Transformers* permite capturar relaciones contextuales profundas en los textos, mientras que el uso de **pérdida ponderada** y *fine-tuning* específico sobre el corpus asegura un aprendizaje equilibrado entre clases.
  * **Limitaciones:** alto costo computacional y riesgo de sobreajuste, evidenciado por la divergencia entre *Training Loss* y *Validation Loss* en etapas avanzadas.

* **CNN-1D con GloVe** mostró un desempeño competitivo (**F1-Score Weighted ≈ 87.7 %**) con menor complejidad y tiempos de entrenamiento más reducidos.

  * **Fortalezas:** buena capacidad para detectar patrones locales en los textos y generalización estable.
  * **Limitaciones:** menor sensibilidad a dependencias largas entre palabras, lo que restringe su capacidad frente a contextos más complejos.

* **BiLSTM con Word2Vec** y **XGBoost con TF-IDF** se ubicaron en un rango intermedio (**≈ 73 % F1 ponderado**).

  * **Razones:** aunque capturan secuencias o aprovechan representaciones dispersas, su rendimiento se ve limitado por la falta de representaciones contextuales dinámicas.
  * **Limitaciones:** mayor vulnerabilidad a confusiones semánticas y sobreajuste en clases minoritarias.

* **FastText** fue el modelo más ligero, pero también el menos preciso (**≈ 68 % F1 ponderado**).

  * **Fortalezas:** eficiencia y rapidez en entrenamiento.
  * **Limitaciones:** incapacidad para diferenciar adecuadamente entre categorías con vocabulario similar, lo que reduce su aplicabilidad en escenarios de alta exigencia.

## Análisis Transversal e Interpretabilidad

Más allá de las métricas cuantitativas, se observa que el rendimiento de los modelos depende estrechamente de la **naturaleza y estructura lingüística del corpus**.
Los modelos con embeddings **contextuales** (como DistilBERT) mostraron una clara ventaja al manejar ambigüedad léxica, mientras que los modelos con embeddings **estáticos** (Word2Vec, GloVe, FastText) dependen fuertemente del vocabulario y de la calidad del preprocesamiento.

Una futura línea de mejora consistiría en aplicar herramientas de **interpretabilidad de modelos** (como *LIME* o *SHAP*) para identificar qué palabras o secuencias son más determinantes en las predicciones. Esto permitiría comprender mejor las decisiones del modelo, detectar posibles sesgos y fortalecer la transparencia del sistema.

## Eficiencia Computacional y Escalabilidad

Desde una perspectiva práctica, el análisis comparativo también revela una diferencia notable en **coste-beneficio** entre modelos:

* **DistilBERT** ofrece la mayor precisión, pero con un **costo computacional elevado** (≈10× mayor que CNN-1D).
* **CNN-1D y XGBoost** representan opciones **más ligeras y eficientes**, con métricas competitivas y tiempos de inferencia mucho menores.

Esto sugiere la conveniencia de adoptar **estrategias híbridas o jerárquicas**, donde un modelo ligero realice una clasificación preliminar y un modelo más complejo (como DistilBERT) refine las predicciones en las instancias más ambiguas o críticas.

## Conclusiones Críticas

1. **Mejor modelo:** DistilBERT es el más adecuado para entornos de producción donde se prioriza la precisión y la robustez.
2. **Éxito técnico:** el uso de embeddings contextuales y la optimización mediante pérdida ponderada fueron los principales factores diferenciadores frente a los modelos clásicos.
3. **Limitaciones generales:** los modelos más complejos exigen más recursos y presentan riesgo de sobreajuste, mientras que los más simples, aunque eficientes, sacrifican capacidad contextual.
4. **Recomendaciones de mejora:**

   * Aplicar **regularización avanzada** (*dropout dinámico*, *layer freezing*) para mitigar el sobreajuste en Transformers.
   * Desarrollar **ensembles híbridos** (por ejemplo, CNN-1D + DistilBERT) que integren las ventajas de ambos enfoques.
   * Evaluar **métricas complementarias** como el *Matthews Correlation Coefficient (MCC)* o la *Cohen’s Kappa* para un análisis más robusto en clases desbalanceadas.
   * Implementar **model compression** (distillation o quantization) para reducir el tamaño y costo de inferencia de modelos grandes sin pérdida significativa de rendimiento.

## Perspectiva Futura

De cara a próximas etapas del proyecto, se proponen las siguientes líneas de investigación y mejora:

* **Aprendizaje continuo:** explorar *continual fine-tuning* para adaptar DistilBERT a nuevos dominios sin degradar su rendimiento previo.
* **Modelos multilingües:** evaluar alternativas como *mBERT* o *XLM-RoBERTa* que amplíen la aplicabilidad a textos en otros idiomas.
* **Análisis de sesgos y errores:** desarrollar un sistema automatizado de diagnóstico de errores para ajustar dinámicamente los pesos de clase.
* **Arquitecturas jerárquicas de atención:** incorporar modelos con atención jerárquica (*Hierarchical Attention Networks* o *HiBERT*) que capturen la estructura semántica y discursiva de los textos.


