<div><a href="https://knodis-research-group.github.io/"><img style="float: right; width: 128px; vertical-align:middle" src="https://knodis-research-group.github.io/knodis-logo_horizontal.png" alt="KNODIS logo" /></a>

# Clasificación de etiquetas en StackOverflow QAs

<i>Última actualización: 2025-03-15</i></div>

***

## Enunciado

En este ejercicio, se busca aplicar técnicas de procesamiento de lenguaje natural para resolver un problema real: **clasificar una pregunta y su respuesta de StackOverflow a partir de la etiqueta (Tag) asociada**. Para ello, usaremos el dataset [stackoverflow_QAs](https://huggingface.co/datasets/Kubermatic/stackoverflow_QAs) de [_Hugging Face_](https://huggingface.co/), que contiene registros con campos **Question**, **Answer** y **Tag**.

El objetivo principal es **desarrollar un modelo capaz de transformar la información textual (combinando la pregunta y la respuesta) en una representación numérica que permita predecir la etiqueta correcta**.

## 1. Exploración y preprocesamiento de datos

### Carga y exploración de los datos

Carga el dataset usando la librería `datasets` de [_Hugging Face_](https://huggingface.co/) y explora la estructura del dataset. Responde las siguientes preguntas:
- ¿Qué columnas contiene?
- ¿Existe algún sesgo o desbalance en las etiquetas?

### Limpieza y preprocesamiento

Realiza un preprocesamiento de los campos **Question** y **Answer**. Algunas sugerencias (que pueden ser útiles, neutras o contraproducentes):

- Convertir el texto a minúsculas
- Eliminar o separar puntuación y caracteres especiales
- Eliminar _stop words_
- **Question** y **Answer** pueden ser dos filas del dataset con la misma etiqueta.

Aplica las transformaciones necesarias y justifica las decisiones tomadas.

### Visualización inicial

Genera algunas estadísticas descriptivas, por ejemplo:
- Frecuencia de las etiquetas (_Tag_)
- Longitud de las preguntas y respuestas

Utiliza visualizaciones (por ejemplo, gráficos de barras o histograma) para explorar los datos.

## 2. Representación de texto

### Obtención de _embeddings_

Convierte el texto preprocesado (la combinación de **Question** y **Answer**) en vectores utilizando alguna técnica de _embeddings_. Es recomendable usar modelos preentrenados (por ejemplo, BERT, GloVe o Word2Vec).

Explica brevemente las ventajas y desventajas de la técnica seleccionada.

## 3. Construcción del modelo de clasificación

### Construcción de los conjuntos de datos

Divide el dataset en conjuntos de entrenamiento y test (por ejemplo, 80% entrenamiento y 20% test) respetando la distribución de las etiquetas.

### Selección e implementación del modelo

Implementa un modelo de clasificación que, a partir del texto combinado (Question + Answer), prediga la etiqueta (**Tag**). Puedes utilizar enfoques clásicos (por ejemplo, regresión logística, SVM) o modelos basados en redes neuronales. Durante el entrenamiento, utiliza un conjunto de validación para ajustar los hiperparámetros y optimizar el desempeño.

Discute brevemente las métricas obtenidas (precisión, recall, F1-score, etc.).

### Evaluación del modelo

Evalúa el desempeño del modelo utilizando las métricas de clasificación (precisión, recall, F1-score) y la matriz de confusión. Discute las diferencias entre el desempeño en el conjunto de validación y el test.

## 4. Experimentación adicional (opcional)

### _Data augmentation_

¿Se te ocurre alguna forma de generar datos sintéticos confiables para ampliar el dataset? Describe e implementa alguna estrategia de _data augmentation_ que pueda mejorar el desempeño del modelo.

### Comparación de modelos

Experimenta con arquitecturas de modelos más avanzados, por ejemplo, utilizando modelos basados en transformers (vía [_Hugging Face_](https://huggingface.co/)) y compara su desempeño con el modelo inicial. Analiza ventajas, desventajas y posibles mejoras.

***

<div><img style="float: right; width: 120px; vertical-align:top" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" alt="Creative Commons by-nc-sa logo" />

[Back to top](#top-header)

</div>