<div><a href="https://knodis-research-group.github.io/"><img style="float: right; width: 128px; vertical-align:middle" src="https://knodis-research-group.github.io/knodis-logo_horizontal.png" alt="KNODIS logo" /></a>

# Reconociento entidades con _few-nerd_

<i>Última actualización: 2025-03-15</i></div>

***

## Enunciado

En este ejercicio se aborda un problema de _name entity recognition_ (NER) utilizando el dataset [_few-nerd_](https://huggingface.co/datasets/DFKI-SLT/few-nerd) de [_Hugging Face_](https://huggingface.co/). El objetivo es construir un modelo que, a partir de una secuencia de tokens, identifique y clasifique correctamente las entidades presentes en el texto (por ejemplo, personas, organizaciones, ubicaciones, etc.).

El reto consiste en **transformar las secuencias de texto en representaciones que faciliten la detección de entidades** y en entrenar un modelo capaz de predecir, para cada token, la etiqueta de entidad correspondiente. Además, se propone explorar y visualizar la distribución de las entidades y experimentar con técnicas de _data augmentation_ para mejorar el rendimiento del modelo.

## 1. Exploración y preprocesamiento de datos

### Carga y exploración de los datos

Utiliza la librería `datasets` de Hugging Face para cargar el dataset _few-nerd_. Responde:

- ¿Qué columnas contiene el dataset?
- ¿Existe algún sesgo o desbalance en la distribución de las etiquetas de entidades?

Visualiza algunos ejemplos para entender la estructura de los datos (por ejemplo, tokens y las etiquetas asignadas).

### Limpieza y preprocesamiento

Ojo, porque en tareas de NER, es importante mantener la integridad de los tokens ya que las etiquetas están alineadas a ellos. No obstante, se pueden aplicar algunas transformaciones, como:

- Normalización de mayúsculas/minúsculas (si es pertinente para el idioma)
- Corrección de errores tipográficos

Realiza las transformaciones necesarias sin alterar la correspondencia entre tokens y etiquetas.

### Visualización inicial

Genera estadísticas descriptivas, como:
- Distribución de las etiquetas de entidades
- Longitud de las secuencias (número de tokens)

Utiliza gráficos (por ejemplo, de barras o histogramas) para visualizar estos aspectos.

## 2. Representación de texto

### Obtención de _embeddings_ para NER

Para tareas de NER es habitual trabajar con modelos preentrenados que generan representaciones contextuales para cada token. Se recomienda utilizar un modelo de Transformers (por ejemplo, BERT) para obtener estas representaciones.

Explica brevemente las ventajas y desventajas de la técnica utilizada (por ejemplo, la capacidad de capturar contexto frente al coste computacional).

## 3. Construcción del modelo de NER

### División del dataset 

Divide el dataset en conjuntos de entrenamiento y test (por ejemplo, 80%/20%), manteniendo la distribución de las entidades. Ten en cuenta que en NER la división debe hacerse a nivel de secuencias.

### Selección e implementación del modelo

Implementa un modelo para NER que, a partir de las secuencias de tokens, prediga la etiqueta correspondiente para cada uno. Puedes optar por:

- Afinar un modelo preentrenado (por ejemplo, BERT) utilizando la clase `Trainer` de [_Hugging Face_](https://huggingface.co/)
- Usar estrategias de _transfer learning_ para adaptar el modelo al dataset few-nerd

Durante el entrenamiento, utiliza un conjunto de validación (o valida con k-fold) y analiza métricas como el F1-score específico para NER.

### Evaluación del modelo

Evalúa el desempeño del modelo utilizando métricas específicas para NER (por ejemplo, precisión, recall y F1-score a nivel de entidad). Comenta las diferencias entre el desempeño en el conjunto de entrenamiento y el de test.

## 4. Experimentación adicional (opcional)

### _Data augmentation_

¿Se te ocurre alguna estrategia para generar datos sintéticos que ayuden a mejorar el rendimiento en NER? Por ejemplo, podrías aplicar técnicas de sustitución de sinónimos o modificaciones en la estructura de las oraciones. Describe e implementa, si es posible, alguna de estas técnicas.

***

<div><img style="float: right; width: 120px; vertical-align:top" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" alt="Creative Commons by-nc-sa logo" />

[Back to top](#top-header)

</div>