<div><a href="https://knodis-research-group.github.io/"><img style="float: right; width: 128px; vertical-align:middle" src="https://knodis-research-group.github.io/knodis-logo_horizontal.png" alt="KNODIS logo" /></a>

# Clasificación de diagnósticos a partir de síntomas<a id="top"></a>

<i>Última actualización: 2025-03-15</small></i></div>

***

## Enunciado

En este ejercicio la idea es explorar y aplicar las técnicas de procesamiento de lenguaje natural en un problema real útil: predecir diagnósticos a partir de descripciones de síntomas. Utilizaremos el dataset [_symptom_to_diagnosis_](https://huggingface.co/datasets/gretelai/symptom_to_diagnosis) de [_Hugging Face_](https://huggingface.co/), que contiene registros con descripciones de síntomas y sus correspondientes diagnósticos, para construir un modelo de clasificación que, a partir de un texto, pueda sugerir el diagnóstico correcto.

El objetivo principal es **desarrollar un modelo capaz de transformar la información textual de los síntomas en una representación numérica que permita clasificar de forma efectiva el diagnóstico asociado**.

Adicionalmente, se te desafía a **visualizar estas representaciones de forma intuitiva en un espacio 3D**, para tratar de observar cómo ciertas palabras se agrupan en torno a temas o conceptos similares y entender así mejor las relaciones semánticas implícitas en los datos.

***

## 1. Exploración y preprocesamiento de datos

### Carga y exploración de los datos

Carga el dataset usando la librería `datasets` de Hugging Face y explora la estructura del dataset. ¿Qué columnas contiene? ¿Existe algún tipo de sesgo?

### Limpieza y preprocesamiento

Realiza un preprocesamiento del campo de síntomas. Considera si es necesario o no:

- Convertir a minúsculas el texto
- Eliminar o separar puntuación y caracteres especiales
- Eliminar _stop words_
- Agrupar palabras similares en el mismo token

### Visualización inicial

Genera algunas estadísticas descriptivas (por ejemplo, frecuencia de diagnósticos, longitud de las descripciones de síntomas, ...).

## 2. Representación de texto

### Obtención de _embeddings_

Convierte los síntomas en vectores utilizando alguna técnica de _embeddings_. Es recomendable usar alguno preentrenado (Word2Vec, GloVe, BeRT, ...), pero si te apetece entrenar el tuyo mismo, adelante. Una vez lo realices, explica brevemente las ventajas y desventajas de la técnica que hayas seleccionado.

## 3. Construcción del modelo de clasificación

### Construcción de los conjuntos de datos

Identifica el conjunto de entrenamiento y el de test, y si no extrae uno de aproximadamente el 20% respetando la distribución de los datos.

### Selección e implementación del modelo

Implementa un modelo de clasificación que prediga el diagnóstico. Haz uso de las técnicas que conozcas para intentar dar con un modelo que generalice bien y que sea interesante de acuerdo a métricas de clasificación como precisión, recall, F1-score y la matriz de confusión. Es recomendable que para ello uses un conjunto de validación durante el entrenamiento para ajustar los hiperparámetros. Discute los valores arrojados por estas métricas.

### Evaluación del modelo

Evalúa el desempeño del modelo utilizando las mismas métricas que antes y discute los resultados y las diferencias existentes entre aquellos arrojados durante el entrenamiento y estos.

## 5. Experimentacion adicional (opcional)

### _Data augmentation_

¿Se te ocurre alguna forma de crear datos sintéticos que sean fiables y permitan crear un modelo de _data augmentation_? Si es así, descríbelas y si puedes impleméntalas para crear un mejor modelo.

### Comparación de modelos (opcional)

Experimenta con arquitecturas de modelos más avanzados (por ejemplo, modelos basados en transformers) y compara su desempeño con el modelo inicial. Para ello puedes comprobar cómo se usan estos modelos preentrenados desde [Hugging Face](https://huggingface.co/).

***

<div><img style="float: right; width: 120px; vertical-align:top" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" alt="Creative Commons by-nc-sa logo" />

[Back to top](#top)

</div>