Repositorio para proyecto de reconocimiento de entidades en texto de recetas médicas en el contexo del ramo MDS7201 Proyecto de Ciencia de Datos, Universidad de Chile.
Integrantes:
- Daniel Carmona G. (Ing. Civil Eléctrica)
- Martín Sepúlveda (Ing. Civil Eléctrica)
- Monserrat Prado (Ing. Civil en Ciencias de la Computación)
- Camilo Carvajal Reyes (Ing. Civil Matemática)
Colaboradores:
- Patricio Wolff (Minsal)
- Constanza Contreras (Docente MDS7201)
- Francisco Förster (Docente MDS7201)
El informe completo de nuestro de trabajo se encuentra en este archivo.
Ponemos a disposición una demostración online del funcionamiento de nuestro trabajo (se restringe a los modelos BETO, pero un funcionamiento con RNN sería análogo):
https://huggingface.co/spaces/ccarvajal/entidades-prescripciones
El texto puede ser cambiado por el usuario y se entrega como input a nuestros modelos. Luego el texto se ordena según las entidades detectadas.
Análogamente a la demo en línea, se proveen dos notebooks de ejemplo para replicar nuestro modelo en código.
-
Esta demo está listo para funcionar desde cero en cualquier máquina que tenga instalada python y jupyter notebooks. Instala las dependencias relevantes, descarga los modelos. Ejecuta las predicciones y las traduce a lenguaje entendible. El notebook puede ser usado de manera independiente de este repositorio.
-
Esta demo carga y usa los modelos para un texto de manera directa, sin que el usuario vea el código detrás. Su output es el mismo que la demo online. Es una manera de mostrar como funcionaría el modelo en producción y depende de el los scripts predicciones y auxfunctions. Este demo requiere un ambiente python donde se hayan instalado las dependencias usando
pip install -r requirements.txt
O bien corriendo la demo general primero para la parte de instalación.
Datos y códigos relevantes presentes en el repositorio.
Los datos originales no se encuentran en este repositorio. Corresponden a datos de prescripciones de un hospital de la región metropolitana.
Exploraciones
- LSTM (baseline)
- Expresiones regulares - Primera versión - Segunda versión
- BETO clinico - modelo general - modelo ADMIN
Los modelos BETO están disponibles en el repositorio HuggingFace transformers:
A continuación se reportan las métricas de los modelos desarrollados en este repositorio
modelo | f1 | precision | recall |
---|---|---|---|
RegEx | 0.56 | 0.94 | 0.48 |
RNN | 0.68 | 0.74 | 0.64 |
RNN fine-tunning | 0.92 | 0.92 | 0.92 |
BETO | 0.83 | 0.86 | 0.90 |
BETO fine-tunning | 0.93 | 0.92 | 0.94 |
RNN ADMIN | 0.93 | 0.93 | 0.94 |
BETO ADMIN | 0.94 | 0.93 | 0.95 |