# RAG: Retrieval-Augmented Generation

## ¿Qué es RAG?

RAG (Retrieval-Augmented Generation) es una extensión de un LLM que combina la recuperación (Retrieval) con la generación (Generation) para mejorar la adecuación de las respuestas. Se trata de incorporar un módulo de recuperación al LLM generativo que se encarga de dada una query buscar documentos relevantes sobre ella en una fuente determinada (BD, corpus, online) y utlizarlos para crear una query más precisa que es la que se transmite al modelo generativo para generar la respuesta.

Sus posibles impactos son:
* Coste bajo respecto al entrenamiento.
* Mejora de la precisión en las respuestas, al usar fuentes externas relacionadas con la query.
* Fácil actualización: se puede actualizar solo la BD de documentos en lugar de reentrenar el modelo.


## Objetivos

Nuestro objetivo es la especialización de LLMs en el dominio biomédico.

El año pasado estuvimos trabajando en la especialización de los embeddings de BERT ([pritamdeka](https://huggingface.co/pritamdeka/BioBERT-mnli-snli-scinli-scitail-mednli-stsb)) en el dominio de [HPO](https://hpo.jax.org/). Para lo que construimos un corpus de abstracts de [PubMed](https://pubmed.ncbi.nlm.nih.gov/) etiquetados con su fenotipo de búsqueda, entrenamos el modelo mediante fine-tuning y evaluamos el aprendizaje (de la codificación de fenotipos) a lo largo del proceso. Los principales problemas / aspectos de mejora fueron:

* El método de evaluación estaba centrado únicamente en la codificación de los fenotipos en embeddings. Se basaba en la comparación de la similitud coseno entre los embeddings de los términos (similitud inferida) con la similitud Lin de los fenotipos en HPO (similitud de referencia). Se requiere un método de evaluación más estandarizado que mida si el modelo comprende los textos biomédicos. Por ejemplo [MedSentEval](https://www.sciencedirect.com/science/article/pii/S1532046420300253?via%3Dihub).
* El error de test en realidad era de validación, porque se usó el conjunto de test para encontrar los mejores hiperparámetros.
* No se monitorizó la pérdida a lo largo del proceso. Aunque guarda cierta relación con el método de evaluación es diferente y puede aportar más información sobre si hay underfitting/overfitting.
* El vocabulario del modelo no se expande mediante el fine-tuning, y muchos términos de HPO no están en el vocabulario de BERT.

El nuevo enfoque para tratar la especialización de LLMs en medicina será el RAG. El módulo de recuperación debe buscar información relevante sobre la query en un corpus de documentos de PubMed. Si no se usa la Generación, se trata de un modelo de Recuperación Aumentada (Retrieval-Augmented). Este tipo de modelos son utilizados para clasificación, extracción de información y QA.

## Librerías a utilizar

Se propone usar alguna de las siguientes librerías de python para RAG:

1. Langchain.
2. Haystack.

Las dos librerías permiten construir sistemas RAG integrando distintos modelos LLM, generativos o embedder de OpenAI, Cohere, Google, HuggingFace...

### 1. Langchain

"LangChain es una biblioteca diseñada para ayudar a construir aplicaciones que integran modelos de lenguaje grandes (LLMs), como GPT, con fuentes de datos externas y flujos de trabajo personalizados. Ofrece una infraestructura flexible para crear aplicaciones que utilizan LLMs de manera eficiente, permitiendo conectar estos modelos con bases de datos, APIs y otros recursos externos, así como organizar la interacción en diferentes etapas o flujos." - ChatGPT

[Langchain](https://www.langchain.com/) es una empresa de San Francisco dedicada a dar el soporte necesario a los negocios para construir aplicaciones sobre LLMs. Sus tres productos principales son:

* [Langchain](https://www.langchain.com/langchain): es la librería para el desarrollo de las aplicaciones basadas en LLMs. Permite construir la estructura de la aplicación conectando los módulos de modelos, BBDD, fuentes externas, prompts... 
* [Langsmith](https://www.langchain.com/langsmith): asistencia al desarrollo de software basado en LLMs a lo largo de todo su ciclo de vida. Sirve para debug, colaboración, test y monitorización. Puede ser útil para la explicación y la evaluación de nuestro modelo.
* [Langgraph](https://www.langchain.com/langgraph): API para el desarrollo de agentes autónomos. Sirven para la toma de decisiones o la asistencia. En principio no lo vamos a usar para nada.

#### Términos y condiciones de uso.

Según las FAQ, LangChain es open-source.

Los otros servicios de esta empresa (LangGraph Cloud, LangSmith) están sujetos a una licencia que es poco restrictiva. El único punto delicado es:

"Customer may not directly or indirectly and may not authorize any third party to: (a) decompile, disassemble, reverse engineer, or otherwise attempt to derive the source code, structure, ideas, algorithms, or associated know-how of, the Licensed Platform, Documentation, or reconstruct, or discover, any hidden or non-public elements of the Licensed Platform (except to the extent expressly permitted by applicable law not withstanding this restriction);"

"(d) use the Licensed Platform to develop a similar or competing product or service"

Pero no nos obstaculiza en nada.

#### Get started
* Cargamos las variables de entorno: API keys y logging info.

In [17]:
# Cargar .env
import os
from dotenv import load_dotenv
from getpass import getpass

WS_ROUTE = "../"
load_dotenv(WS_ROUTE + "env/diic.env")

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass("Enter OpenAI API key:")

if "HF_API_KEY" not in os.environ:
    os.environ["HF_API_KEY"] = getpass("Enter Hugging Face API key:")
    
if "COHERE_API_KEY" not in os.environ:
    os.environ["COHERE_API_KEY"] = getpass("Enter Cohere API key:")


In [18]:
# Instalación
"""
# General
%pip install --quiet --upgrade langchain langchain-community langchain-chroma
    
# OpenAI
%pip install -qU langchain-openai
    
# Cohere
%pip install -qU langchain-cohere

# HuggingFace
%pip install -qU langchain-huggingface
"""

'\n# General\n%pip install --quiet --upgrade langchain langchain-community langchain-chroma\n    \n# OpenAI\n%pip install -qU langchain-openai\n    \n# Cohere\n%pip install -qU langchain-cohere\n\n# HuggingFace\n%pip install -qU langchain-huggingface\n'

* Modelos de OpenAI.
No tengo acceso a la API de OpenAI: salta el error "Rate Limit Exceeded, insufficient quota" para distintos modelos.
Otra desventaja: según sus Términos y Condiciones de uso está prohibido usar el output de sus modelos para desarrollar otros modelos que compitan con OpenAI ("Using Output to develop models that compete with OpenAI.").

In [19]:
# Modelos de OpenAI

from langchain_openai import ChatOpenAI

llms = [ChatOpenAI(model_name="gpt-3.5-turbo"), ChatOpenAI(model_name="o1")]

for llm in llms:
    print(llm.model_name)
    try:
        llm = ChatOpenAI()
        llm.invoke("Hello, world!")
    except Exception as e:
        print(f"Rate limit exceeded: {e}")

gpt-3.5-turbo
Rate limit exceeded: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}
o1
Rate limit exceeded: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}


In [20]:
# Alternativas: modelos accesibles

# 1. Sentence transformers

from transformers import pipeline

# Cargar el modelo de Hugging Face
generator = pipeline('text-generation', model='gpt2')

# Generar texto
response = generator("Hello, world!", max_length=50)
print(response[0]['generated_text']) 

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Hello, world!

I really need to talk about this, but we already discussed so far.

So many things about you that I don't really feel like writing about here. You already do your first episode with us but there are


In [21]:
# 2. Cohere
import cohere

co = cohere.Client(os.environ["COHERE_API_KEY"])

# Generar texto
response = co.generate(
    model='command-r-plus-08-2024',
    prompt='Hello, world!',
    max_tokens=50
)

print("u: Hello, world!")
print(response.generations[0].text)

u: Hello, world!
Hello, how can I help you today?


#### Tutorial RAG Langchain
Fuente: https://python.langchain.com/docs/tutorials/rag/
https://github.com/langchain-ai/langchain/blob/master/docs/docs/tutorials/rag.ipynb

In [22]:
# Usamos Cohere para generar texto

from langchain_cohere import ChatCohere

llm = ChatCohere(model="command-r-plus")

In [23]:
import bs4

from langchain_chroma import Chroma
from langchain_community.document_loaders import WebBaseLoader
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate

from langchain_openai import OpenAIEmbeddings # No accesible
from langchain_huggingface import HuggingFaceEmbeddings


# Load, chunk and index the contents of the blog.
# 1. Indexing Load
loader = WebBaseLoader(
    web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("post-content", "post-title", "post-header")
        )
    ),
)
docs = loader.load()

# 2. Indexing split
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)

# 3. Indexing store
# No tengo acceso a OpenAIEmbeddings
#vectorstore = Chroma.from_documents(documents=splits, embedding=OpenAIEmbeddings())

# Usar Hugging Face Embeddings en lugar de OpenAIEmbeddings
embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
vectorstore = Chroma.from_documents(documents=splits, embedding=embedding_model)

# 4. Retrieve and 5. Generate
# Retrieve and generate using the relevant snippets of the blog.
retriever = vectorstore.as_retriever()
ptemplate = """You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.\n
            Question: {question}\n
            Context: {context}\nAnswer:"""
            
prompt = PromptTemplate(input_variables=["context", "question"], template=ptemplate)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

query = "What is Task Decomposition?"
print(f"u: {query}")
response = rag_chain.invoke(query)


retrieved_docs = retriever.invoke(query)
context = format_docs(retrieved_docs)
print("C: " + context)
print("-----")
print("Prompt: " + ptemplate.format(context=context, question=query))
print("-----")
print("R: " + response)

u: What is Task Decomposition?
C: Fig. 1. Overview of a LLM-powered autonomous agent system.
Component One: Planning#
A complicated task usually involves many steps. An agent needs to know what they are and plan ahead.
Task Decomposition#
Chain of thought (CoT; Wei et al. 2022) has become a standard prompting technique for enhancing model performance on complex tasks. The model is instructed to “think step by step” to utilize more test-time computation to decompose hard tasks into smaller and simpler steps. CoT transforms big tasks into multiple manageable tasks and shed lights into an interpretation of the model’s thinking process.

Tree of Thoughts (Yao et al. 2023) extends CoT by exploring multiple reasoning possibilities at each step. It first decomposes the problem into multiple thought steps and generates multiple thoughts per step, creating a tree structure. The search process can be BFS (breadth-first search) or DFS (depth-first search) with each state evaluated by a classifier

In [24]:
# cleanup
vectorstore.delete_collection()

#### Características de LangChain

1. Fuentes externas: en el ejemplo anterior se accede a una web para conseguir los documentos que conforman la BD del retriever.
2. Cadenas/chains: en el ejemplo anterior se crea una cadena de RAG formada por: retriever, formateador, prompt, llm y parser. Langchain permite crear flujos de trabajo tan complejos como se quiera usando los diferentes tipos de módulos. Hay un gran catálogo de retrievers, modelos y prompts a utilizar. Nos interesan los modelos de HuggingFace porque son de libre acceso. En el modelo por ejemplo se usó un embedder de HuggingFace, un Vector Retriever y un LLM generativo de Cohere. El LLM de OpenAI requiere una clave de acceso con suficiente cuota en el plan.
3. Agentes: esta es la parte correspondiente a LangGraph que en principio no se va a usar. Sirve para que las cadenas tomen decisiones para dirigir el flujo de trabajo, por ejemplo cuánta información buscar, dónde buscarla, cuándo devolver una respuesta con la salida generada o cuándo iterar para mejorarla...
4. Memoria: para agentes conversacionales, LangChain ofrece soporte para recordar las interacciones y adaptar así sus respuestas.

Más información:
* Deconstructing RAG: https://blog.langchain.dev/deconstructing-rag/.
* RAG strategies: https://blog.langchain.dev/applying-openai-rag/.
* RAG evaluation cookbook: https://github.com/langchain-ai/langchain/blob/master/cookbook/advanced_rag_eval.ipynb?ref=blog.langchain.dev



### 2. Haystack



Haystack es una librería de código abierto de Deepset dedicada al mismo problema que Langchain: soportar el desarrollo de apps basadas en LLMs. Permite prácticamente la misma funcionalidad: crear flujos de trabajo combinando módulos como LLMs, embedders, retrievers y BD de documentos, donde para cada uno se tienen distintas opciones como HuggingFace, OpenAI o Cohere. También ofrece data ingestion (obtener los datos online), evaluación y monitorización.


#### Tutorial RAG con Haystack
[27_First_RAG_Pipeline.ipynb](./haystack/27_First_RAG_Pipeline.ipynb) basado en https://haystack.deepset.ai/tutorials/27_first_rag_pipeline.

In [25]:
# Database

# Document Store

from haystack.document_stores.in_memory import InMemoryDocumentStore

document_store = InMemoryDocumentStore()

# Load dataset

from datasets import load_dataset
from haystack import Document

dataset = load_dataset("bilgeyucel/seven-wonders", split="train")
docs = [Document(content=doc["content"], meta=doc["meta"]) for doc in dataset]

# Document embedder

from haystack.components.embedders import SentenceTransformersDocumentEmbedder

doc_embedder = SentenceTransformersDocumentEmbedder(model="pritamdeka/BioBERT-mnli-snli-scinli-scitail-mednli-stsb")
doc_embedder.warm_up()

# Write documents

docs_with_embeddings = doc_embedder.run(docs)
document_store.write_documents(docs_with_embeddings["documents"])


Batches:   0%|          | 0/5 [00:00<?, ?it/s]

151

In [26]:
# RAG components

# 1. Embedder (same as Document Store)

from haystack.components.embedders import SentenceTransformersTextEmbedder

text_embedder = SentenceTransformersTextEmbedder(model="pritamdeka/BioBERT-mnli-snli-scinli-scitail-mednli-stsb")

# 2. Retriever

from haystack.components.retrievers.in_memory import InMemoryEmbeddingRetriever

retriever = InMemoryEmbeddingRetriever(document_store)

# 3. Prompt

from haystack.components.builders import PromptBuilder

template = """
Given the following information, answer the question.

Context:
{% for document in documents %}
    {{ document.content }}
{% endfor %}

Question: {{question}}
Answer:
"""

prompt_builder = PromptBuilder(template=template)


# 4. LLM Generator

import os
from getpass import getpass

# No tengo acceso a OpenAI
#from haystack.components.generators import OpenAIGenerator
from haystack.components.generators import HuggingFaceAPIGenerator
from haystack.utils import Secret

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass("Enter OpenAI API key:")

if "HF_API_KEY" not in os.environ:
    os.environ["HF_API_KEY"] = getpass("Enter Hugging Face API key:")

#generator = OpenAIGenerator(model="text-embedding-ada-002")
generator = HuggingFaceAPIGenerator(api_type="serverless_inference_api",
                                    api_params={"model": "HuggingFaceH4/zephyr-7b-beta"},
                                    token=Secret.from_token(os.environ["HF_API_KEY"]))

In [27]:
# RAG Pipeline

from haystack import Pipeline

basic_rag_pipeline = Pipeline()
# Add components to your pipeline
basic_rag_pipeline.add_component("text_embedder", text_embedder)
basic_rag_pipeline.add_component("retriever", retriever)
basic_rag_pipeline.add_component("prompt_builder", prompt_builder)
basic_rag_pipeline.add_component("llm", generator)

# Now, connect the components to each other
basic_rag_pipeline.connect("text_embedder.embedding", "retriever.query_embedding")
basic_rag_pipeline.connect("retriever", "prompt_builder.documents") #.documents -> puntos de entrada
basic_rag_pipeline.connect("prompt_builder", "llm")

<haystack.core.pipeline.pipeline.Pipeline object at 0x729c61541050>
🚅 Components
  - text_embedder: SentenceTransformersTextEmbedder
  - retriever: InMemoryEmbeddingRetriever
  - prompt_builder: PromptBuilder
  - llm: HuggingFaceAPIGenerator
🛤️ Connections
  - text_embedder.embedding -> retriever.query_embedding (List[float])
  - retriever.documents -> prompt_builder.documents (List[Document])
  - prompt_builder.prompt -> llm.prompt (str)

In [28]:
# Usage: ask a question

question = "What does Rhodes Statue look like?"

response = basic_rag_pipeline.run({"text_embedder": {"text": question}, "prompt_builder": {"question": question}})
    # diccionario con los datos de entrada para cada componente

print(response["llm"]["replies"][0])

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

 The Rhodes Statue, also known as the Colossus of Rhodes, was a statue of the Greek sun-god Helios, erected in the city of Rhodes by Chares of Lindos in 280 BC. It was constructed to celebrate the successful defence of Rhodes city against an attack by Demetrius Poliorcetes, who had besieged it for a year with a large army and navy. According to most contemporary descriptions, the Colossus stood approximately 70 cubits, or 33 metres (108 feet) high – approximately the height of the modern Statue of Liberty from feet to crown – making it the tallest statue in the ancient world. It collapsed during the earthquake of 226 BC, although parts of it were preserved. In accordance with a certain oracle, the Rhodians did not build it again. John Malalas wrote that Hadrian in his reign re-erected the Colossus, but he was mistaken. According to the Suda, the Rhodians were called Colossaeans (Κολοσσαεῖς), because they erected the statue on the island. Today, the massive castle of the Knights Hospita

En este ejemplo hemos podido realizar lo mismo que en el anterior:

* Cargar un Document Retriever.
* Añadir el embedder [pritamdeka/BioBERT-mnli-snli-scinli-scitail-mednli-stsb](https://huggingface.co/pritamdeka/BioBERT-mnli-snli-scinli-scitail-mednli-stsb) de HuggingFace en el formato Sentence Transformers.
* Añadir una plantilla de prompt (context y query).
* Añadir un LLM generativo de Huggingface.
* Conectar el flujo de trabajo y lanzar una pregunta.

#### Características

* Tipos de Retrievers: keyword, dense embedding, sparse embedding (combinación de los 2 anteriores), filter, hybrid, multi-embedding.
* Document Store: BD de documentos. Soporta BD local temporal/persistente y BD en remoto.
* Converters. De cualquier formato a Document.
* Evaluators: centrados en la evaluación de pipelines generativos. El más importante es RagasEvaluator.
* Más información:
  * Cookbook: https://github.com/deepset-ai/haystack-cookbook
  * RAG usando PubMed: https://haystack.deepset.ai/blog/mixtral-8x7b-healthcare-chatbot
  * RAGAS: Evaluación de modelos generativos https://arxiv.org/pdf/2309.15217

### Diferencias entre Haystack y Langchain

* Haystack está centrado en retrieval (con integración de motores de búsqueda), Langchain en la integración de los LLMs en los flujos de trabajo (incluyendo agentes de decisión).
* La documentación de Haystack es más completa. La de LangChain está organizada por conceptos. Por ejemplo no hay ningún retriever de keywords documentado en la API reference de Langchain (BM25 existe pero no aparece). El número de tutoriales y recetas en los cookbooks son similares.

## Propuesta de evaluación de los métodos
* [**MedSentEval**](https://pdf.sciencedirectassets.com/272371/1-s2.0-S1532046420X00037/1-s2.0-S1532046420300253/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjEHcaCXVzLWVhc3QtMSJGMEQCIDjAXDMFZQiUIFVyI9BPb6MV3Xxe3PZnBjDLUXMPq1FlAiBhXDXz442qRjW00Ymi8IgHvXU9XAb2BG6RbtMM3%2ByxXiq7BQjg%2F%2F%2F%2F%2F%2F%2F%2F%2F%2F8BEAUaDDA1OTAwMzU0Njg2NSIMb7UsDJAHnCQ4ic0qKo8FhgKbrZCPefJYqJxbv3BKftfgqkMOJOUsMxErL%2F0%2BWGpG2srEZiSCx7YfTk4TcD%2BC%2BYBNqFPu%2BRlo%2Fd88BhhUUrMGyM2P0FjPmMQjqE6AZiRwNf%2F%2B5xLpvE9EaRF91VBmrH0m3RGlv8ww2gc3H%2FRh0yjkKP3soOhNwH8PkbS7lga2byw7nh8ZMtETwkPzpPWXPviuUENBrfVsvhwn1nCwqa%2B3m93t8ZFof60hYR73kS0uer%2FcOAcqjAaPNCznwOg6h0Mc3%2FYQ%2BPfaUPmhlttiTmz9Ln0E9ESZuqAWZ0VW5n%2B7iI7DHcXiDqKDqwXobAQDXxQj%2B5qOBPzQqMs1f90uOUKLRGKQYRZqgQV11nPa3sEf24zWNMpNiOxpS5lQwSoWkAqqspiBjNmRMH%2F3bBxTncavpr88m7BJpw55rQ4eFdYN8LkHv8JkfcJkRSmqiL7LBVqqeB2oJOELJv6odFOd%2BhNHpYppPTHzQ9y6ukHeQxhpSkfBRLfp022fk%2BnYHZuR7XhzdC9ohdHpEV0RfOYbZQBHNikmvQK6LBpVizfZaZjrkiJuOGg6ygrJptUyoRtADUWLS6caYxccYQBt%2BjMkngeEJq7p5NPUot8xMknuAmRgs0QiZvEKMKbwRMESVlp7vkfc2F%2B28bCXzcXeoxfhAEc45YVSLe4DX%2BeNSTwIvDZsh1It0yH29gNMXFPGhnPMqP43pmbfwoblFGMDAWYt6vFMUv63qxBuBvMC7QAZUDMxYnpL95SWpoVnCQsk5Pgj9mo1U9i%2FYhJJejf%2BFhRR6SNfc7d6PTvTI5LENiWul25u6ALZYhfxohIWnLyTV51tAbLVmHjq5ykyDr1JfFtqzeotkpmskUPIWo7ZCmdhBDCOmuu4BjqyAZxoWM8UbxZmZ2L3AAUcYjylkNRFNF%2FD4RlUE9ugOFSq6MBF57hPzPegXGDhLzd8neZOUkqtRXTzCAcb3cQxJHT74wSNaSNdOWKlURJ%2BVevx64VQCzYxT8%2BM1rbVnzTt3KDpMRVIZq2kVZ97jYneSqGGV4LRoybuzIZ7BxRMWvkEnaAlgvxTiJHMZzBpD5%2Fpj9UhPwrnBHvmZL5EktNrSMqw95l78d3dHs%2FBjFj30jn1gk8%3D&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Date=20241024T231550Z&X-Amz-SignedHeaders=host&X-Amz-Expires=300&X-Amz-Credential=ASIAQ3PHCVTYU2YAB75G%2F20241024%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Signature=404eb5439c56f36f775d07bfc32a3c4392b8f180370f19be80ecc5109d24a26f&hash=3edc86f2bc46ac7d10d13ed44bec5808eadd5c4f08ee76914abd207a0fceb5b9&host=68042c943591013ac2b2430a89b270f6af2c76d8dfd086a07176afe7c76c2c61&pii=S1532046420300253&tid=spdf-cd65e576-7648-463a-a062-55b2d4cf9dd3&sid=9864b0b818409847ca885db8f1043cc82732gxrqb&type=client&tsoh=d3d3LnNjaWVuY2VkaXJlY3QuY29t&ua=1f155605550b0e02030157&rr=8d7dabce1e1a314b&cc=es) fue un experimento de evaluación unificada de sentence embeddings en el dominio médico. Se evaluaron los modelos de representación textual: GloVe, FastText, ELMO, BERT, InferSent, USE así como algunas de sus versiones especializadas en un dominio médico o científico como BioBERT, SciBERT, InferSent_{MedNLI} o ELMO_{PubMed}. Para evaluarlos se probaron las siguientes tareas con datasets de test especializados: Text Entailment, RQE, Sentence classification, Sentiment analysis, QA y STS. Por ejemplo:
* Clinical STS (C-STS) y BIOSSES datasets etiquetados para STS. Se evaluaron los modelos con la métrica de correlación de Pearson/Spearman entre la similitud coseno y la gold label.
* MedNLI: TE.
* PICO: corpus etiquetado de oraciones de abstracts de PubMed para clasificación. 

**Problema**: El modelo pritamdeka (https://huggingface.co/pritamdeka/BioBERT-mnli-snli-scinli-scitail-mednli-stsb) fue fine-tuneado en algunos de estos datasets.

Un tutorial del código se puede ver en https://github.com/nstawfik/MedSentEval/blob/master/MedSentEval_Tutorial.ipynb. 