# RAG M√©dico con BioMistral - Sistema de An√°lisis Cl√≠nico

**Asignatura:** Transformers del Lenguaje en Salud (UPCH)

## Objetivo

Sistema RAG (Retrieval-Augmented Generation) que:
- ‚úÖ Usa **BioMistral-7B** (LLM m√©dico especializado)
- ‚úÖ **PubMedBERT** para embeddings m√©dicos
- ‚úÖ Se integra con **NER + EntityLinker** existente
- ‚úÖ B√∫squeda en knowledge base m√©dica
- ‚úÖ Soporta m√∫ltiples backends (HF API, HF Local, Ollama)

## 1Ô∏è‚É£ Instalaci√≥n de Dependencias

In [1]:
# Instalaci√≥n de paquetes necesarios
%pip install -q langchain langchain-community langchain-huggingface langchain-text-splitters
%pip install -q faiss-cpu
%pip install -q transformers accelerate
%pip install -q sentence-transformers
%pip install -q python-docx pypdf

print("‚úÖ Dependencias instaladas")

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
‚úÖ Dependencias instaladas


## 2Ô∏è‚É£ Importaci√≥n de Librer√≠as

In [1]:
import json
import os
from pathlib import Path
import warnings
warnings.filterwarnings("ignore")

# Langchain
from langchain_community.document_loaders import DirectoryLoader, TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter  # ‚≠ê CORREGIDO
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings, HuggingFaceEndpoint
from langchain.prompts import PromptTemplate
from langchain.chains import RetrievalQA

# Hugging Face
from huggingface_hub import login

print("‚úÖ Librer√≠as importadas correctamente")

ModuleNotFoundError: No module named 'langchain.prompts'

## 3Ô∏è‚É£ Configuraci√≥n de Hugging Face

**IMPORTANTE:** Necesitas un token de Hugging Face (gratuito)
- Ir a: https://huggingface.co/settings/tokens
- Crear token con permisos de lectura
- Pegar abajo

In [None]:
# Configurar tu token de Hugging Face
HF_TOKEN = ""  # ‚¨ÖÔ∏è PEGAR TU TOKEN AQU√ç

if HF_TOKEN:
    os.environ["HUGGINGFACEHUB_API_TOKEN"] = HF_TOKEN
    login(token=HF_TOKEN)
    print("‚úÖ Autenticado en Hugging Face")
else:
    print("‚ö†Ô∏è Configura tu token de Hugging Face")

## 4Ô∏è‚É£ Embeddings M√©dicos: PubMedBERT

Usamos PubMedBERT porque:
- Entrenado en literatura m√©dica (PubMed)
- Comprende mejor terminolog√≠a m√©dica
- Mejor retrieval para docs m√©dicos vs embeddings gen√©ricos

In [None]:
print("‚è≥ Cargando PubMedBERT para embeddings...")

embeddings = HuggingFaceEmbeddings(
    model_name="microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract",
    model_kwargs={'device': 'cpu'},
    encode_kwargs={'normalize_embeddings': True}
)

# Test
test_embedding = embeddings.embed_query("diabetes mellitus treatment")
print(f"‚úÖ PubMedBERT listo: dimensi√≥n = {len(test_embedding)}")

## 5Ô∏è‚É£ Preparar Knowledge Base M√©dica

Crea una carpeta `medical_knowledge/` y a√±ade documentos m√©dicos:
- Gu√≠as cl√≠nicas (PDF, TXT)
- Protocolos
- Art√≠culos de referencia

In [None]:
# Crear directorio de ejemplo si no existe
knowledge_dir = Path("medical_knowledge")
knowledge_dir.mkdir(exist_ok=True)

# Documento de ejemplo sobre diabetes
example_doc = knowledge_dir / "diabetes_guideline.txt"
if not example_doc.exists():
    example_doc.write_text("""
GU√çA CL√çNICA: DIABETES MELLITUS TIPO 2

DIAGN√ìSTICO:
- Glucosa en ayunas ‚â•126 mg/dL (7.0 mmol/L)
- HbA1c ‚â•6.5%
- Glucosa aleatoria ‚â•200 mg/dL con s√≠ntomas

COMPLICACIONES COMUNES:
1. Cardiovasculares (IAM, ICC)
   - DM2 aumenta 2-4x riesgo cardiovascular
   - Asociaci√≥n frecuente con hipertensi√≥n arterial
   
2. Nefropat√≠a diab√©tica
3. Retinopat√≠a
4. Neuropat√≠a

TRATAMIENTO FARMACOL√ìGICO:
Primera l√≠nea: Metformina 500-850mg
- Contraindicaciones: ICC descompensada, insuficiencia renal
- Efectos adversos: Intolerancia gastrointestinal, acidosis l√°ctica (rara)

HIPERTENSI√ìN EN DIAB√âTICOS:
Objetivo: PA <140/90 mmHg
F√°rmacos preferidos:
- IECA (Enalapril, Lisinopril)
- ARA-II (Losart√°n, Valsart√°n)
  * Losart√°n 50-100mg/d√≠a
  * Nefroprotector
  * Bien tolerado en diab√©ticos

S√çNTOMAS DE ALARMA:
- Disnea s√∫bita: considerar ICC (especialmente si DM2 + HTA)
- Dolor tor√°cico: IAM silente com√∫n en diab√©ticos
- Edema en miembros inferiores: ICC o nefropat√≠a

REFERENCIA: Adaptado de ADA Standards of Medical Care in Diabetes 2024
    """)
    print("‚úÖ Documento de ejemplo creado")

# Documento sobre ICC
icc_doc = knowledge_dir / "heart_failure.txt"
if not icc_doc.exists():
    icc_doc.write_text("""
GU√çA: INSUFICIENCIA CARD√çACA CONGESTIVA (ICC)

FACTORES DE RIESGO:
- Hipertensi√≥n arterial (causa principal)
- Diabetes Mellitus
- Enfermedad coronaria
- Edad avanzada (>65 a√±os)

PRESENTACI√ìN CL√çNICA:
S√≠ntomas:
- Disnea de esfuerzo (s√≠ntoma cardinal)
- Ortopnea
- Disnea parox√≠stica nocturna
- Fatiga
- Edema en MMII

Signos:
- Taquicardia
- Crepitantes pulmonares
- Ingurgitaci√≥n yugular
- Hepatomegalia

DIAGN√ìSTICO:
1. Ecocardiograma (Gold standard)
   - Evaluar FE (fracci√≥n de eyecci√≥n)
2. BNP/Pro-BNP
   - BNP >100 pg/mL sugiere ICC
3. Radiograf√≠a t√≥rax
   - Cardiomegalia, congesti√≥n pulmonar

TRATAMIENTO:
Medidas generales:
- Restricci√≥n de sal (<2g/d√≠a)
- Control de l√≠quidos
- Ejercicio moderado (cuando est√© estable)

Farmacol√≥gico:
- Diur√©ticos (furosemida)
- IECA/ARA-II (continuar si ya los toma)
- ‚ö†Ô∏è METFORMINA: CONTRAINDICADA en ICC descompensada
  * Riesgo de acidosis l√°ctica
  * Suspender temporalmente

PACIENTE DIAB√âTICO CON ICC:
- Ajustar hipoglucemiantes (evitar metformina)
- Control estricto de PA
- Monitoreo frecuente

REFERENCIA: ESC Guidelines for Heart Failure 2024
    """)
    print("‚úÖ Documento ICC creado")

print(f"üìÅ Knowledge base en: {knowledge_dir.absolute()}")

## 6Ô∏è‚É£ Cargar y Procesar Documentos

In [None]:
print("üìö Cargando documentos m√©dicos...")

# Cargar documentos
loader = DirectoryLoader(
    str(knowledge_dir),
    glob="**/*.txt",
    loader_cls=TextLoader
)
documents = loader.load()

print(f"‚úÖ Cargados {len(documents)} documentos")

# Split en chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # Chunks m√°s grandes para contexto m√©dico
    chunk_overlap=100,
    separators=["\n\n", "\n", ". ", " ", ""]
)
chunks = text_splitter.split_documents(documents)

print(f"‚úÖ Divididos en {len(chunks)} chunks")
print(f"\nüìÑ Ejemplo de chunk:\n{chunks[0].page_content[:200]}...")

## 7Ô∏è‚É£ Crear Vector Database (FAISS)

In [None]:
print("‚è≥ Creando vector database...")

vector_db = FAISS.from_documents(
    documents=chunks,
    embedding=embeddings
)

print(f"‚úÖ Vector database creada con {len(chunks)} vectores")

# Test de b√∫squeda
test_query = "tratamiento diabetes hipertensi√≥n"
test_results = vector_db.similarity_search(test_query, k=2)

print(f"\nüîç Test b√∫squeda: '{test_query}'")
print(f"Resultado 1: {test_results[0].page_content[:150]}...")

## 8Ô∏è‚É£ Configurar BioMistral (LLM M√©dico)

**BioMistral-7B:** Modelo Mistral fine-tuned en datos m√©dicos
- Estado del arte en benchmarks m√©dicos
- Multiling√ºe (espa√±ol m√©dico incluido)

In [None]:
print("‚è≥ Configurando BioMistral...")

llm = HuggingFaceEndpoint(
    repo_id="BioMistral/BioMistral-7B",
    task="text-generation",
    max_new_tokens=512,
    temperature=0.3,  # M√°s bajo para respuestas m√©dicas precisas
    top_p=0.9,
    repetition_penalty=1.1,
    huggingfacehub_api_token=HF_TOKEN
)

# Test simple
test_response = llm.invoke("What is diabetes mellitus?")
print(f"‚úÖ BioMistral listo\n\nüìù Test: {test_response[:200]}...")

## 9Ô∏è‚É£ Prompt Template M√©dico

In [None]:
# Prompt especializado para an√°lisis cl√≠nico
medical_prompt_template = """You are a specialized medical assistant. You will analyze clinical information and provide evidence-based insights.

MEDICAL KNOWLEDGE (from guidelines):
{context}

CLINICAL QUESTION:
{question}

INSTRUCTIONS:
1. Base your answer ONLY on the provided medical knowledge
2. Provide differential diagnoses when relevant
3. Include management recommendations from guidelines
4. Highlight any contraindications or alerts
5. Cite specific guideline references

ANSWER:
"""

MEDICAL_PROMPT = PromptTemplate(
    template=medical_prompt_template,
    input_variables=["context", "question"]
)

print("‚úÖ Prompt template configurado")

## üîü Pipeline RAG Completo

In [None]:
print("‚è≥ Construyendo pipeline RAG...")

# Crear retriever
retriever = vector_db.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3}  # Top 3 documentos m√°s relevantes
)

# Crear chain RAG
rag_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    chain_type_kwargs={"prompt": MEDICAL_PROMPT},
    return_source_documents=True
)

print("‚úÖ Pipeline RAG listo")

## 1Ô∏è‚É£1Ô∏è‚É£ Funci√≥n Helper para Consultas M√©dicas

In [None]:
def medical_query(question, verbose=True):
    """
    Realiza una consulta m√©dica al sistema RAG.
    
    Args:
        question: Pregunta cl√≠nica
        verbose: Mostrar documentos recuperados
    
    Returns:
        Respuesta del LLM con referencias
    """
    print("\n" + "="*60)
    print("ü©∫ CONSULTA M√âDICA")
    print("="*60)
    print(f"\n‚ùì Pregunta: {question}\n")
    
    # Ejecutar RAG
    result = rag_chain.invoke({"query": question})
    
    # Mostrar documentos recuperados
    if verbose and 'source_documents' in result:
        print("üìö Conocimiento m√©dico recuperado:")
        for i, doc in enumerate(result['source_documents'], 1):
            print(f"\n[{i}] Fuente: {doc.metadata.get('source', 'N/A')}")
            print(f"Contenido: {doc.page_content[:200]}...\n")
    
    print("="*60)
    print("üíä RESPUESTA")
    print("="*60)
    print(result['result'])
    print("\n" + "="*60)
    
    return result

print("‚úÖ Funci√≥n helper definida")

## 1Ô∏è‚É£2Ô∏è‚É£ EJEMPLO 1: Consulta B√°sica

In [None]:
# Pregunta simple sobre diabetes
question1 = "What is the first-line treatment for type 2 diabetes?"

result1 = medical_query(question1)

## 1Ô∏è‚É£3Ô∏è‚É£ EJEMPLO 2: Caso Cl√≠nico Complejo

In [None]:
# Caso cl√≠nico: Paciente diab√©tico con disnea
clinical_case = """
A 65-year-old male patient with type 2 diabetes mellitus and hypertension 
presents with 3 days of dyspnea on exertion. 
Current medications: Losartan 50mg daily, Metformin 850mg daily.
What are the differential diagnoses and management considerations?
"""

result2 = medical_query(clinical_case)

## 1Ô∏è‚É£4Ô∏è‚É£ Integraci√≥n con NER (Opcional)

Si tienes el NER ejecutado del notebook anterior:

In [None]:
def enrich_query_with_ner(clinical_text, ner_results):
    """
    Enriquece una query con informaci√≥n del NER.
    
    Args:
        clinical_text: Texto cl√≠nico original
        ner_results: JSON output del notebook NER
    
    Returns:
        Query enriquecido con UMLS IDs y terminolog√≠a normalizada
    """
    enriched_query = f"Clinical case: {clinical_text}\n\n"
    
    # A√±adir enfermedades detectadas
    if 'ENFERMEDAD' in ner_results.get('entidades_por_categoria', {}):
        enriched_query += "Diagnosed conditions:\n"
        for disease in ner_results['entidades_por_categoria']['ENFERMEDAD']:
            nombre = disease.get('nombre_normalizado', disease.get('texto_original'))
            umls = disease.get('umls_id', '')
            enriched_query += f"- {nombre} (UMLS: {umls})\n"
    
    # A√±adir medicamentos
    if 'MEDICAMENTO' in ner_results.get('entidades_por_categoria', {}):
        enriched_query += "\nCurrent medications:\n"
        for med in ner_results['entidades_por_categoria']['MEDICAMENTO']:
            nombre = med.get('nombre_normalizado', med.get('texto_original'))
            enriched_query += f"- {nombre}\n"
    
    # A√±adir s√≠ntomas
    if 'SINTOMA' in ner_results.get('entidades_por_categoria', {}):
        enriched_query += "\nPresenting symptoms:\n"
        for symptom in ner_results['entidades_por_categoria']['SINTOMA']:
            nombre = symptom.get('nombre_normalizado', symptom.get('texto_original'))
            contexto = symptom.get('contexto', {})
            temp = contexto.get('temporalidad', '')
            enriched_query += f"- {nombre} ({temp})\n"
    
    return enriched_query

print("‚úÖ Funci√≥n de integraci√≥n NER definida")

## 1Ô∏è‚É£5Ô∏è‚É£ Ejemplo con NER Integration

In [None]:
# Simulaci√≥n de output NER (reemplazar con tu NER real)
ner_example = {
    "entidades_por_categoria": {
        "ENFERMEDAD": [
            {
                "texto_original": "Diabetes Mellitus tipo 2",
                "umls_id": "C0011860",
                "nombre_normalizado": "Diabetes Mellitus, Type 2"
            },
            {
                "texto_original": "Hipertensi√≥n arterial",
                "umls_id": "C0020538",
                "nombre_normalizado": "Hypertension"
            }
        ],
        "MEDICAMENTO": [
            {
                "texto_original": "Losart√°n",
                "nombre_normalizado": "Losartan"
            },
            {
                "texto_original": "Metformina",
                "nombre_normalizado": "Metformin"
            }
        ],
        "SINTOMA": [
            {
                "texto_original": "disnea",
                "nombre_normalizado": "Dyspnea",
                "contexto": {"temporalidad": "actual"}
            }
        ]
    }
}

# Historia cl√≠nica original
clinical_text = "Paciente de 65 a√±os con disnea de 3 d√≠as"

# Enriquecer query
enriched_query = enrich_query_with_ner(clinical_text, ner_example)

print("üìù Query enriquecido con NER:\n")
print(enriched_query)
print("\n" + "="*60)

# Consultar RAG con query enriquecido
result_ner = medical_query(f"{enriched_query}\n\nWhat is the most likely diagnosis and recommended management?")

## 1Ô∏è‚É£6Ô∏è‚É£ Guardar Vector Database (Para Reutilizar)

In [None]:
# Guardar vector DB
db_path = "medical_vector_db"
vector_db.save_local(db_path)
print(f"‚úÖ Vector database guardada en: {db_path}")

# Para cargar despu√©s:
# vector_db_loaded = FAISS.load_local(db_path, embeddings)

## üéØ Pr√≥ximos Pasos

### Mejoras Sugeridas:

1. **M√°s documentos m√©dicos:**
   - A√±adir m√°s gu√≠as cl√≠nicas a `medical_knowledge/`
   - Protocolos locales de tu instituci√≥n

2. **Filtrado por metadata:**
   - Especialidad m√©dica
   - UMLS IDs espec√≠ficos
   - A√±o de publicaci√≥n

3. **Backend alternativo (Ollama):**
   - Instalar: `ollama pull meditron:7b`
   - Usar para privacidad total (local)

4. **Fine-tuning:**
   - Ajustar BioMistral con casos cl√≠nicos locales
   - Mejorar respuestas espec√≠ficas a tu contexto

5. **UI con Streamlit:**
   - Interfaz web para uso interactivo
   - Integraci√≥n completa NER + RAG

---

## üìö Referencias

- **BioMistral:** https://huggingface.co/BioMistral/BioMistral-7B
- **PubMedBERT:** https://huggingface.co/microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract
- **Langchain:** https://python.langchain.com/
- **NER Notebook:** `3_ner_avanzado_entitylinker.ipynb`