In [2]:
!pip install transformers==4.30.2
import json
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
import numpy as np

# 1. Cargar Metadatos del Grafo (Tu diccionario)
print("üìÇ Cargando mapa de conocimientos (Metadata)...")
with open("itoe_metadata.json", "r") as f:
    metadata = json.load(f)

ent2id = metadata["ent2id"]
rel2id = metadata["rel2id"]
embedding_dim = metadata["dim"] # Corrected key from 'embedding_dim' to 'dim'

# Invertir diccionario para b√∫squedas futuras
id2ent = {v: k for k, v in ent2id.items()}

# 2. Configurar Modelo NER (PubMedBERT)
# Usamos el mismo que en la Fase 1 para consistencia
print("üß† Cargando PubMedBERT para entender s√≠ntomas...")
model_name = "d4data/biomedical-ner-all"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")

def extraer_nodos_consulta(texto_usuario):
    """
    Traduce lenguaje natural a IDs del Grafo de Conocimiento.
    """
    print(f"\nüîé Analizando consulta: '{texto_usuario}'")

    # A. Extracci√≥n de entidades crudas
    resultados = ner_pipeline(texto_usuario)
    entidades_detectadas = [res['word'] for res in resultados]

    # B. Normalizaci√≥n y Mapeo (Entity Linking simple)
    # Buscamos la coincidencia m√°s cercana en tu vocabulario ent2id
    nodos_validos = []

    for ent in entidades_detectadas:
        ent_lower = ent.lower().strip()

        # B√∫squeda exacta
        if ent_lower in ent2id:
            nodos_validos.append(ent2id[ent_lower])
            print(f"   ‚úÖ Entidad reconocida: '{ent_lower}' (ID: {ent2id[ent_lower]})")
        else:
            # B√∫squeda difusa simple (si contiene la palabra)
            found = False
            for db_ent, db_id in ent2id.items():
                if ent_lower in db_ent and len(ent_lower) > 3: # Evitar matches cortos
                    nodos_validos.append(db_id)
                    print(f"   ‚ö†Ô∏è '{ent_lower}' mapeado a concepto del KG: '{db_ent}' (ID: {db_id})")
                    found = True
                    break
            if not found:
                print(f"   ‚ùå Concepto ignorado (No existe en el KG): '{ent_lower}'")

    return list(set(nodos_validos)) # Retornar IDs √∫nicos

print("‚úÖ Sistema de Extracci√≥n listo.")

Collecting transformers==4.30.2
  Using cached transformers-4.30.2-py3-none-any.whl.metadata (113 kB)
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers==4.30.2)
  Using cached tokenizers-0.13.3.tar.gz (314 kB)
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Using cached transformers-4.30.2-py3-none-any.whl (7.2 MB)
Building wheels for collected packages: tokenizers
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m√ó[0m [32mBuilding wheel for tokenizers [0m[1;32m([0m[32mpyproject.toml[0m[1;32m)[0m did not run successfully.
  [31m‚îÇ[0m exit code: [1;36m1[0m
  [31m‚ï∞‚îÄ>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Building wheel for tokenizers (pyproject.toml) ... [?25l[?25herror
[31m  ERROR: Failed building wheel for tokenizers[0m[

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/373 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/266M [00:00<?, ?B/s]

Device set to use cuda:0


‚úÖ Sistema de Extracci√≥n listo.


In [3]:
import torch.nn as nn
import pandas as pd

# 1. Reconstruir Arquitectura It√¥E (Debe ser id√©ntica a la del entrenamiento)
class ItoE_Inference(nn.Module):
    def __init__(self, num_ent, num_rel, dim):
        super().__init__()
        self.ent_drift = nn.Embedding(num_ent, dim)
        self.ent_diff = nn.Embedding(num_ent, dim)
        self.rel_drift = nn.Embedding(num_rel, dim)
        self.rel_diff = nn.Embedding(num_rel, dim)

    def calcular_energia(self, h_idx, r_idx, t_idx):
        # Forward pass espec√≠fico para inferencia
        h_mu = self.ent_drift(h_idx)
        t_mu = self.ent_drift(t_idx)
        r_mu = self.rel_drift(r_idx)

        h_sig = torch.abs(self.ent_diff(h_idx))
        t_sig = torch.abs(self.ent_diff(t_idx))
        r_sig = torch.abs(self.rel_diff(r_idx))

        # Predicci√≥n: P(Sintoma) + Relaci√≥n -> P(Enfermedad)
        pred_mu = h_mu + r_mu
        pred_sig = h_sig + r_sig + 1e-6
        t_sig = t_sig + 1e-6

        # KL Divergence (Energ√≠a)
        trace = (pred_sig / t_sig).sum(dim=-1)
        diff = ((t_mu - pred_mu)**2 / t_sig).sum(dim=-1)
        log_det = (torch.log(t_sig) - torch.log(pred_sig)).sum(dim=-1)

        return 0.5 * (trace + diff + log_det)

# 2. Cargar Pesos Entrenados
print("‚öôÔ∏è Inicializando Motor It√¥E...")
num_ent = len(ent2id)
num_rel = len(rel2id)
dim = embedding_dim

motor_itoe = ItoE_Inference(num_ent, num_rel, dim)
try:
    motor_itoe.load_state_dict(torch.load("itoe_model.pth", map_location=torch.device('cpu')))
    motor_itoe.eval()
    print("‚úÖ Modelo It√¥E cargado en memoria.")
except Exception as e:
    print(f"‚ùå Error cargando modelo: {e}")

# 3. Funci√≥n de Ranking Diagn√≥stico
def realizar_diagnostico_diferencial(sintomas_ids, top_k=5):
    if not sintomas_ids:
        return []

    print("\nüßÆ Calculando probabilidades estoc√°sticas...")

    # Identificar relaci√≥n "related_to" o similar en tu KG
    # Si no sabes el nombre exacto, usamos el √≠ndice 0 o buscamos
    rel_key = "related_to" if "related_to" in rel2id else list(rel2id.keys())[0]
    r_id = rel2id[rel_key]

    # Preparar tensores
    todos_los_nodos = torch.arange(num_ent) # Candidatos (Enfermedades potenciales)
    r_tensor = torch.tensor([r_id] * num_ent)

    # Acumulador de energ√≠a para cada candidato
    # (Si tienes 3 s√≠ntomas, sumamos la energ√≠a de cada uno hacia la enfermedad candidata)
    energia_total = torch.zeros(num_ent)

    with torch.no_grad():
        for sintoma in sintomas_ids:
            h_tensor = torch.tensor([sintoma] * num_ent)
            # Calculamos E(Sintoma -> Enfermedad)
            energia = motor_itoe.calcular_energia(h_tensor, r_tensor, todos_los_nodos)
            energia_total += energia

    # Convertir Energ√≠a a Probabilidad (Softmax negativo)
    # Energ√≠a baja = Alta probabilidad
    probs = torch.softmax(-energia_total, dim=0)

    # Obtener Top K
    scores, indices = torch.topk(probs, k=top_k)

    diagnosticos = []
    for score, idx in zip(scores, indices):
        idx_val = idx.item()
        # Filtrar para que la enfermedad no sea uno de los s√≠ntomas de entrada
        if idx_val not in sintomas_ids:
            nombre = id2ent[idx_val]
            probabilidad = score.item()
            diagnosticos.append({"enfermedad": nombre, "probabilidad": probabilidad, "energia": energia_total[idx_val].item()})

    return diagnosticos

‚öôÔ∏è Inicializando Motor It√¥E...
‚úÖ Modelo It√¥E cargado en memoria.


In [5]:
# --- 3. REPORTE Y CONSULTA INTERACTIVA ---

def generar_reporte_medico(diagnosticos, umbral_confianza=0.05):
    print("\n" + "="*50)
    print("üìã REPORTE DE DIAGN√ìSTICO DIFERENCIAL (SISTEMA IT√îE)")
    print("="*50)

    if not diagnosticos:
        print("‚ö†Ô∏è  No se pudo generar un diagn√≥stico. Los s√≠ntomas no coinciden suficientemente con la base de conocimiento.")
        return

    # 1. Verificar convergencia / Criterio de confianza
    mejor_candidato = diagnosticos[0]
    confianza_lider = mejor_candidato['probabilidad']

    # Si la probabilidad es muy baja, el modelo est√° "adivinando" (alta entrop√≠a/difusi√≥n)
    es_convincente = confianza_lider > umbral_confianza

    # 2. Generaci√≥n del Texto (Simulaci√≥n de NLP estructurado)
    if es_convincente:
        print(f"\n‚úÖ AN√ÅLISIS: El perfil sintom√°tico converge hacia una patolog√≠a principal.\n")
        print(f"   DIAGN√ìSTICO PRINCIPAL: {mejor_candidato['enfermedad'].upper()}")
        print(f"   Confianza del Modelo:  {confianza_lider:.2%}")
        print(f"   Nivel de Energ√≠a:      {mejor_candidato['energia']:.4f} (Menor es mejor)\n")

        print("-" * 30)
        print("   Diagn√≥sticos Diferenciales (Otras posibilidades):")
        for d in diagnosticos[1:]:
            print(f"   ‚Ä¢ {d['enfermedad']:<30} | Probabilidad: {d['probabilidad']:.2%}")
    else:
        print(f"\n‚ö†Ô∏è  INCERTIDUMBRE ALTA: El diagn√≥stico no es concluyente.\n")
        print(f"   Motivo: El candidato principal ({mejor_candidato['enfermedad']}) solo alcanza un {confianza_lider:.2%} de probabilidad.")
        print("   Esto sugiere s√≠ntomas inespec√≠ficos o una patolog√≠a fuera del Grafo de Conocimiento actual.")
        print("\n   Posibilidades d√©biles detectadas (Revisar con cautela):")
        for d in diagnosticos:
            print(f"   ‚Ä¢ {d['enfermedad']:<30} ({d['probabilidad']:.2%})")

    print("\n" + "="*50)
    print("NOTA: Este es un sistema experimental basado en grafos probabil√≠sticos. Consulte a un m√©dico.")

# --- EJECUCI√ìN INTERACTIVA ---

print("\n" + "üè•"*30)
print("      SISTEMA DE INTERCONSULTA M√âDICA - It√¥E Engine")
print("üè•"*30 + "\n")
print("‚ÑπÔ∏è  INSTRUCCIONES: Ingrese el cuadro cl√≠nico del paciente.")
print("    (El modelo fue entrenado con MIMIC/PubMed, por lo que funciona mejor en INGL√âS).")
print("    Ejemplo: 'Patient presents high fever, severe cough and chest pain'\n")

# Solicitud de entrada al usuario
consulta_paciente = input("üìù Ingrese los s√≠ntomas aqu√≠: ")

# Validaci√≥n b√°sica
if not consulta_paciente or len(consulta_paciente.strip()) < 3:
    print("\n‚ö†Ô∏è Entrada vac√≠a o muy corta. Usando caso de prueba predeterminado...")
    consulta_paciente = "Patient presents high fever and severe cough"

# 2. Paso A: Extracci√≥n de Nodos (NER)
ids_sintomas = extraer_nodos_consulta(consulta_paciente)

if ids_sintomas:
    # 3. Paso B: Inferencia Estoc√°stica (C√°lculo de Energ√≠a)
    # top_k=5 nos da las 5 enfermedades con menor energ√≠a (mayor probabilidad)
    ranking = realizar_diagnostico_diferencial(ids_sintomas, top_k=5)

    # 4. Paso C: Reporte NLP
    generar_reporte_medico(ranking)
else:
    print("\n‚ùå ERROR: No se detectaron entidades m√©dicas conocidas en la consulta.")
    print("   Intente reformular usando t√©rminos m√©dicos est√°ndar (ej. 'pyrexia' en vez de 'hot').")


üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•
      SISTEMA DE INTERCONSULTA M√âDICA - It√¥E Engine
üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•üè•

‚ÑπÔ∏è  INSTRUCCIONES: Ingrese el cuadro cl√≠nico del paciente.
    (El modelo fue entrenado con MIMIC/PubMed, por lo que funciona mejor en INGL√âS).
    Ejemplo: 'Patient presents high fever, severe cough and chest pain'

üìù Ingrese los s√≠ntomas aqu√≠: the patient has chest pain and half of his face is paralyzed

üîé Analizando consulta: 'the patient has chest pain and half of his face is paralyzed'
   ‚ùå Concepto ignorado (No existe en el KG): 'chest'
   ‚ö†Ô∏è 'pain' mapeado a concepto del KG: 'Abdominal pain  unspecified site' (ID: 361)
   ‚ùå Concepto ignorado (No existe en el KG): 'half'
   ‚ö†Ô∏è 'face' mapeado a concepto del KG: 'Open wound of other and multiple sites of face  wit