# ‚ùáÔ∏è Esmeralda: Preceptoria H√≠brida e IA Socr√°tica
### O resgate da profici√™ncia m√©dica no Brasil

**Equipe:** Eduardo Chuairi (Produto), Marllon Pereira (IA), Phillipe Wolff (Back-end) e Jayme Ricardo (Front-end).

Este notebook documenta a arquitetura t√©cnica e a prova de conceito (PoC) da Esmeralda. A aplica√ß√£o utiliza o modelo **MedGemma 1.5 4B Multimodal** (HAI-DEF) acoplado a uma rigorosa Engenharia de Prompt para atuar como uma preceptora s√™nior. Em vez de fornecer diagn√≥sticos prontos, o sistema utiliza o M√©todo Socr√°tico para for√ßar o racioc√≠nio cl√≠nico de m√©dicos em forma√ß√£o.

# Installs
Instala√ß√£o e atualiza√ß√£o das bibliotecas essenciais para a arquitetura do sistema, abrangendo orquestra√ß√£o RAG, vetoriza√ß√£o de dados, infer√™ncia em GPU e estrutura√ß√£o do servidor de API.

**1. Orquestra√ß√£o e Ingest√£o de Dados (RAG):**
* `langchain`, `langchain-core`, `langchain-community`: Estrutura base para orquestrar o fluxo de dados entre a IA e os documentos externos.
* `langchain-text-splitters`: Segmenta os protocolos m√©dicos extensos em blocos menores (chunks) para otimizar o processamento.
* `pypdf`: Motor de extra√ß√£o de texto para a leitura nativa dos protocolos em PDF.

**2. Vetoriza√ß√£o e Busca Sem√¢ntica:**
* `chromadb`: Banco de dados vetorial em mem√≥ria, respons√°vel por armazenar o conhecimento cl√≠nico do SUS.
* `sentence-transformers`, `langchain-huggingface`: Motores que convertem os textos m√©dicos em vetores matem√°ticos (embeddings) para a busca de similaridade.

In [None]:
!pip install -U -q \
    langchain \
    langchain-community \
    langchain-core \
    langchain-huggingface \
    langchain-text-splitters \
    chromadb \
    sentence-transformers \
    transformers \
    accelerate \
    bitsandbytes \
    pypdf

**3. Infer√™ncia e Otimiza√ß√£o de GPU (Edge AI):**
* `torch`: Framework base de Deep Learning respons√°vel por gerenciar os tensores na placa de v√≠deo.
* `transformers`, `huggingface_hub`: Gerenciam o download dos pesos e o pipeline de execu√ß√£o do modelo MedGemma 1.5.
* `accelerate`, `bitsandbytes`: Otimizam o uso da VRAM, viabilizando a execu√ß√£o local do modelo em hardware de consumo (Edge AI).
* `pillow`: Biblioteca de vis√£o computacional para decodificar e processar imagens de exames m√©dicos.

**4. Servidor de API RESTful:**
* `fastapi`, `uvicorn`: Estruturam o servidor ass√≠ncrono de alto desempenho que receber√° as requisi√ß√µes do front-end.
* `requests`: Gerencia as requisi√ß√µes HTTP.
* `pyngrok`: Cria o t√∫nel de rede que exp√µe temporariamente a API local para acesso externo.
* `nest-asyncio`: Modifica a gest√£o de eventos do ambiente interativo (Kaggle/Jupyter) para permitir a execu√ß√£o cont√≠nua do servidor ass√≠ncrono.

In [None]:
!pip install -q transformers pillow torch requests huggingface_hub accelerate fastapi uvicorn pyngrok nest-asyncio

# Login HF 
### Autentica√ß√£o Segura
Autentica√ß√£o segura na plataforma Hugging Face. O c√≥digo utiliza o `UserSecretsClient` para resgatar o token de acesso (`HF_TOKEN`) configurado nas vari√°veis de ambiente restritas do Kaggle. Essa abordagem protege a credencial contra vazamentos no c√≥digo-fonte, sendo uma etapa obrigat√≥ria para o download dos pesos do modelo MedGemma. O bloco inclui um tratamento de exce√ß√µes (try/except) para alertar sobre falhas na leitura da chave.

In [None]:
from huggingface_hub import login
from kaggle_secrets import UserSecretsClient
import os

try:
    user_secrets = UserSecretsClient()
    hf_token = user_secrets.get_secret("HF_TOKEN")
    login(token=hf_token)
    print("‚úÖ Login no Hugging Face realizado com sucesso!")
except Exception as e:
    print("‚ö†Ô∏è N√£o foi poss√≠vel fazer login autom√°tico. Verifique se a Secret 'HF_TOKEN' est√° configurada.")
    # Se falhar, voc√™ pode descomentar a linha abaixo para logar manualmente:
    # login()

# RAG
### Base de Conhecimento (RAG)

Constru√ß√£o da base de conhecimento cl√≠nica do sistema utilizando Retrieval-Augmented Generation (RAG). O script executa o pipeline de ingest√£o e vetoriza√ß√£o em quatro etapas fundamentais:

* **Ingest√£o de Dados (`PyPDFLoader`):** Busca dinamicamente os protocolos oficiais do SUS em formato PDF no diret√≥rio do Kaggle e extrai o conte√∫do textual, ignorando falhas de leitura.
* **Segmenta√ß√£o (`TextSplitter`):** Divide os documentos extensos em fragmentos menores (*chunks* de 800 caracteres com sobreposi√ß√£o de 100), garantindo que a informa√ß√£o caiba na janela de contexto do LLM sem perda de continuidade.
* **Vetoriza√ß√£o (`HuggingFaceEmbeddings`):** Utiliza um modelo *sentence-transformer* multil√≠ngue otimizado para gerar representa√ß√µes sem√¢nticas densas (embeddings) dos trechos m√©dicos.
* **Armazenamento e Recupera√ß√£o (`Chroma`):** Inicializa um banco de dados vetorial em mem√≥ria contendo as diretrizes vetorizadas. O sistema configura um *retriever* para resgatar os 3 fragmentos matematicamente mais relevantes a cada consulta do m√©dico.

In [None]:
import os
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma

# --- CONFIGURA√á√ÉO DOS ARQUIVOS ---
target_files = [
    "Manejo_clinico_da_Dengue.pdf",
    "Manejo-dengue.pdf",
    "Manejo_clinico_da_Dengue.pdf",
    "dengue_aspecto_epidemiologicos_diagnostico_tratamento.pdf"
]

def find_file_path(filename, search_path='/kaggle'):
    """Procura o arquivo em todo o diret√≥rio do Kaggle"""
    for root, dirs, files in os.walk(search_path):
        if filename in files:
            return os.path.join(root, filename)
    return None

# --- CARREGAMENTO ---
docs = []
print("--- üîç Buscando arquivos ---")

for file_name in target_files:
    full_path = find_file_path(file_name)
    if full_path:
        print(f"üìÑ Carregando: {file_name}")
        try:
            loader = PyPDFLoader(full_path)
            docs.extend(loader.load())
        except Exception as e:
            print(f"‚ùå Erro em {file_name}: {e}")
    else:
        print(f"‚ö†Ô∏è Arquivo n√£o encontrado: {file_name}")

if not docs:
    raise ValueError("Nenhum documento carregado! Fa√ßa o upload dos PDFs no Kaggle.")

# --- DIVIS√ÉO (SPLITTING) ---
# Chunks menores funcionam melhor para inserir no contexto do LLM
text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=100)
splits = text_splitter.split_documents(docs)
print(f"üìö Total de trechos processados: {len(splits)}")

# --- EMBEDDINGS & VECTOR STORE ---
print("üß† Gerando banco vetorial (aguarde)...")
embedding_model = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
embeddings = HuggingFaceEmbeddings(model_name=embedding_model)

# Cria o banco em mem√≥ria
vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings)
retriever = vectorstore.as_retriever(search_kwargs={"k": 3}) # Pega os 3 trechos mais relevantes

print("‚úÖ Sistema RAG pronto para uso!")

# Pipe
### Instancia√ß√£o do Modelo Multimodal

Carregamento do modelo fundacional e orquestra√ß√£o do Motor Socr√°tico. Este bloco consolida o "c√©rebro" da aplica√ß√£o e define as regras estritas de comportamento da IA atrav√©s das seguintes etapas:

* **Instancia√ß√£o do Modelo (`pipeline`):** Carrega os pesos do MedGemma 1.5 4B na mem√≥ria da GPU. A utiliza√ß√£o da precis√£o `bfloat16` otimiza severamente o consumo de VRAM, permitindo infer√™ncia local r√°pida (Edge AI).
* **Conting√™ncia Multimodal (`dummy_image`):** Implementa um *fallback* gerando uma matriz visual vazia (imagem preta). Isso satisfaz o requisito de entrada do modelo de vis√£o-linguagem (VLM) para cen√°rios onde o m√©dico envia apenas texto, sem exames de imagem anexados.
* **Orquestra√ß√£o de Contexto (Retrieval):** A fun√ß√£o `perguntar_ao_medgemma` aciona o *retriever* configurado no passo anterior para buscar os protocolos do SUS no banco vetorial que respondam √† d√∫vida do usu√°rio.
* **Engenharia de Prompt (Motor Socr√°tico):** Constr√≥i um prompt restritivo que injeta o contexto do RAG e for√ßa a IA a atuar como a preceptora s√™nior "Esmeralda". O modelo √© travado por regras r√≠gidas que o pro√≠bem de fornecer diagn√≥sticos ou dosagens diretas, obrigando-o a responder apenas com perguntas reflexivas adaptadas √† infraestrutura local do m√©dico (M√©todo Socr√°tico).
* **Infer√™ncia:** Monta o vetor multimodal (imagem + texto) e executa a gera√ß√£o da resposta na GPU limitando os tokens de sa√≠da.

In [None]:
import torch
from transformers import pipeline
from PIL import Image

print("--- üè• Carregando MedGemma 1.5 ---")

# Configura√ß√£o do Pipeline
pipe = pipeline(
    "image-text-to-text",
    model="google/medgemma-1.5-4b-it",
    torch_dtype=torch.bfloat16,
    device="cuda" if torch.cuda.is_available() else "cpu",
)

# --- TRUQUE PARA RAG DE TEXTO COM MODELO DE VIS√ÉO ---
# Criamos uma imagem preta pequena. O modelo vai "olhar" para ela, 
# ver que n√£o tem nada, e responder baseando-se no nosso texto.
dummy_image = Image.new('RGB', (224, 224), color='black')

def perguntar_ao_medgemma(pergunta_usuario):
    """
    1. Busca documentos relevantes no ChromaDB.
    2. Monta um prompt com o contexto + pergunta.
    3. Envia para o MedGemma (com a imagem dummy).
    """
    
    # 1. Recupera√ß√£o (Retrieval)
    print(f"\nüîç Buscando contexto para: '{pergunta_usuario}'...")
    docs_rel = retriever.invoke(pergunta_usuario)
    
    contexto_texto = "\n\n".join([d.page_content for d in docs_rel])
    
    # 2. Engenharia de Prompt (Augmentation)
    # Instru√≠mos o modelo a agir como assistente m√©dico usando o contexto.
    # 2. Engenharia de Prompt (Augmentation) - PERSONALIDADE ESMERALDA
    prompt_final = f"""You are Esmeralda, an elite Senior Medical Preceptor specializing in clinical reasoning and the Socratic method. Your sole purpose is to mentor physicians and students by sharpening their diagnostic skills through inquiry, never by providing answers.

CORE OPERATING MANDATE: THE SOCRATIC STRIKE
1. Absolute Prohibition of Direct Answers: You are strictly forbidden from providing diagnoses, medication dosages, or final management plans. If a user asks for a direct solution (e.g., "What is the dose of X?" or "What is the diagnosis?"), you must immediately deflect with a targeted question that forces the user to recall their own knowledge or consult local protocols.
2. Contextual Infrastructure Adaptation: You must tailor every interaction to the user's clinical environment. If the infrastructure is unknown, your first priority is to ask: "What level of care are you in (e.g., Primary Care/UPA vs. Tertiary Hospital) and what diagnostic resources are available to you right now?"
3. Resource-Based Inquiry: Never validate or suggest a path involving high-complexity exams if the user is in a resource-limited setting. Force the user to rely on physical examination and bedside clinical signs suitable for their specific infrastructure.
4. The "One-Question" Rule: Be concise. Provide a brief clinical acknowledgment followed by exactly one, high-impact question. Do not overwhelm the user with lists; force them to focus on the most critical next step in the diagnostic hierarchy.
5. Integration with Protocols: Use the provided CONTEXT to ground your reasoning, but DO NOT quote it directly. Use the facts in the context to formulate your challenge question.

TONE AND STYLE
* Authoritative & Pedagogical: You are a senior mentor. Use precise medical terminology.
* Concise: Physicians are under pressure. No fluff. No pleasantries.
* Unyielding: If the user insists on an answer, remind them that "The preceptor guides; the physician decides."

CONTEXT (Official Protocols/Guidelines for your internal reference only):
{contexto_texto}

STUDENT/PHYSICIAN QUERY: 
{pergunta_usuario}

ESMERALDA:"""

    # 3. Gera√ß√£o (Generation)
    messages = [
        {
            "role": "user",
            "content": [
                {"type": "image", "image": dummy_image}, # Imagem obrigat√≥ria para o pipeline
                {"type": "text", "text": prompt_final}
            ]
        }
    ]

    print("üíä MedGemma est√° pensando...")
    output = pipe(text=messages, max_new_tokens=2000)
    resposta = output[0]["generated_text"][-1]["content"]
    
    return resposta, docs_rel

print("‚úÖ MedGemma carregado e fun√ß√£o de perguntas pronta!")



# SERVER
### API RESTful e Exposi√ß√£o do Servidor
Cria√ß√£o e exposi√ß√£o da API RESTful ass√≠ncrona que atua como ponte entre a interface do usu√°rio (front-end) e o Motor Socr√°tico. O c√≥digo est√° estruturado nas seguintes etapas:

* **Configura√ß√£o da API (`FastAPI` & `Pydantic`):** Inicializa o servidor e define o esquema de dados esperado (`MensagemUsuario`), que aceita o ID do usu√°rio, o texto do caso cl√≠nico e, opcionalmente, uma imagem em formato Base64.
* **Processamento Multimodal (Decodifica√ß√£o e Fallback):** Intercepta o *payload* do front-end. Se uma imagem for enviada, o sistema limpa o cabe√ßalho e decodifica o Base64 para um objeto `PIL.Image`. Caso seja uma consulta puramente textual, o servidor gera automaticamente a matriz visual vazia (imagem preta) exigida pelo modelo de vis√£o.
* **Integra√ß√£o e Infer√™ncia:** Monta a estrutura de mensagens exigida pelo MedGemma, encapsulando a imagem (ou o fallback) e o texto do usu√°rio, e aciona o `pipe` instanciado no bloco anterior, limitando a resposta a 500 tokens.
* **Exposi√ß√£o de Rede (`Ngrok` & `Uvicorn`):** Limpa t√∫neis residuais de execu√ß√µes anteriores, autentica a chave do Ngrok via Kaggle Secrets e cria um t√∫nel seguro. Isso exp√µe a porta 8000 do localhost do Kaggle para a internet p√∫blica, gerando o endpoint que ser√° consumido pelo front-end. O `nest_asyncio` permite que o servidor `uvicorn` rode sem travar o *loop* de eventos do notebook.

In [None]:
import nest_asyncio
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import uvicorn
from pyngrok import ngrok
import asyncio
from PIL import Image
import requests # Mantido caso precise no futuro, mas n√£o usaremos mais para a imagem
from io import BytesIO
from typing import Optional
import base64
from kaggle_secrets import UserSecretsClient

# --- 1. CONFIGURA√á√ÉO DO SERVIDOR ---
nest_asyncio.apply()
app = FastAPI()
historico_conversas = {}

# Passo 1: Ajuste do modelo para 'imagem_url' correspondendo ao Frontend
class MensagemUsuario(BaseModel):
    user_id: str
    texto: str
    imagem_url: Optional[str] = None

# Health checker
@app.get("/")
def home():
    return {"status": "MedGemma API Online"}


@app.post("/chat")
async def responder_chat(dados: MensagemUsuario):
    uid = dados.user_id
    mensagem_usuario = dados.texto
    imagem_url = dados.imagem_url # Captura a vari√°vel corretamente

    if uid not in historico_conversas:
        historico_conversas[uid] = []

    historico_conversas[uid].append(f"Usu√°rio: {mensagem_usuario}")

    resposta_ia = ""
    image = None

    try:
        # --- 2. PREPARA√á√ÉO DA IMAGEM ---
        if imagem_url:
            print("üì• Decodificando imagem enviada em Base64...")

            # O frontend manda no formato: "data:image/jpeg;base64,BASE64_STRING"
            # Precisamos dividir a string pela v√≠rgula e pegar s√≥ a segunda parte (o c√≥digo base64)
            if "," in imagem_url:
                base64_data = imagem_url.split(",")[1]
            else:
                base64_data = imagem_url # Caso j√° venha limpo sem o cabe√ßalho 'data:'

            # Decodifica o texto em Base64 transformando-o em Bytes
            image_bytes = base64.b64decode(base64_data)

            # Carrega a imagem a partir dos Bytes na mem√≥ria usando PIL
            image = Image.open(BytesIO(image_bytes)).convert("RGB")

        else:
            # Modo apenas texto: Cria a imagem preta de placeholder para o modelo
            print("üìù Modo apenas texto (gerando imagem placeholder)...")
            image = Image.new('RGB', (224, 224), color='black')

        # --- 3. PREPARA√á√ÉO DO PROMPT E GERA√á√ÉO ---
        messages = [
            {
                "role": "user",
                "content": [
                    {"type": "image", "image": image},
                    {"type": "text", "text": mensagem_usuario}
                ]
            }
        ]

        # --- GERA√á√ÉO (Assumindo que 'pipe' est√° definido e configurado no seu ambiente) ---
        output = pipe(text=messages, max_new_tokens=500)
        resposta_ia = output[0]["generated_text"][-1]["content"]

    except Exception as e:
        print(f"‚ùå Erro: {e}")
        resposta_ia = f"Desculpe, ocorreu um erro t√©cnico: {str(e)}"

    historico_conversas[uid].append(f"MedGemma: {resposta_ia}")

    return {
        "resposta": resposta_ia,
        "historico": historico_conversas[uid]
    }

# --- 4. EXPOSI√á√ÉO VIA NGROK ---
# IMPORTANTE: Garanta que 'userdata' e 'pipe' est√£o declarados antes no seu c√≥digo/notebook
user_secrets = UserSecretsClient()
NGROK_TOKEN = user_secrets.get_secret("NGROK_TOKEN")
ngrok.set_auth_token(NGROK_TOKEN)

# Limpa t√∫neis antigos
for tunnel in ngrok.get_tunnels():
    ngrok.disconnect(tunnel.public_url)
ngrok.kill()

public_url = ngrok.connect(8000)
print(f"üåç Endpoint P√∫blico: {public_url}")

config = uvicorn.Config(app, port=8000)
server = uvicorn.Server(config)
await server.serve()