<a href="https://colab.research.google.com/github/Drmcoelho/APILLMML/blob/main/multimodal_pipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üöÄ Etapa 0: Estrutura e Roadmap Interativo

> **Vis√£o Geral:**  
> Nesta etapa inicial, definimos de forma detalhada toda a organiza√ß√£o das etapas subsequentes. Use o sum√°rio clic√°vel para navegar e prepare-se para uma jornada de desenvolvimento multimodal robusta.

---

<details>
<summary><strong>üìë Sum√°rio Interativo</strong></summary>

1. [Etapa 1: Montagem de Ambiente & Seguran√ßa](#etapa-1-montagem-de-ambiente--seguranca)  
2. [Etapa 2: Sele√ß√£o e Ingest√£o de PDFs](#etapa-2-selecao-e-ingestao-de-pdfs)  
3. [Etapa 3: Extra√ß√£o Avan√ßada de Texto](#etapa-3-extracao-avancada-de-texto)  
4. [Etapa 4: An√°lise Explorat√≥ria Cl√≠nica](#etapa-4-analise-exploratoria-clinica)  
5. [Etapa 5: Pr√©-processamento & Tokeniza√ß√£o](#etapa-5-pre-processamento--tokenizacao)  
6. [Etapa 6: Constru√ß√£o de Dados Multimodal](#etapa-6-construcao-de-dados-multimodal)  
7. [Etapa 7: Modelos Candidatos & Hyperparams](#etapa-7-modelos-candidatos--hyperparams)  
8. [Etapa 8: Treinamento Avan√ßado](#etapa-8-treinamento-avancado)  
9. [Etapa 9: Avalia√ß√£o Cl√≠nica Especializada](#etapa-9-avaliacao-clinica-especializada)  
10. [Etapa 10: Exporta√ß√£o do Modelo √ìtimo](#etapa-10-exportacao-do-modelo-otimo)  
11. [Etapa 11: Deploy & Cloud-Burst](#etapa-11-deploy--cloud-burst)  
12. [Etapa 12: Monitoramento & Atualiza√ß√£o](#etapa-12-monitoramento--atualizacao)  
</details>

---

## üìã Roadmap em 3 N√≠veis

| Fase           | Objetivo Principal                                          | Dura√ß√£o       |
|:--------------:|:------------------------------------------------------------|:-------------:|
| **B√°sico**     | PDF ‚Üí Texto ‚Üí Fine-tune inicial                             | 1‚Äì2 dias      |
| **Intermedi√°rio**| Imagens & √Åudio ‚Üí Fusion multimodal                       | 2 semanas     |
| **Avan√ßado**   | Seguran√ßa, Compliance, Deploy, Monitoramento                | 1 semana      |

---

## üîß Cheatsheet R√°pida

| Componente                | Comando/Refer√™ncia                            | Notas R√°pidas                                           |
|:-------------------------:|:-----------------------------------------------|:--------------------------------------------------------|
| Montar Drive              | `drive.mount('/content/drive')`                | Use `force_remount=True` para atualizar montagem        |
| Extra√ß√£o (PyMuPDF)        | `fitz.open(...).get_text("text")`              | Mais r√°pido que pdfminer                                |
| Tokeniza√ß√£o (Clinical)    | `AutoTokenizer.from_pretrained(...)`           | Modelos Bio_ClinicalBERT, etc.                          |
| Mixed Precision           | `TrainingArguments(fp16=True, bf16=True)`      | Habilitar BF16 em Colab Pro                             |
| DVC Data/Model Versioning | `dvc run -n step ...`                          | Reprodutibilidade completa                              |
| PHI Detection             | `spaCy EntityRuler` + regex                    | Redirecionar logs para `/mnt/data/logs`                 |


# üåü Introdu√ß√£o Mega Robusta

Este notebook guia voc√™ em um **pipeline multimodal** de aprendizado profundo para **medicina**, desde a ingest√£o de PDFs at√© o **deploy** de um modelo cl√≠nico, com:

- **Cheatsheets** e **dicas de mestre** para acelerar o desenvolvimento.
- **Tabelas de refer√™ncia** para consulta imediata.
- **Widgets interativos** e **visualiza√ß√µes avan√ßadas**.
- **Seguran√ßa** e **compliance** (HIPAA/GDPR) embutidos.
- **Estrat√©gia de cache** para reutiliza√ß√£o de dados entre sess√µes.

Prepare-se para uma experi√™ncia de codifica√ß√£o **robusta**, **inovadora** e **produtiva**!


## Etapa 1: Montagem de Ambiente & Seguran√ßa

Nesta etapa, configuramos o ambiente **Google Colab Pro**, instalamos depend√™ncias com cache, configuramos `accelerate`, gerenciamos segredos via vari√°veis de ambiente nativas do Colab com fallback interativo, fazemos login no **Weights & Biases** automaticamente e criamos diret√≥rios de cache.


In [None]:
import os, json
import torch
from google.colab import drive
import wandb
from getpass import getpass
from IPython.display import display, HTML

# --- Parte de Configura√ß√£o de Ambiente ---

# 1. Verificar GPU & Mem√≥ria
print("‚è≥ Verificando recursos de hardware...")
if 'COLAB_GPU' not in os.environ or not torch.cuda.is_available():
    raise EnvironmentError("Por favor, selecione Runtime > Change runtime type > GPU e High-RAM.")
print(f"‚úÖ GPU: {torch.cuda.get_device_name(0)}, Mem√≥ria Aproximada: ~25GB")

# 2. Montar Google Drive
print("‚è≥ Montando Google Drive...")
try:
    # Tenta montar sem for√ßar a remontagem primeiro
    drive.mount('/content/drive', force_remount=False)
    print("‚úÖ Google Drive montado ou j√° conectado.")
except Exception as e:
    print(f"‚ö†Ô∏è Falha na montagem inicial ({e}). Tentando for√ßar remontagem...")
    try:
        # Se falhar, tenta for√ßar a remontagem
        drive.mount('/content/drive', force_remount=True)
        print("‚úÖ Google Drive remontado com sucesso.")
    except Exception as e_force:
        # Se a remontagem for√ßada tamb√©m falhar, exibe um erro cr√≠tico
        print(f"‚ùå Falha cr√≠tica ao montar Google Drive: {e_force}")
        raise RuntimeError("Falha na montagem do Google Drive. A execu√ß√£o n√£o pode continuar.")

# Definindo o caminho base para os dados no Drive
DATA_ROOT = '/content/drive/MyDrive/med-llm/data'
# Definindo o subdiret√≥rio para PDFs raw
PDF_ROOT = f"{DATA_ROOT}/raw/pdfs"
# Cria o diret√≥rio base de dados se ele n√£o existir
os.makedirs(DATA_ROOT, exist_ok=True)
print("üìÇ Caminho raiz dos dados (DATA_ROOT):", DATA_ROOT)

# 3. Criar Diret√≥rios de Cache
# Criando diret√≥rios para armazenar dados intermedi√°rios e modelos.
# Utilizar /content para cache local pode ser mais r√°pido que no Drive para arquivos tempor√°rios,
# mas pode n√£o persistir entre sess√µes se a inst√¢ncia do Colab for reciclada.
# Os diret√≥rios em /mnt/data s√£o frequentemente usados por bibliotecas como accelerate.
dirs_to_create = ['/content/data/pdf_texts', '/content/data/datasets', '/content/data/models']
# Garante que o diret√≥rio pai /content/data existe antes de criar os subdiret√≥rios
os.makedirs('/content/data', exist_ok=True)
for d in dirs_to_create:
    os.makedirs(d, exist_ok=True)
print("‚úÖ Diret√≥rios de cache locais criados/verificados:", dirs_to_create)
# Nota: Se voc√™ precisa persist√™ncia do cache entre sess√µes, considere usar o Drive.

# --- Parte de Gerenciamento de Segredos ---

# Caminho para o arquivo JSON que armazenar√° os segredos no Google Drive
SECRETS_PATH = '/content/drive/MyDrive/secrets.json'

def load_secrets(path):
    """Carrega segredos de um arquivo JSON."""
    try:
        with open(path, 'r') as f:
            return json.load(f)
    except (FileNotFoundError, json.JSONDecodeError):
        # Retorna um dicion√°rio vazio se o arquivo n√£o existir ou for inv√°lido
        return {}

def save_secrets(secrets, path):
    """Salva segredos em um arquivo JSON com permiss√µes restritas."""
    # Abre o arquivo com permiss√µes de leitura/escrita apenas para o propriet√°rio (0o600)
    # O_WRONLY: Abre para escrita apenas
    # O_CREAT: Cria o arquivo se n√£o existir
    # O_TRUNC: Trunca o arquivo para comprimento zero se ele existir
    # 0o600: Permiss√µes octais (rw-------)
    fd = os.open(path, os.O_WRONLY | os.O_CREAT | os.O_TRUNC, 0o600)
    with os.fdopen(fd, 'w') as f:
        json.dump(secrets, f, indent=4) # Use indent para formata√ß√£o leg√≠vel

# Carrega os segredos existentes do arquivo no Drive
secrets = load_secrets(SECRETS_PATH)
required_keys = ['HF_TOKEN', 'WANDB_API_KEY', 'UMLS_API_KEY']

# Solicita as chaves ausentes ou vazias interativamente
print("üîë Verificando e configurando segredos...")
for key in required_keys:
    # Verifica se a chave n√£o existe ou se o valor √© vazio
    if not secrets.get(key):
        print(f"ü§î O segredo '{key}' n√£o foi encontrado ou est√° vazio no arquivo {SECRETS_PATH}.")
        # Solicita a chave usando getpass para entrada segura (n√£o exibe o texto digitado)
        secrets[key] = getpass(f'üëâ Digite o valor para "{key}": ').strip()

# Salva os segredos atualizados de volta no arquivo JSON no Drive
save_secrets(secrets, SECRETS_PATH)
print(f"‚úÖ Segredos salvos/atualizados em {SECRETS_PATH}.")

# Define as vari√°veis de ambiente com os segredos carregados/solicitados
for key, value in secrets.items():
    os.environ[key] = value
print("‚úÖ Vari√°veis de ambiente para segredos configuradas.")

# --- Parte de Autentica√ß√£o e Configura√ß√£o de Ferramentas ---

# 4. Login Weights & Biases (Agora que WANDB_API_KEY deve estar no ambiente)
# Tenta autenticar com a chave W&B carregada/solicitada
wandb_api_key = os.environ.get('WANDB_API_KEY')
if wandb_api_key and len(wandb_api_key) >= 40: # Verifica se a chave parece v√°lida (W&B API keys geralmente t√™m 40 caracteres, mas a valida√ß√£o completa √© feita pelo wandb.login)
    try:
        print("‚è≥ Tentando autenticar no Weights & Biases...")
        wandb.login(key=wandb_api_key, relogin=True) # relogin=True pode ajudar em alguns ambientes
        print("‚úÖ Weights & Biases autenticado com sucesso.")
    except Exception as e:
        print(f"‚ùå Falha ao autenticar Weights & Biases com a chave fornecida: {e}")
        print("‚ö†Ô∏è Verifique sua WANDB_API_KEY.")
else:
    print("‚ö†Ô∏è WANDB_API_KEY n√£o encontrado ou inv√°lido. Pulando autentica√ß√£o W&B.")


# 5. Instalar Depend√™ncias com Cache
print("üì¶ Instalando depend√™ncias...")
# Lista de bibliotecas essenciais
dependencies = "pymupdf transformers datasets accelerate bitsandbytes wandb"
# Instala as depend√™ncias, usando um diret√≥rio de cache tempor√°rio para acelerar
os.system(f"pip install --quiet --cache-dir=/tmp/pip-cache {dependencies}")
print(f"‚úÖ Depend√™ncias instaladas: {dependencies}")

# 6. Configurar accelerate
print("‚öô Configurando accelerate...")
# Executa a configura√ß√£o padr√£o do accelerate (interativamente, mas 'yes' responde sim para todas as perguntas)
# Redireciona a sa√≠da para /dev/null para evitar poluir a sa√≠da do notebook
os.system("yes '' | accelerate config default > /dev/null 2>&1")

# Modifica o arquivo de configura√ß√£o do accelerate para habilitar mixed precision e aumentar accumulation steps
cfg_path = 'accelerate_config.yaml'
if os.path.exists(cfg_path):
    try:
        with open(cfg_path, 'r') as f:
            config_content = f.read()

        # Faz as substitui√ß√µes para habilitar fp16 e bf16 e aumentar gradient_accumulation_steps
        config_content = config_content.replace('fp16: false', 'fp16: true')
        config_content = config_content.replace('bf16: false', 'bf16: true')
        config_content = config_content.replace('gradient_accumulation_steps: 1', 'gradient_accumulation_steps: 4')

        with open(cfg_path, 'w') as f:
            f.write(config_content)
        print("‚öô accelerate configurado para fp16/bf16 & gradient_accumulation_steps=4")

    except Exception as e:
        print(f"‚ùå Falha ao modificar o arquivo accelerate_config.yaml: {e}")
else:
    print(f"‚ö†Ô∏è Arquivo de configura√ß√£o do accelerate '{cfg_path}' n√£o encontrado ap√≥s a execu√ß√£o do comando 'accelerate config default'.")


# Opcional: Gerar link para o notebook atualizado (√∫til se estiver usando o Colab)
try:
    from google.colab import output
    # Obt√©m o URL do notebook atual via JavaScript no ambiente Colab
    notebook_link = output.eval_js("window.location.href")
    # Exibe o link como HTML clic√°vel
    display(HTML(f'<a href="{notebook_link}" target="_blank">üîó Abrir este notebook em uma nova aba</a>'))
except Exception as e:
    print(f"‚ö†Ô∏è N√£o foi poss√≠vel gerar o link do notebook: {e}")

print("\n‚úÖ Configura√ß√£o de ambiente e gerenciamento de segredos conclu√≠dos!")

‚è≥ Verificando recursos de hardware...
‚úÖ GPU: Tesla T4, Mem√≥ria Aproximada: ~25GB
‚è≥ Montando Google Drive...
Mounted at /content/drive
‚úÖ Google Drive montado ou j√° conectado.
üìÇ Caminho raiz dos dados (DATA_ROOT): /content/drive/MyDrive/med-llm/data
‚úÖ Diret√≥rios de cache locais criados/verificados: ['/content/data/pdf_texts', '/content/data/datasets', '/content/data/models']
üîë Verificando e configurando segredos...
ü§î O segredo 'UMLS_API_KEY' n√£o foi encontrado ou est√° vazio no arquivo /content/drive/MyDrive/secrets.json.
üëâ Digite o valor para "UMLS_API_KEY": ¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑
‚úÖ Segredos salvos/atualizados em /content/drive/MyDrive/secrets.json.
‚úÖ Vari√°veis de ambiente para segredos configuradas.
‚è≥ Tentando autenticar no Weights & Biases...


[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mdrmatheuscoelho[0m to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


‚úÖ Weights & Biases autenticado com sucesso.
üì¶ Instalando depend√™ncias...
‚úÖ Depend√™ncias instaladas: pymupdf transformers datasets accelerate bitsandbytes wandb
‚öô Configurando accelerate...
‚ö†Ô∏è Arquivo de configura√ß√£o do accelerate 'accelerate_config.yaml' n√£o encontrado ap√≥s a execu√ß√£o do comando 'accelerate config default'.



‚úÖ Configura√ß√£o de ambiente e gerenciamento de segredos conclu√≠dos!
