In [0]:
# Instala√ß√£o das bibliotecas de Orquestra√ß√£o (LangChain/Graph), Conectores (Databricks) e Pesquisa (Tavily).
%pip install -U langchain langchain-community langchain-core langgraph databricks-langchain tavily-python matplotlib pandas mlflow
dbutils.library.restartPython()

In [0]:
# Importa√ß√µes

# Bibliotecas padr√£o
import os
import json
from datetime import datetime, timedelta, timezone

# Dados e visualiza√ß√£o
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates

# Spark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, year

# LangChain e LLMs
from langchain.tools import tool
from langchain.agents import create_agent
from langchain_core.messages import SystemMessage
from databricks_langchain import ChatDatabricks

# Servi√ßos externos e ML
from tavily import TavilyClient
import mlflow

# Configura√ß√£o de Log
def log(msg: str, level: str = "INFO"):
    """
    Logger padronizado para rastreabilidade de execu√ß√£o.
    Formato: [YYYY-MM-DD HH:MM:SS] [LEVEL] Icon Mensagem
    """
    # Configura√ß√£o de Fuso Hor√°rio (BRT)
    fuso_br = timezone(timedelta(hours=-3))
    timestamp = datetime.now(fuso_br).strftime("%Y-%m-%d %H:%M:%S")
    
    # √çcones visuais para facilitar leitura r√°pida dos logs
    icons = {
        "INFO": "‚ÑπÔ∏è", 
        "WARN": "‚ö†Ô∏è", 
        "ERROR": "‚ùå", 
        "SUCCESS": "‚úÖ", 
        "SYSTEM": "‚öôÔ∏è",
        "TOOL": "üõ†Ô∏è",
        "AI": "ü§ñ"
    }
    icon = icons.get(level, "")
    
    print(f"[{timestamp}] [{level}] {icon} {msg}")

log("Bibliotecas importadas e Logger configurado com sucesso.", "SYSTEM")

In [0]:
# Define o experimento

username = spark.sql("SELECT current_user()").collect()[0][0]
experiment_path = f"/Users/{username}/srag_agent_monitoring"
mlflow.set_experiment(experiment_path)

# Habilita o rastreamento autom√°tico para LangChain (capturar inputs, outputs, traces)
mlflow.langchain.autolog()

log(f"MLOps Ativado. Experiment Path: {experiment_path}", "SUCCESS")

In [0]:
# Arquitetura dos dados

CATALOG = "srag_prod" 
SCHEMA = "gold"       
VOLUME_NAME = "volume_imagens" # Storage para arquivos n√£o estruturados (png)

# Garante a exist√™ncia do volume para persist√™ncia dos gr√°ficos gerados pelo agente
spark = SparkSession.builder.getOrCreate()
spark.sql(f"CREATE VOLUME IF NOT EXISTS {CATALOG}.{SCHEMA}.{VOLUME_NAME}")

VOLUME_PATH = f"/Volumes/{CATALOG}/{SCHEMA}/{VOLUME_NAME}"
TABLE_DAILY = f"{CATALOG}.{SCHEMA}.gold_srag_daily"
TABLE_MONTHLY = f"{CATALOG}.{SCHEMA}.gold_srag_monthly"

log(f"Ambiente de Dados Configurado.", "SYSTEM")
log(f"Caminho do Volume: {VOLUME_PATH}", "INFO")
log(f"Tabelas Mapeadas: {TABLE_DAILY}, {TABLE_MONTHLY}", "INFO")

In [0]:
# Valida√ß√£o dos dados

def run_quality_gate():
    """
    Valida os dados da tabela Gold. Se falhar, interrompe o notebook.
    Regras:
    1. Apenas anos 2024 e 2025.
    2. Sem casos negativos.
    3. Sem datas nulas.
    """
    log("Executando Valida√ß√£o de Qualidade de Dados (Data Quality Gate)...", "SYSTEM")
    
    spark = SparkSession.builder.getOrCreate()
    
    # A fun√ß√£o 'sum' conta quantas linhas violam cada regra
    query_check = f"""
        SELECT 
            COUNT(*) as total_linhas,
            SUM(CASE WHEN year(data_referencia) NOT IN (2024, 2025) THEN 1 ELSE 0 END) as erro_anos,
            SUM(CASE WHEN total_casos < 0 THEN 1 ELSE 0 END) as erro_negativos,
            SUM(CASE WHEN data_referencia IS NULL THEN 1 ELSE 0 END) as erro_nulos
        FROM {TABLE_DAILY}
    """
    
    # Coleta o resultado
    check = spark.sql(query_check).collect()[0]
    
    erros = []
    
    # 1. Valida√ß√£o de Anos (2024/2025 apenas)
    if check['erro_anos'] > 0:
        erros.append(f"Regra de Ano: {check['erro_anos']} registros fora de 2024/2025.")
        
    # 2. Valida√ß√£o de Negativos
    if check['erro_negativos'] > 0:
        erros.append(f"Regra de Negativos: {check['erro_negativos']} registros com casos negativos.")
        
    # 3. Valida√ß√£o de Nulos
    if check['erro_nulos'] > 0:
        erros.append(f"Regra de Nulos: {check['erro_nulos']} registros com data vazia.")
        
    # Verifica se houve algum erro
    if erros:
        msg_erro = "\n".join(erros)
        log(f"FALHA CR√çTICA DE DATA QUALITY:\n{msg_erro}", "ERROR")
        raise ValueError(f"üö® O notebook foi interrompido para seguran√ßa dos dados.")
    
    log(f"Dados Aprovados: {check['total_linhas']} registros validados (2024-2025, Sem Nulos, Sem Negativos).", "SUCCESS")

# Roda a valida√ß√£o
run_quality_gate()

In [0]:
# Query e Teste Unit√°rio

@tool
def get_latest_srag_metrics() -> str:
    """
    Consulta o banco de dados para obter as m√©tricas mais recentes de SRAG.
    Retorna: Um JSON com total de casos, e taxas de mortalidade, UTI e vacina√ß√£o.
    """
    try:
        # log("Consultando m√©tricas no Lakehouse...", "TOOL") # Opcional: Descomentar se quiser muito detalhe
        spark = SparkSession.builder.getOrCreate()
        
        query = f"""
        SELECT 
            cast(data_referencia as string) as data_referencia,
            cast(total_casos as int) as total_casos,
            cast(taxa_aumento_casos_perc as double) as taxa_aumento_casos_perc,
            cast(taxa_mortalidade_perc as double) as taxa_mortalidade_perc,
            cast(taxa_ocupacao_uti_perc as double) as taxa_ocupacao_uti_perc,
            cast(taxa_vacinacao_pacientes_perc as double) as taxa_vacinacao_pacientes_perc
        FROM {TABLE_DAILY}
        ORDER BY data_referencia DESC
        LIMIT 1
        """
        
        df = spark.sql(query).toPandas()
        
        if df.empty:
            log("ALERTA: Tabela vazia ao buscar m√©tricas.", "WARN")
            return "ALERTA: A tabela SQL retornou vazio. Verifique se o pipeline rodou."
            
        result = df.iloc[0].to_dict()
        return json.dumps(result, ensure_ascii=False)

    except Exception as e:
        log(f"Erro na Tool de M√©tricas: {str(e)}", "ERROR")
        return f"ERRO CR√çTICO NO SPARK/SQL: {str(e)}"

# Teste manual imediato
log("Teste Unit√°rio - M√©tricas:", "SYSTEM")
print(get_latest_srag_metrics.invoke({}))

In [0]:
# Visualiza√ß√£o

@tool
def generate_srag_charts() -> str:
    """
    Gera gr√°ficos de linha (30 dias) e barras (12 meses) sobre SRAG.
    Padr√£o de Data:
    - Di√°rio: dd/mm (Ex: 28/12)
    - Mensal: mm/aaaa (Ex: 12/2024) - Ano com 4 d√≠gitos para evitar confus√£o com dia.
    """
    try:
        log("Iniciando gera√ß√£o de gr√°ficos...", "TOOL")
        
        # GR√ÅFICO 1: DI√ÅRIO (30 DIAS) - Linha
        query_daily = f"SELECT data_referencia, total_casos FROM {TABLE_DAILY} ORDER BY data_referencia DESC LIMIT 30"
        df_daily = spark.sql(query_daily).toPandas().sort_values('data_referencia')
        
        path_daily = "Sem dados di√°rios"
        if not df_daily.empty:
            df_daily['data_referencia'] = pd.to_datetime(df_daily['data_referencia'])
            
            plt.figure(figsize=(10, 5))
            plt.plot(df_daily['data_referencia'], df_daily['total_casos'], marker='o', color='#1f77b4', linewidth=2)
            
            # Formata√ß√£o Eixo X (Di√°rio) -> dd/mm
            ax1 = plt.gca()
            ax1.xaxis.set_major_formatter(mdates.DateFormatter('%d/%m'))
            ax1.xaxis.set_major_locator(mdates.DayLocator(interval=2)) 
            
            plt.title('Casos SRAG - √öltimos 30 Dias')
            plt.ylabel('Casos')
            plt.grid(True, linestyle='--', alpha=0.3)
            plt.xticks(rotation=45)
            plt.tight_layout()
            
            path_daily = f"{VOLUME_PATH}/grafico_diario.png"
            plt.savefig(path_daily)
            plt.close()

        # GR√ÅFICO 2: MENSAL (12 MESES) - Barras
        query_monthly = f"SELECT mes_referencia, total_casos FROM {TABLE_MONTHLY} ORDER BY mes_referencia DESC LIMIT 12"
        df_monthly = spark.sql(query_monthly).toPandas().sort_values('mes_referencia')
        
        path_monthly = "Sem dados mensais"
        if not df_monthly.empty:
            df_monthly['mes_referencia'] = pd.to_datetime(df_monthly['mes_referencia'])
            
            plt.figure(figsize=(10, 5))
            plt.bar(df_monthly['mes_referencia'], df_monthly['total_casos'], color='#ff7f0e', width=20)
            
            # Formata√ß√£o Eixo X (Mensal) -> mm/aaaa (Ex: 01/2025)
            ax2 = plt.gca()
            ax2.xaxis.set_major_formatter(mdates.DateFormatter('%m/%Y')) 
            ax2.xaxis.set_major_locator(mdates.MonthLocator(interval=1))
            
            plt.title('Casos SRAG - √öltimos 12 Meses')
            plt.ylabel('Casos')
            plt.grid(True, axis='y', linestyle='--', alpha=0.3)
            plt.xticks(rotation=45)
            plt.tight_layout()
            
            path_monthly = f"{VOLUME_PATH}/grafico_mensal.png"
            plt.savefig(path_monthly)
            plt.close()

        log(f"Gr√°ficos persistidos no Volume: {path_daily}, {path_monthly}", "SUCCESS")
        return f"Gr√°ficos atualizados salvos em:\n1. {path_daily}\n2. {path_monthly}"

    except Exception as e:
        log(f"Falha ao gerar gr√°ficos: {e}", "ERROR")
        return f"ERRO AO GERAR GR√ÅFICOS: {str(e)}"

In [0]:
# Contexto dados

try:
    token = dbutils.secrets.get(scope="my_srag_scope", key="tavily_api_key")
    os.environ["TAVILY_API_KEY"] = token
    log("API Key do Tavily carregada via Secrets.", "SUCCESS")
except Exception as e:
    log(f"Erro ao carregar a API Key: {e}", "ERROR")

@tool
def get_epidemiological_context() -> str:
    """
    Realiza 'Grounding' (Ancoragem) do modelo em dados externos em tempo real.
    Estrat√©gia:
    1. Busca Macro (Global/OMS) para identificar novas variantes.
    2. Busca Micro (Brasil/Fiocruz) para dados epidemiol√≥gicos locais.
    Isso reduz a chance do modelo inventar contextos.
    """
    try:
        client = TavilyClient(api_key=os.environ["TAVILY_API_KEY"])
        
        # Passo 1: Contexto Internacional
        log("Investigando cen√°rio Global (OMS/CDC)...", "TOOL")
        response_global = client.search(
            query="Global respiratory virus trends WHO CDC influenza covid epidemiological update", 
            search_depth="basic", topic="news", max_results=2, include_answer=True
        )
        
        # Passo 2: Contexto Nacional
        log("Investigando cen√°rio Brasil (InfoGripe/Fiocruz)...", "TOOL")
        response_br = client.search(
            query="Boletim InfoGripe Fiocruz Brasil cen√°rio atual SRAG covid influenza", 
            search_depth="basic", topic="news", max_results=3, include_answer=True
        )
        
        # Montagem do Contexto
        contexto = f"""
        | RELAT√ìRIO DE INTELIG√äNCIA EXTERNA |
        1. GLOBAL: {response_global.get('answer', 'N/A')}
        2. NACIONAL: {response_br.get('answer', 'N/A')}
        
        FONTES NACIONAIS:
        """
        for res in response_br.get('results', []):
            contexto += f"- {res['title']}: {res['content'][:200]}...\n"
            
        return contexto

    except Exception as e:
        log(f"Erro na busca externa: {str(e)}", "ERROR")
        return f"Erro na busca externa: {str(e)}"

In [0]:
# Defini√ß√£o do Agente

# 1. Configura√ß√£o do Modelo: O par√¢metro 'model' define qual endpoint de infer√™ncia ser√° acionado.
llm = ChatDatabricks(model="databricks-meta-llama-3-3-70b-instruct")

# 2. Binding das Ferramentas
# O Agente precisa de uma lista de 'tools' dispon√≠veis para saber o que ele pode fazer.
tools = [get_latest_srag_metrics, generate_srag_charts, get_epidemiological_context]

# 3. Cria√ß√£o do Executor (runtime que pega o pensamento do LLM e efetivamente roda as ferramentas Python).
try:
    agent_executor = create_agent(llm, tools)
    log(f"Agente configurado e pronto! Modelo: {llm.model}", "SUCCESS")
except Exception as e:
    log(f"Erro ao criar agente: {e}", "ERROR")

In [0]:
# Execu√ß√£o final

from langchain_core.messages import SystemMessage
from datetime import datetime, timedelta, timezone

# 1. Configura√ß√£o de Data/Hora
fuso_br = timezone(timedelta(hours=-3))
data_hora = datetime.now(fuso_br).strftime("%d/%m/%Y √†s %H:%M")

# 2. Defini√ß√£o do System Prompt
system_instructions = """
ATEN√á√ÉO: Voc√™ √© um Engenheiro de IA S√™nior. Siga este roteiro ESTRITAMENTE.

--- ORDEM DE EXECU√á√ÉO (OBRIGAT√ìRIA) ---
1. FERRAMENTAS INTERNAS: Chame `get_latest_srag_metrics` e `generate_srag_charts`.
2. FERRAMENTA EXTERNA: Chame `get_epidemiological_context`.
   - üõë PARE E ESPERE O RETORNO DA FERRAMENTA.
   - Use o texto retornado para compor as se√ß√µes Global e Brasil.

--- üö® CORRE√á√ÉO DE LINGUAGEM (LEIA COM ATEN√á√ÉO) üö® ---
O campo do banco chama-se "taxa_aumento", mas valores negativos representam QUEDA.
Voc√™ est√° PROIBIDO de dizer "taxa de aumento negativa".

‚ùå ERRADO (NUNCA ESCREVA ASSIM):
"O volume de casos recuou, com uma taxa de aumento de casos de -10.47%."
"Houve um aumento de -10%."

‚úÖ CERTO (ESCREVA ASSIM):
"O volume de novos casos **registrou uma queda de 10,47%**."
"Houve uma **redu√ß√£o de 10,47%** nas notifica√ß√µes."
"Os casos **diminu√≠ram 10,47%** em rela√ß√£o ao per√≠odo anterior."

--- ESTRUTURA DO RELAT√ìRIO ---
   ## üìä An√°lise dos Dados Internos (DataSUS)
   (Texto fluido aplicando a regra do "CERTO" acima. Cite os n√∫meros de mortalidade, UTI e vacina√ß√£o. Ao final, informe apenas: "Gr√°ficos de tend√™ncia anexados ao volume.")
   
   ## üåç Panorama Global
   (Resumo direto das tend√™ncias da OMS/Mundo trazidas pela tool).
   
   ## üáßüá∑ Cen√°rio Brasil (InfoGripe/Fiocruz)
   (Resumo direto do cen√°rio nacional trazido pela tool).

   ## üöÄ Conclus√£o T√©cnica
   (Recomenda√ß√£o final curta).
"""

log(f"Iniciando ciclo de an√°lise do Agente...", "SYSTEM")

# 3. Montagem do Payload
inputs = {
    "messages": [
        SystemMessage(content=system_instructions),
        # Aqui entra o PROMPT DO USU√ÅRIO
        ("user", "Gere o relat√≥rio de monitoramento SRAG de hoje.")
    ]
}

# 4. Execu√ß√£o com Logs Detalhados
try:
    for chunk in agent_executor.stream(inputs, stream_mode="values", config={"recursion_limit": 25}):
        message = chunk["messages"][-1]
        
        if message.type == "ai" and not message.tool_calls:
            # Mostra o pensamento ou a resposta final
            print(f"\n--- [AGENTE PENSANDO / RESPOSTA] ---\n{message.content}")
        elif message.type == "tool":
            log(f"Ferramenta acionada: {message.name}", "TOOL")
    
    hora_fim = datetime.now(fuso_br).strftime("%H:%M:%S")
    print("\n" + ("=" * 50))
    log(f"Processo finalizado √†s {hora_fim}", "SUCCESS")

except Exception as e:
    log(f"Erro na execu√ß√£o do loop do agente: {e}", "ERROR")

In [0]:
# Registro de Execu√ß√£o

# Salvar o resultado do agente
with mlflow.start_run(run_name="Relatorio Diario SRAG") as run:
    log("Iniciando registro de auditoria no MLflow...", "INFO")
    
    # 1. Logamos os Par√¢metros
    mlflow.log_param("data_execucao", data_hora)
    mlflow.log_param("modelo_usado", "llama-3-70b")
    
    # 2. Log do Texto Final
    nome_arquivo_relatorio = "relatorio_srag.md"
    
    # Pega a √∫ltima mensagem v√°lida do loop anterior
    # (Nota: Assume que a vari√°vel 'message' ainda est√° na mem√≥ria da c√©lula anterior)
    try:
        texto_final = message.content 
        mlflow.log_text(texto_final, nome_arquivo_relatorio)
        log(f"Texto do relat√≥rio salvo: {nome_arquivo_relatorio}", "INFO")
    except NameError:
        log("Vari√°vel 'message' n√£o encontrada. O agente rodou?", "WARN")
    
    # 3. Logamos os Gr√°ficos. O MLflow copia as imagens do Volume para dentro do Experimento
    try:
        mlflow.log_artifact(f"{VOLUME_PATH}/grafico_diario.png", artifact_path="graficos")
        mlflow.log_artifact(f"{VOLUME_PATH}/grafico_mensal.png", artifact_path="graficos")
        log("Artefatos visuais (Gr√°ficos) anexados ao experimento.", "SUCCESS")
    except Exception as e:
        log(f"N√£o foi poss√≠vel logar as imagens: {e}", "WARN")

    print("-" * 100)
    log("Sucesso! Execu√ß√£o auditada no MLflow.", "SUCCESS")
    log(f"Link para Experiment: {experiment_path}", "INFO")