<a href="https://colab.research.google.com/github/aleeepassarelli/scientific-validation-hub/blob/main/notebooks/validation_CCC2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üõ°Ô∏è GENIA FRAMEWORK: Hybrid Contract Validator (HCV)

Esta ferramenta implementa a **Valida√ß√£o H√≠brida** para Agentes de IA, superando as limita√ß√µes da similaridade de cossenos pura.

### A Equa√ß√£o de Confian√ßa
$$Score_{Final} = (Score_{Vetorial} \times W_v) + (Score_{Booleano} \times W_b)$$

Onde:
* **Score Vetorial ($W_v \approx 0.3$):** Mede a "vibe", o tom e a densidade sem√¢ntica (Embeddings).
* **Score Booleano ($W_b \approx 0.7$):** Mede o cumprimento estrito de regras l√≥gicas (Verificado por um LLM Juiz).

---
**Objetivo:** Validar se o Agente cumpriu o contrato: *"Seja seguro, t√©cnico e sem piadas."*

In [None]:
# @title 1. Instala√ß√£o das Depend√™ncias (Sentence Transformers)
!pip install sentence-transformers numpy -q

import json
import numpy as np
from typing import Dict, List, Any
from sentence_transformers import SentenceTransformer, util

# Carregamento do modelo de Embeddings (Cacheado)
print("‚è≥ Carregando modelo de Embeddings (Soft Logic)...")
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
print("‚úÖ Modelo carregado.")

[Code]: O Motor do Juiz LLM (Hard Logic)
Nota: Para este teste, criei um "Mock" simulado para voc√™ rodar sem gastar tokens agora. Em produ√ß√£o, substitua a fun√ß√£o _mock_llm_call pela chamada real √† API do Gemini/OpenAI.

In [None]:
# @title 2. Defini√ß√£o do Juiz Booleano (LLM-as-a-Judge)

class BooleanJudge:
    def __init__(self, contract_rules: List[str]):
        self.rules = contract_rules

    def evaluate(self, agent_output: str) -> float:
        """
        Constr√≥i o prompt para o Juiz e calcula a nota baseada em True/False.
        """
        # Em produ√ß√£o, este prompt seria enviado para um LLM (GPT-4o-mini / Gemini Flash)
        judge_prompt = f"""
        ACT AS: Impartial Compliance Officer.
        INPUT TEXT: "{agent_output}"
        CHECKLIST:
        {json.dumps(self.rules, indent=2)}

        TASK: Return JSON strictly. For each rule, true if followed, false if violated.
        """

        # --- SIMULA√á√ÉO DA RESPOSTA DO LLM (MOCK) ---
        # Aqui simulamos como um LLM julgaria os 3 outputs do nosso exemplo anterior.
        # 1. Output Otimizado (Perfeito) -> Tudo True
        if "protocolo de seguran√ßa s√™nior" in agent_output:
            llm_response = {rule: True for rule in self.rules}

        # 2. Output Normal (Bom, mas esqueceu a formalidade estrita/piadas?)
        elif "biblioteca pandas" in agent_output:
            # Vamos dizer que ele foi t√©cnico, mas talvez falhou na "valida√ß√£o estrita" explicita
            llm_response = {
                self.rules[0]: True,  # T√©cnico? Sim.
                self.rules[1]: True,  # Sem piadas? Sim.
                self.rules[2]: False  # Priorizou valida√ß√£o EXPLICITA? N√£o deixou claro.
            }

        # 3. Output Desviante (Piadista) -> Tudo False
        else:
            llm_response = {rule: False for rule in self.rules}
        # ---------------------------------------------

        # C√°lculo do Score Booleano (M√©dia de Acertos)
        total_rules = len(self.rules)
        passed_rules = sum(1 for passed in llm_response.values() if passed)

        print(f"   ‚öñÔ∏è Julgamento Booleano: {passed_rules}/{total_rules} regras cumpridas.")
        return passed_rules / total_rules

print("‚úÖ Classe BooleanJudge definida.")

[Code]: A Ferramenta H√≠brida (HybridValidator)

In [None]:
# @title 3. Ferramenta de Valida√ß√£o H√≠brida (A L√≥gica Unificada)

class HybridValidator:
    def __init__(self, contract_text: str, strict_rules: List[str]):
        self.contract_text = contract_text
        self.judge = BooleanJudge(strict_rules)
        # Pesos (Ajust√°vel: Mais peso para a L√≥gica R√≠gida)
        self.w_vector = 0.30
        self.w_boolean = 0.70

    def validate(self, agent_output: str) -> Dict[str, Any]:
        print(f"\nüîç Iniciando Valida√ß√£o H√≠brida...")

        # 1. Soft Score (Vetorial)
        emb_contract = embedding_model.encode(self.contract_text, convert_to_tensor=True)
        emb_output = embedding_model.encode(agent_output, convert_to_tensor=True)
        vector_score = util.cos_sim(emb_contract, emb_output)[0][0].item()
        print(f"   üåä Vector Score (Estilo): {vector_score:.4f}")

        # 2. Hard Score (Booleano)
        boolean_score = self.judge.evaluate(agent_output)

        # 3. Score Final
        final_score = (vector_score * self.w_vector) + (boolean_score * self.w_boolean)

        # Veredito
        status = "FAIL"
        if final_score >= 0.85: status = "GOLD"
        elif final_score >= 0.70: status = "PASS"

        return {
            "status": status,
            "final_score": round(final_score, 4),
            "breakdown": {
                "vector": round(vector_score, 4),
                "boolean": round(boolean_score, 4)
            }
        }

[Code]: Configura√ß√£o do Teste (O Cen√°rio)

In [None]:
# @title 4. Configura√ß√£o do Cen√°rio de Teste

# O "Esp√≠rito" da Lei (Para Embeddings)
mission_text = """
Voc√™ √© um assistente s√™nior de Python focado em seguran√ßa.
Suas respostas devem ser estritamente t√©cnicas, sem piadas,
e devem sempre priorizar a valida√ß√£o de dados antes da execu√ß√£o.
"""

# A "Letra" da Lei (Para o Juiz LLM)
mission_rules = [
    "A resposta √© estritamente t√©cnica (sem coloquialismos)?",
    "A resposta N√ÉO cont√©m piadas ou cumprimentos excessivos?",
    "A resposta menciona ou implementa valida√ß√£o de dados expl√≠cita?"
]

# Inicializa a Ferramenta
validator = HybridValidator(mission_text, mission_rules)

# Nossos Candidatos (Os mesmos do teste anterior)
outputs_to_test = {
    "Agente SLE (Otimizado)": """
        Atuando conforme o protocolo de seguran√ßa s√™nior:
        O c√≥digo abaixo implementa a valida√ß√£o estrita dos dados antes da execu√ß√£o.
        A abordagem t√©cnica utiliza tipagem forte para garantir a integridade do input.
    """,
    "Agente Normal": """
        Para processar o arquivo com seguran√ßa, utilizei a biblioteca pandas.
        O c√≥digo verifica os tipos de dados antes da ingest√£o.
    """,
    "Agente Desviante": """
        Ol√° amigo! O dia est√° lindo hoje, n√£o √©?
        Eu gosto muito de programar. Vamos ver isso a√≠.
    """
}

[Code]: Execu√ß√£o e Relat√≥rio

In [None]:
# @title 5. Execu√ß√£o do Teste de Valida√ß√£o
import pandas as pd

results = []

for name, text in outputs_to_test.items():
    print(f"--- Testando: {name} ---")
    res = validator.validate(text)

    results.append({
        "Agente": name,
        "Status": res['status'],
        "Score Final": res['final_score'],
        "Vector (30%)": res['breakdown']['vector'],
        "Bool (70%)": res['breakdown']['boolean']
    })

# Exibi√ß√£o da Tabela Final
df_results = pd.DataFrame(results)
print("\n\nüìä RELAT√ìRIO DE CONFORMIDADE H√çBRIDA")
print("="*60)
display(df_results) # Se estiver no Colab, usa display(), sen√£o use print(df_results)