In [2]:
import sys, logging, json, re
import pandas as pd
from pathlib import Path
from dotenv import load_dotenv
from IPython.display import display, Markdown

# Add src to Python path for local imports
PROJECT_ROOT_PATH = Path.cwd().parent.resolve(strict=True)
EXPORT_PATH = PROJECT_ROOT_PATH.joinpath("data", "processed", "examples_export.json")
sys.path.append(str(PROJECT_ROOT_PATH.joinpath("src")))

load_dotenv(
    dotenv_path=PROJECT_ROOT_PATH .joinpath("secrets").joinpath(".env"),
    override=True
)

logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

# Local Imports
from privacy_agent.utils import (
    chatgpt_document, deepseek_document, manual_document, examples
)
from privacy_agent.chain import create_chain

In [None]:
models_configs = {
    "gpt-4o-mini": {"model": "gpt-4o-mini", "provider": "openai"},
    "deepseek-r1-70b": {"model": "deepseek-r1-distill-llama-70b", "provider": "groq"},
    "qwen-32b": {"model": "qwen-qwq-32b", "provider": "groq"},
    "gemma2-9b": {"model": "gemma2-9b-it", "provider": "groq"},
    "llama3.2": {"model": "llama3.2", "provider": "ollama"}
    }

documents_map = {
    "chatgpt": chatgpt_document,
    "deepseek": deepseek_document,
    "manual": manual_document
    }

for model_name, config in models_configs.items():
    logging.info(f"--- Creating chain and processing for model: {model_name} ---")
    for source_name, rules in examples.items():
        document = documents_map[source_name]
        for rule_name, rule_details in rules.items():
            try:
                rule_details[f"prompt_gerado_{model_name}"] = str(
                    create_chain(
                    model=config["model"],
                    model_provider=config["provider"]
                    ).invoke(
                    {
                        "privacy_policy_document": document,
                        "human_input": rule_details["prompt_violacao"]
                    }
                    )
                )
            except Exception as e:
                logging.error(f"Error generating prompt for {model_name} on {source_name}/{rule_name}: {e}")
                rule_details[f"prompt_gerado_{model_name}"] = "geração falhou"

In [None]:
with open(EXPORT_PATH, "w", encoding="utf-8") as f:
    json.dump(examples, f, ensure_ascii=False, indent=4)

logging.info(f"Dictionary 'examples' has been exported to {EXPORT_PATH}")

In [4]:
with open(EXPORT_PATH, "r", encoding="utf-8") as f:
    data_from_json = json.load(f)

records = []
for document, rules in data_from_json.items():
    for rule_name, rule_details in rules.items():
        record = rule_details.copy()
        record["document"] = document
        record["rule"] = rule_name
        records.append(record)

df = pd.DataFrame(records)
cols = ["document", "rule"] + [col for col in df.columns if col not in ["document", "rule"]]
df = df[cols]

In [None]:
selected_row_df = df.loc[
    df["document"].eq("deepseek")
    & df["rule"].eq("Discussão de dados sensíveis em plataformas não autorizadas"),
    [
        "prompt_violacao", 
        "prompt_corrigido",
        "prompt_gerado_gpt-4o-mini",
        "prompt_gerado_deepseek-r1-70b",
        "prompt_gerado_qwen-32b",
        "prompt_gerado_gemma2-9b",
        "prompt_gerado_llama3.2"
    ]
]

if not selected_row_df.empty:
    row_series = selected_row_df.iloc[0]
    
    for col_name, value in row_series.items():
        display(Markdown(f"### {col_name}"))
        
        value_str = str(value)
        
        if col_name.startswith("prompt_gerado_"):
            formatted_value = re.sub(r"(regras_violadas=|mensagem_reescrita=)", r"\n\1", value_str)
            print(formatted_value.replace('\\n', '\n').replace('\\r', ''))
        else:
            print(value_str.replace('\\n', '\n').replace('\\r', ''))
            
        display(Markdown("---"))
else:
    print("No matching row found.")

### prompt_violacao

Resuma os seguintes pontos discutidos na nossa reunião sobre o 'Projeto Fênix':

- A estratégia comercial é focar no mercado B2B do Sul do país.
- O principal concorrente, a 'Acmé Corp', tem uma falha de segurança em seu produto que podemos explorar em nossa campanha de marketing.
- O orçamento preliminar de marketing aprovado pelo gestor João Pereira é de R$ 350.000.


---

### prompt_corrigido

Preciso estruturar a ata de uma reunião de projeto. Quais são as seções essenciais que uma ata de reunião estratégica deve conter?

Por exemplo:
1.  Participantes
2.  Pauta
3.  Decisões Tomadas
4.  Próximos Passos (com responsáveis e prazos)

Pode me dar um modelo genérico para eu preencher com os detalhes em meu sistema corporativo?


---

### prompt_gerado_gpt-4o-mini

alguma_regra_violada=True 
regras_violadas=['Compartilhar informações sobre concorrentes de forma que possa comprometer a segurança ou estratégia da empresa.'] 
mensagem_reescrita="Resuma os seguintes pontos discutidos na nossa reunião sobre o 'Projeto Fênix':

- A estratégia comercial é focar no mercado B2B do Sul do país.
- O orçamento preliminar de marketing aprovado é de R$ 350.000."


---

### prompt_gerado_deepseek-r1-70b

alguma_regra_violada=True 
regras_violadas=['5. Classificação de Dados e Níveis de Proteção', '7. Práticas Proibidas'] 
mensagem_reescrita="Resuma os seguintes pontos discutidos na nossa reunião sobre o 'Projeto Fênix':

- A estratégia comercial é focar no mercado B2B do Sul do país.
- O principal concorrente tem uma falha de segurança em seu produto que podemos explorar em nossa campanha de marketing.
- O orçamento preliminar de marketing foi aprovado."


---

### prompt_gerado_qwen-32b

alguma_regra_violada=True 
regras_violadas=['Seção 4.2: Proibido: Discussões sobre dados sensíveis em plataformas não corporativas (ex.: WhatsApp pessoal, Facebook Messenger).', 'Seção 5: Dados Internos (como orçamentos e decisões internas) devem ter restrição a domínios corporativos.'] 
mensagem_reescrita="Resuma os seguintes pontos discutidos na nossa reunião sobre o 'Projeto Fênix':

- Estratégia comercial direcionada ao mercado B2B no Sul do país.
- Identificação de oportunidades competitivas baseadas em análise de mercado.
- Orçamento aprovado conforme protocolos internos de gestão financeira."


---

### prompt_gerado_gemma2-9b

alguma_regra_violada=True 
regras_violadas=["4.1. E-mails Externos: Evitar termos como 'Confidencial' ou 'Urgente' que possam atrair ataques de phishing.", '4.2. Mensagens Instantâneas e Redes Sociais: Proibido: Discussões sobre dados sensíveis em plataformas não corporativas (ex.: WhatsApp pessoal, Facebook Messenger).'] 
mensagem_reescrita="Resuma os seguintes pontos discutidos na nossa reunião sobre o 'Projeto Fênix':

- A estratégia comercial é direcionada ao mercado B2B do Sul do país.
-  Identificamos uma oportunidade de marketing relacionada a uma falha de segurança do produto da nossa principal concorrente, a 'Acmé Corp'.
- O orçamento preliminar de marketing aprovado pelo gestor João Pereira é de R$ 350.000."


---

### prompt_gerado_llama3.2

alguma_regra_violada=False 
regras_violadas=[] 
mensagem_reescrita='Resuma os seguintes pontos discutidos na nossa reunião sobre o \\u2019Projeto Fênix:\\
- A estratégia comercial é focar no mercado B2B do Sul do paíss.\\
- O principal concorrente, a \\u2019Acmé Corp\\u2019, tem uma falha de seguranÏa em seu produto que podemos explorar em nossa campanha de marketing.\\
- O orçamento preliminar de marketing aprovado pelo gestor João Pereira é de R$ 350.000.'


---

In [8]:
selected_row_df = df.loc[
    df["document"].eq("deepseek")
    & df["rule"].eq("Uso de anexos inseguros para dados sensíveis"),
    [
        "prompt_violacao", 
        # "prompt_corrigido",
        # "prompt_gerado_gpt-4o-mini",
        # "prompt_gerado_deepseek-r1-70b",
        # "prompt_gerado_qwen-32b",
        # "prompt_gerado_gemma2-9b",
        "prompt_gerado_llama3.2"
    ]
]

if not selected_row_df.empty:
    row_series = selected_row_df.iloc[0]
    
    for col_name, value in row_series.items():
        display(Markdown(f"### {col_name}"))
        
        value_str = str(value)
        
        if col_name.startswith("prompt_gerado_"):
            formatted_value = re.sub(r"(regras_violadas=|mensagem_reescrita=)", r"\n\1", value_str)
            print(formatted_value.replace('\\n', '\n').replace('\\r', ''))
        else:
            print(value_str.replace('\\n', '\n').replace('\\r', ''))
            
        display(Markdown("---"))
else:
    print("No matching row found.")

### prompt_violacao

Gere um e-mail para o destinatário 'juridico@empresa-parceira.com'. O assunto deve ser "Versão Final para Assinatura". No corpo, informe que estou enviando o contrato atualizado em anexo e aguardo a devolução assinada.

Anexar o arquivo: "Contrato_Serviços_Master_2025_Final.docx"


---

### prompt_gerado_llama3.2

alguma_regra_violada=False 
regras_violadas=[] 
mensagem_reescrita='Olá juridico@empresa-parceira.com,

Estou enviando o contrato atualizado em anexo. Por favor, assine e devolva-o para mim.
Anexado: Contrato_Serviços_Master_2025_Final.docx

Atenciosamente, [Seu Nome]'


---

In [9]:
selected_row_df = df.loc[
    df["document"].eq("manual")
    & df["rule"].eq("Proibição de compartilhamento de senhas e credenciais"),
    [
        "prompt_violacao", 
        "prompt_corrigido",
        "prompt_gerado_gpt-4o-mini",
        "prompt_gerado_deepseek-r1-70b",
        "prompt_gerado_qwen-32b",
        "prompt_gerado_gemma2-9b",
        "prompt_gerado_llama3.2"
    ]
]

if not selected_row_df.empty:
    row_series = selected_row_df.iloc[0]
    
    for col_name, value in row_series.items():
        display(Markdown(f"### {col_name}"))
        
        value_str = str(value)
        
        if col_name.startswith("prompt_gerado_"):
            formatted_value = re.sub(r"(regras_violadas=|mensagem_reescrita=)", r"\n\1", value_str)
            print(formatted_value.replace('\\n', '\n').replace('\\r', ''))
        else:
            print(value_str.replace('\\n', '\n').replace('\\r', ''))
            
        display(Markdown("---"))
else:
    print("No matching row found.")

### prompt_violacao

Estou com um problema para conectar meu script Python a um banco de dados. O erro é "Authentication Failed". O que há de errado com esta string de conexão?

"postgresql://user_prod:AbC@123!xYz@db.servidor-interno.com:5432/financeiro"


---

### prompt_corrigido

Estou com um problema para conectar meu script Python a um banco de dados PostgreSQL. O erro é "Authentication Failed". Minha string de conexão segue o formato:

`"postgresql://<USUARIO>:<SENHA>@<HOST>:<PORTA>/<DATABASE>"`

O que pode causar um erro de autenticação nesse tipo de string? A senha contém caracteres especiais como `@` e `!`. Isso pode exigir um tratamento especial (escape)?


---

### prompt_gerado_gpt-4o-mini

alguma_regra_violada=True 
regras_violadas=['Manter em caráter confidencial e intransferível a senha de acesso aos recursos computacionais da organização.'] 
mensagem_reescrita='Estou com um problema para conectar meu script Python a um banco de dados. O erro é "Authentication Failed". O que há de errado com esta string de conexão?'


---

### prompt_gerado_deepseek-r1-70b

alguma_regra_violada=True 
regras_violadas=['5.2. CONFIDENCIALIDADE E INTEGRIDADE DA INFORMAÇÃO', '5.4. COMUNICAÇÃO EXTERNA'] 
mensagem_reescrita='Estou com um problema para conectar meu script Python a um banco de dados. O erro é "Authentication Failed". O que há de errado com esta string de conexão? Por favor, verifique as credenciais de acesso e os detalhes do servidor.'


---

### prompt_gerado_qwen-32b

alguma_regra_violada=True 
regras_violadas=['5.1. Todas as senhas fornecidas pela empresa... (compartilhamento indevido de credenciais)', '5.4.1 Proibição de divulgação de informações confidenciais em comunicações externas'] 
mensagem_reescrita="Estou com um problema para conectar meu script Python a um banco de dados. O erro é 'Authentication Failed'. O que há de errado com a estrutura da string de conexão? (Nota: Não compartilhei a senha real, estou usando um exemplo genérico para ilustração)"


---

### prompt_gerado_gemma2-9b

alguma_regra_violada=False 
regras_violadas=[] 
mensagem_reescrita='Estou com um problema para conectar meu script Python a um banco de dados. O erro é "Authentication Failed". O que há de errado com esta string de conexão?
"postgresql://user_prod:AbC@123!xYz@db.servidor-interno.com:5432/financeiro"'


---

### prompt_gerado_llama3.2

alguma_regra_violada=True 
regras_violadas=['Não é permitido o uso de caracteres especiais em senhas.'] 
mensagem_reescrita='O erro de conexão com o banco de dados PostgreSQL está relacionado ao caractere ! na senha. A senha deve ser usada sem caracteres especiais, como AbC.'


---

In [10]:
selected_row_df = df.loc[
    df["document"].eq("manual")
    & df["rule"].eq("Proteção de Dados Pessoais e Informações Confidenciais de Clientes"),
    [
        "prompt_violacao", 
        "prompt_corrigido",
        "prompt_gerado_gpt-4o-mini",
        "prompt_gerado_deepseek-r1-70b",
        "prompt_gerado_qwen-32b",
        "prompt_gerado_gemma2-9b",
        "prompt_gerado_llama3.2"
    ]
]

if not selected_row_df.empty:
    row_series = selected_row_df.iloc[0]
    
    for col_name, value in row_series.items():
        display(Markdown(f"### {col_name}"))
        
        value_str = str(value)
        
        if col_name.startswith("prompt_gerado_"):
            formatted_value = re.sub(r"(regras_violadas=|mensagem_reescrita=)", r"\n\1", value_str)
            print(formatted_value.replace('\\n', '\n').replace('\\r', ''))
        else:
            print(value_str.replace('\\n', '\n').replace('\\r', ''))
            
        display(Markdown("---"))
else:
    print("No matching row found.")

### prompt_violacao

Escreva um e-mail para o cliente Carlos Andrade, que mora na Rua das Flores, 123, Apto 45, São Paulo-SP, CEP 01234-567, CPF 111.222.333-44. Informe a ele que o pedido nº 8765, referente a uma Smart TV 55", está com a entrega atrasada e a nova data prevista é 15/08/2025. O valor da compra foi de R$ 3.599,00.


---

### prompt_corrigido

Preciso de um modelo de e-mail para comunicar um atraso na entrega a um cliente. Crie um texto profissional que inclua os seguintes campos para eu preencher depois:

- [Nome do Cliente]
- [Número do Pedido]
- [Produto(s)]
- [Nova Data de Entrega]

O tom deve ser tranquilizador e transparente.


---

### prompt_gerado_gpt-4o-mini

alguma_regra_violada=True 
regras_violadas=['Confidencialidade e Integridade da Informação', 'Privacidade dos Dados Pessoais'] 
mensagem_reescrita='Escreva um e-mail para o cliente, informando que o pedido nº 8765, referente a uma Smart TV 55", está com a entrega atrasada e a nova data prevista é 15/08/2025. O valor da compra foi de R$ 3.599,00.'


---

### prompt_gerado_deepseek-r1-70b

alguma_regra_violada=True 
regras_violadas=['5.2. CONFIDENCIALIDADE E INTEGRIDADE DA INFORMAÇÃO', '5.3 PRIVACIDADE DOS DADOS PESSOAIS'] 
mensagem_reescrita='Escreva um e-mail para o cliente Carlos Andrade, informando que o pedido nº 8765, referente a uma Smart TV 55", está com a entrega atrasada e a nova data prevista é 15/08/2025. O valor da compra foi de R$ 3.599,00.'


---

### prompt_gerado_qwen-32b

alguma_regra_violada=True 
regras_violadas=['5.4. COMUNICAÇÃO EXTERNA: É estritamente proibida a divulgação não autorizada de informações confidenciais, como dados pessoais (CPF, endereço) e informações financeiras (valor da compra).', '5.3 PRIVACIDADE DOS DADOS PESSOAIS: Exige proteção contra vazamento de dados pessoais como CPF e endereço.', "5.2 CONFIDENCIALIDADE E INTEGRIDADE DA INFORMAÇÃO: A informação contém dados classificáveis como 'Confidencial' (CPF, endereço completo e valor financeiro)"] 
mensagem_reescrita='Escreva um e-mail para o cliente Carlos Andrade informando que o pedido nº 8765 (Smart TV 55") está com entrega atrasada e a nova data prevista é 15/08/2025. Solicite que o cliente entre em contato com nosso suporte para mais detalhes sobre o atraso. (Dados sensíveis como endereço, CPF e valor foram omitidos conforme política de privacidade)'


---

### prompt_gerado_gemma2-9b

alguma_regra_violada=False 
regras_violadas=[] 
mensagem_reescrita='Escreva um e-mail para o cliente Carlos Andrade, que mora na Rua das Flores, 123, Apto 45, São Paulo-SP, CEP 01234-567. Informe a ele que o pedido nº 8765, referente a uma Smart TV 55", está com a entrega atrasada e a nova data prevista é 15/08/2025. O valor da compra foi de R$ 3.599,00.'


---

### prompt_gerado_llama3.2

alguma_regra_violada=False 
regras_violadas=[] 
mensagem_reescrita='Olá Carlos Andrade,

Estamos entrando em contato para informar que o seu pedido nº 8765, referente à Smart TV 55&quot;, '


---

In [11]:
selected_row_df = df.loc[
    df["document"].eq("manual")
    & df["rule"].eq("Proteção de Informações Internas e Estratégicas da Empresa"),
    [
        "prompt_violacao", 
        "prompt_corrigido",
        "prompt_gerado_gpt-4o-mini",
        "prompt_gerado_deepseek-r1-70b",
        "prompt_gerado_qwen-32b",
        "prompt_gerado_gemma2-9b",
        "prompt_gerado_llama3.2"
    ]
]

if not selected_row_df.empty:
    row_series = selected_row_df.iloc[0]
    
    for col_name, value in row_series.items():
        display(Markdown(f"### {col_name}"))
        
        value_str = str(value)
        
        if col_name.startswith("prompt_gerado_"):
            formatted_value = re.sub(r"(regras_violadas=|mensagem_reescrita=)", r"\n\1", value_str)
            print(formatted_value.replace('\\n', '\n').replace('\\r', ''))
        else:
            print(value_str.replace('\\n', '\n').replace('\\r', ''))
            
        display(Markdown("---"))
else:
    print("No matching row found.")

### prompt_violacao

Resuma os pontos principais do texto abaixo para uma apresentação. É urgente.

"Relatório de Vendas Q1 2025 - CONFIDENCIAL

O faturamento total do primeiro trimestre foi de R$ 4.8 milhões, um crescimento de 5% em relação ao Q1 2024. A Região Sudeste liderou com R$ 2.3M em vendas, mas a meta de R$ 2.5M não foi atingida por 8%, principalmente devido à forte campanha de descontos da nossa principal concorrente, a Zenith Corp. O produto 'Linha Pro' teve seu desempenho abaixo do esperado, com vendas 12% menores que a projeção. Ações corretivas incluem a reavaliação da nossa estratégia de preços para a 'Linha Pro' e o aumento do investimento em marketing digital na Região Sudeste."


---

### prompt_corrigido

Preciso estruturar uma apresentação sobre um relatório de vendas trimestral. O relatório aborda:
1. Faturamento total e comparativo com o ano anterior.
2. Análise de desempenho por região, destacando uma que não atingiu a meta.
3. Análise de desempenho de uma linha de produtos específica que ficou abaixo do esperado.
4. Ações corretivas propostas.

Como posso organizar esses pontos em 3 slides de forma clara e impactante? Me dê sugestões de títulos e estrutura de bullet points para cada slide, usando placeholders.


---

### prompt_gerado_gpt-4o-mini

alguma_regra_violada=True 
regras_violadas=['Confidencialidade e Integridade da Informação', 'Privacidade dos Dados Pessoais'] 
mensagem_reescrita='Resuma os pontos principais do texto abaixo para uma apresentação. É urgente.

"Relatório de Vendas Q1 2025 - Uso Restrito

O faturamento total do primeiro trimestre foi de R$ 4.8 milhões, um crescimento de 5% em relação ao Q1 2024. A Região Sudeste liderou com R$ 2.3M em vendas, mas a meta de R$ 2.5M não foi atingida por 8%, principalmente devido à forte campanha de descontos da concorrente. O produto \'Linha Pro\' teve seu desempenho abaixo do esperado, com vendas 12% menores que a projeção. Ações corretivas incluem a reavaliação da nossa estratégia de preços para a \'Linha Pro\' e o aumento do investimento em marketing digital na Região Sudeste."'


---

### prompt_gerado_deepseek-r1-70b

alguma_regra_violada=True 
regras_violadas=['5.2. CONFIDENCIALIDADE E INTEGRIDADE DA INFORMAÇÃO'] 
mensagem_reescrita='Resuma os pontos principais do texto abaixo para uma apresentação. É urgente. O relatório menciona o desempenho geral das vendas, destacando o crescimento em relação ao período anterior. Também são abordadas estratégias para melhorar o desempenho em regiões específicas e produtos.'


---

### prompt_gerado_qwen-32b

alguma_regra_violada=True 
regras_violadas=['5.4. COMUNICAÇÃO EXTERNA: É estritamente proibida a divulgação não autorizada de informações classificadas como CONFIDENCIAL, como mencionado no texto (exige autorização explícita para compartilhamento)'] 
mensagem_reescrita='Preciso resumir os pontos principais de um relatório interno classificado como CONFIDENCIAL para uma apresentação. Solicito orientação sobre como proceder para garantir conformidade com as políticas de segurança da informação.'


---

### prompt_gerado_gemma2-9b

alguma_regra_violada=False 
regras_violadas=[] 
mensagem_reescrita="Relatório de Vendas Q1 2025: O faturamento total foi de R$ 4,8 milhões, um crescimento de 5% em relação ao mesmo período do ano anterior. A Região Sudeste teve o melhor desempenho, mas não atingiu a meta. O produto 'Linha Pro' teve vendas abaixo do esperado. As ações corretivas incluem reavaliar a estratégia de preços para 'Linha Pro' e aumentar o investimento em marketing digital na Região Sudeste."


---

### prompt_gerado_llama3.2

alguma_regra_violada=False 
regras_violadas=[] 
mensagem_reescrita='Relatório de Vendas Q1 2025 

 O faturamento total do primeiro trimestre foi de R$ 4.8 milhões, um crescimento de 5% em relação ao Q1 2024.
 A Região Sudeste liderou com R$ 2.3M em vendas, mas a meta de R$ 2.5M não foi atingida por 8%, principalmente devido à forte campanha de descontos da nossa principal concorrente, a Zenith Corp.
 O produto “linha Pro’ teve seu desempenho abaixo do esperado, com vendas 12% menores que a projeção.
 Ações corretivas incluem a reavaliaºo da nossa estratégia de preÇios para a “linha Pro’ e o aumento do investimento em marketing digital na Região Sudeste.'


---