# Parte 1 - Setup

In [1]:
# Parte 1 - Setup

# Instalação de pacotes
!pip install requests html2text
!pip install openai
!pip install python-dotenv

# Importação das bibliotecas
import requests
import os
import html2text
from openai import OpenAI
from dotenv import load_dotenv  # Carregar variáveis de ambiente do .env
import time  # Para a função sleep (aguardar)

# Carregando variaveis
load_dotenv() # Carrega as variáveis de ambiente do arquivo .env
diretorio_md = "paginas_md"
caminho_prompt_baseline = "prompt_baseline_creation.txt"

# Carregar a chave da API da variável de ambiente e inicializar o cliente OpenAI
api_key = os.getenv('OPENAI_API_KEY')
client = OpenAI(api_key=api_key)

Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable


# Parte 2 - Baixando as páginas

In [2]:
# Parte 2 - Baixando as páginas e armazenando em HTML

# Função para verificar se a página está acessível
def verificar_pagina(url):
    try:
        resposta = requests.get(url)
        if resposta.status_code == 200:
            print(f"A página {url} está acessível.")
            return resposta.text
        else:
            print(f"A página {url} retornou o código {resposta.status_code}.")
            return None
    except requests.exceptions.RequestException as e:
        print(f"Erro ao acessar {url}: {e}")
        return None

# Função para baixar e salvar a página HTML
def baixar_pagina(url, conteudo, diretorio="paginas_baixadas"):
    if conteudo:
        if not os.path.exists(diretorio):
            os.makedirs(diretorio)
        nome_arquivo = url.replace("https://", "").replace("http://", "").replace("/", "_") + ".html"
        caminho_completo = os.path.join(diretorio, nome_arquivo)
        with open(caminho_completo, "w", encoding="utf-8") as arquivo:
            arquivo.write(conteudo)
        print(f"A página foi salva como {caminho_completo}")
    else:
        print(f"Não foi possível baixar a página de {url}")

# Função principal para processar a lista de URLs
def processar_urls(lista_urls):
    for url in lista_urls:
        print(f"Verificando a URL: {url}")
        conteudo = verificar_pagina(url)
        baixar_pagina(url, conteudo)

# Lista de URLs
lista_urls = [
    "https://www.trendmicro.com/cloudoneconformity-staging/knowledge-base/aws/S3/",
    "https://docs.aws.amazon.com/AmazonS3/latest/userguide/security-best-practices.html",
    "https://cloudsecurityalliance.org/blog/2024/06/10/aws-s3-bucket-security-the-top-cspm-practices"
]

# Executando o processo de verificação e download
processar_urls(lista_urls)

Verificando a URL: https://www.trendmicro.com/cloudoneconformity-staging/knowledge-base/aws/S3/
A página https://www.trendmicro.com/cloudoneconformity-staging/knowledge-base/aws/S3/ está acessível.
A página foi salva como paginas_baixadas\www.trendmicro.com_cloudoneconformity-staging_knowledge-base_aws_S3_.html
Verificando a URL: https://docs.aws.amazon.com/AmazonS3/latest/userguide/security-best-practices.html
A página https://docs.aws.amazon.com/AmazonS3/latest/userguide/security-best-practices.html está acessível.
A página foi salva como paginas_baixadas\docs.aws.amazon.com_AmazonS3_latest_userguide_security-best-practices.html.html
Verificando a URL: https://cloudsecurityalliance.org/blog/2024/06/10/aws-s3-bucket-security-the-top-cspm-practices
A página https://cloudsecurityalliance.org/blog/2024/06/10/aws-s3-bucket-security-the-top-cspm-practices está acessível.
A página foi salva como paginas_baixadas\cloudsecurityalliance.org_blog_2024_06_10_aws-s3-bucket-security-the-top-cspm-p

# Parte 3 - Convertendo para Markdown e armazenando em .md

In [3]:
# Parte 3 - Convertendo para Markdown e armazenando em MD

# Função para converter HTML para Markdown
def converter_para_markdown(html):
    conversor = html2text.HTML2Text()
    conversor.ignore_links = False  # Se você quiser preservar links
    markdown = conversor.handle(html)
    return markdown

# Função para salvar a página em formato Markdown
def salvar_como_markdown(url, markdown_conteudo, diretorio="paginas_md"):
    if markdown_conteudo:
        if not os.path.exists(diretorio):
            os.makedirs(diretorio)
        nome_arquivo = url.replace("https://", "").replace("http://", "").replace("/", "_") + ".md"
        caminho_completo = os.path.join(diretorio, nome_arquivo)
        with open(caminho_completo, "w", encoding="utf-8") as arquivo:
            arquivo.write(markdown_conteudo)
        print(f"A página foi salva como {caminho_completo}")
    else:
        print(f"Não foi possível salvar a página de {url} como Markdown.")

# Função principal para processar a lista de URLs e converter para Markdown
def processar_urls_para_markdown(lista_urls):
    for url in lista_urls:
        print(f"Verificando a URL: {url}")
        conteudo_html = verificar_pagina(url)
        if conteudo_html:
            conteudo_markdown = converter_para_markdown(conteudo_html)
            salvar_como_markdown(url, conteudo_markdown)

# Executando o processo de verificação, conversão e salvamento em Markdown
processar_urls_para_markdown(lista_urls)


Verificando a URL: https://www.trendmicro.com/cloudoneconformity-staging/knowledge-base/aws/S3/
A página https://www.trendmicro.com/cloudoneconformity-staging/knowledge-base/aws/S3/ está acessível.
A página foi salva como paginas_md\www.trendmicro.com_cloudoneconformity-staging_knowledge-base_aws_S3_.md
Verificando a URL: https://docs.aws.amazon.com/AmazonS3/latest/userguide/security-best-practices.html
A página https://docs.aws.amazon.com/AmazonS3/latest/userguide/security-best-practices.html está acessível.
A página foi salva como paginas_md\docs.aws.amazon.com_AmazonS3_latest_userguide_security-best-practices.html.md
Verificando a URL: https://cloudsecurityalliance.org/blog/2024/06/10/aws-s3-bucket-security-the-top-cspm-practices
A página https://cloudsecurityalliance.org/blog/2024/06/10/aws-s3-bucket-security-the-top-cspm-practices está acessível.
A página foi salva como paginas_md\cloudsecurityalliance.org_blog_2024_06_10_aws-s3-bucket-security-the-top-cspm-practices.md


# Parte 4 - Importando o conteúdo dos arquivos .md salvos em variáveis

In [4]:
# Parte 4 - Importando o conteúdo dos arquivos MD salvos em variáveis

# Função para carregar o conteúdo de arquivos Markdown
def carregar_conteudo_md(diretorio="paginas_md"):
    conteudo_arquivos = {}
    
    # Verifica se o diretório existe
    if os.path.exists(diretorio):
        # Itera sobre todos os arquivos no diretório
        for nome_arquivo in os.listdir(diretorio):
            if nome_arquivo.endswith(".md"):  # Apenas arquivos .md
                caminho_completo = os.path.join(diretorio, nome_arquivo)
                
                # Carregando o arquivo em modo leitura
                try:
                    with open(caminho_completo, "r", encoding="utf-8") as arquivo:
                        conteudo = arquivo.read()
                        # Armazenando o conteúdo no dicionário com o nome do arquivo como chave
                        conteudo_arquivos[nome_arquivo] = conteudo
                        print(f"Conteúdo de {nome_arquivo} foi carregado com sucesso.")
                except Exception as e:
                    print(f"Erro ao carregar o arquivo {nome_arquivo}: {e}")
    else:
        print(f"O diretório {diretorio} não foi encontrado.")
    
    return conteudo_arquivos

# Executando a função para carregar os arquivos Markdown
conteudo_md = carregar_conteudo_md()

# Exemplo: Acessando o conteúdo de um arquivo específico
# print(conteudo_md['www_example_com.md'])  # Acessa o conteúdo do arquivo .md específico

Conteúdo de cloudsecurityalliance.org_blog_2024_06_10_aws-s3-bucket-security-the-top-cspm-practices.md foi carregado com sucesso.
Conteúdo de docs.aws.amazon.com_AmazonS3_latest_userguide_security-best-practices.html.md foi carregado com sucesso.
Conteúdo de www.trendmicro.com_cloudoneconformity-staging_knowledge-base_aws_S3_.md foi carregado com sucesso.


# Parte 5 - Verificar se o Assistente já Existe, Caso Contrário Criar

In [5]:
# Nome e informações do assistente que queremos criar
assistente_nome = "CyberSecurityAssistant"
assistant_info = {
    "instructions": "You are a Cyber Security Specialist focused on developing security baselines for AWS services and products.",
    "name": assistente_nome,
    "tools": [{"type": "code_interpreter"}],
    "model": "gpt-4o"
}

# Função para verificar se o assistente já existe
def verificar_assistente_existente(client, nome_assistente):
    try:
        # Listando os assistentes existentes
        my_assistants = client.beta.assistants.list(order="desc", limit="20")
        
        # Procurar pelo assistente com o nome especificado
        for assistant in my_assistants.data:
            if assistant.name == nome_assistente:
                print(f"Assistente '{nome_assistente}' já existe.")
                return assistant.id  # Retorna o ID do assistente existente
        
        # Se não encontrar, retorna None
        return None
    except Exception as e:
        print(f"Erro ao verificar assistentes existentes: {e}")
        return None

# Função para criar um novo assistente
def criar_assistente(client, info_assistente):
    try:
        # Criando o assistente
        my_assistant = client.beta.assistants.create(
            instructions=info_assistente["instructions"],
            name=info_assistente["name"],
            tools=info_assistente["tools"],
            model=info_assistente["model"]
        )
        print(f"Assistente '{info_assistente['name']}' criado com sucesso.")
        return my_assistant.id
    except Exception as e:
        print(f"Erro ao criar o assistente: {e}")
        return None

# Verificando se o assistente já existe
assistant_id = verificar_assistente_existente(client, assistente_nome)

# Se o assistente não existir, criar um novo
if not assistant_id:
    assistant_id = criar_assistente(client, assistant_info)

# Exibindo o ID do assistente
if assistant_id:
    print(f"O ID do assistente '{assistente_nome}' é: {assistant_id}")
else:
    print("Falha ao obter ou criar o assistente.")


Assistente 'CyberSecurityAssistant' já existe.
O ID do assistente 'CyberSecurityAssistant' é: asst_GNHesrQt9YROvtPypzT6Uqpb


# Parte 6 - Gerenciamento de Threads, Envio de Mensagens e Coleta do Resultado

In [6]:
# Função para criar uma nova thread
def criar_thread(client):
    try:
        empty_thread = client.beta.threads.create()
        print(f"Thread criada com sucesso. ID: {empty_thread.id}")
        return empty_thread.id
    except Exception as e:
        print(f"Erro ao criar a thread: {e}")
        return None

# Função para carregar o conteúdo de um arquivo
def carregar_conteudo_arquivo(caminho_arquivo):
    try:
        with open(caminho_arquivo, "r", encoding="utf-8") as arquivo:
            return arquivo.read()
    except Exception as e:
        print(f"Erro ao carregar o arquivo {caminho_arquivo}: {e}")
        return None

# Função para criar uma mensagem em uma thread específica
def criar_mensagem(client, thread_id, conteudo_mensagem):
    try:
        thread_message = client.beta.threads.messages.create(
            thread_id,
            role="user",
            content=conteudo_mensagem
        )
        print(f"Mensagem criada com sucesso na thread {thread_id}. ID da mensagem: {thread_message.id}")
        return thread_message.id
    except Exception as e:
        print(f"Erro ao criar a mensagem: {e}")
        return None

# Função para executar uma thread
def executar_thread(client, thread_id, assistant_id):
    try:
        run = client.beta.threads.runs.create(
            thread_id=thread_id,
            assistant_id=assistant_id
        )
        print(f"Thread executada com sucesso. Run ID: {run.id}")
        return run.id
    except Exception as e:
        print(f"Erro ao executar a thread: {e}")
        return None

# Função para verificar o status da run e coletar as respostas da role "assistant"
def verificar_status_run(client, thread_id, run_id):
    try:
        while True:
            run = client.beta.threads.runs.retrieve(
                thread_id=thread_id,
                run_id=run_id
            )
            status = run.status
            print(f"Status atual: {status}")
            
            if status in ["in_progress", "queued"]:
                time.sleep(3)
            elif status == "completed":
                print("Processando mensagens...")
                messages = client.beta.threads.messages.list(thread_id=thread_id)
                return processar_mensagens(messages)
            else:
                print(f"Status final da run: {status}. Encerrando verificação.")
                break
    except Exception as e:
        print(f"Erro ao verificar o status da run: {e}")

# Função auxiliar para processar e exibir apenas as mensagens da role 'assistant'
def processar_mensagens(messages):
    result_messages = []
    for message in messages:
        if message.role == "assistant" and message.content[0].type == "text":
            msg = message.content[0].text.value
            result_messages.append(msg)
    
    for msg in result_messages:
        print(f"Assistant: {msg}")
    
    return result_messages

# Função para enviar mensagens, processando uma por vez
def enviar_mensagens_sequencial(client, diretorio_md, caminho_prompt_baseline, assistant_id):
    prompt_baseline_conteudo = carregar_conteudo_arquivo(caminho_prompt_baseline)
    if not prompt_baseline_conteudo:
        print(f"Erro ao carregar o arquivo de prompt baseline: {caminho_prompt_baseline}")
        return
    
    for nome_arquivo in os.listdir(diretorio_md):
        if nome_arquivo.endswith(".md"):
            caminho_arquivo_md = os.path.join(diretorio_md, nome_arquivo)
            conteudo_md = carregar_conteudo_arquivo(caminho_arquivo_md)
            
            if conteudo_md:
                nome_arquivo_sem_extensao = os.path.splitext(nome_arquivo)[0]
                conteudo_mensagem = f"Reference: {nome_arquivo_sem_extensao}\n\n{prompt_baseline_conteudo}\n\n{conteudo_md}"
                
                # Criar uma thread
                thread_id = criar_thread(client)
                if not thread_id:
                    print("Erro ao criar a thread, interrompendo o processo.")
                    return
                
                # Criar uma mensagem e enviar
                criar_mensagem(client, thread_id, conteudo_mensagem)
                
                # Executar a thread
                run_id = executar_thread(client, thread_id, assistant_id)
                if not run_id:
                    print("Erro ao executar a thread, interrompendo o processo.")
                    return
                
                # Verificar o status da run e processar a resposta
                verificar_status_run(client, thread_id, run_id)

# Parte principal do script
if __name__ == "__main__":
    enviar_mensagens_sequencial(client, diretorio_md, caminho_prompt_baseline, assistant_id)


Thread criada com sucesso. ID: thread_OXmoawoceWt29Ygsfkbijkr2
Mensagem criada com sucesso na thread thread_OXmoawoceWt29Ygsfkbijkr2. ID da mensagem: msg_zmP3H8N8QsTyuiPzZRoK2HoO
Thread executada com sucesso. Run ID: run_GG0ZtQbAwZ2oCoC8vXRRmbrt
Status atual: in_progress
Status atual: in_progress
Status atual: in_progress
Status atual: in_progress
Status atual: completed
Processando mensagens...
Assistant: ```markdown
### **Configure Bucket Permissions with IAM**
   - **Control ID:** AWS_S3_001
   - **Rationale:** To ensure that only authorized users and applications have access to S3 buckets, preventing data breaches and unauthorized data exposure.
   - **Mitigated Risks:** Access Control vulnerabilities, unauthorized access, data leaks.
   - **Criticality:** High - Improperly configured permissions can lead to significant data exposure and breaches.
   - **References:** AWS Identity and Access Management (IAM), AWS S3 Block Public Access.

### **Enable S3 Bucket Logging**
   - **Cont

Thread criada com sucesso. ID: thread_nYpSEEc0gdKNRwV7IhlP9OaQ
Mensagem criada com sucesso na thread thread_nYpSEEc0gdKNRwV7IhlP9OaQ. ID da mensagem: msg_4166nyY9WRuBndaPrerpGJhJ
Thread executada com sucesso. Run ID: run_0Wh9XW3EirHJB4q6avIznq5N
Status atual: in_progress
Status atual: in_progress
Status atual: in_progress
Status atual: completed
Processando mensagens...
Assistant: ```markdown
### **Deny S3 Log Delivery Group Write Permission on the Source Bucket**
   - **Control ID:** AWS_S3_001
   - **Rationale:** Denying the S3 Log Delivery Group write permission on source buckets prevents unauthorized entities from altering log data, ensuring the integrity and reliability of access logs.
   - **Mitigated Risks:** Mitigates the risk of tampering with access logs, which is crucial for security audits and investigations.
   - **Criticality:** High. Integrity of S3 access logs is critical for accurate auditing and forensic analysis.
   - **References:** [Deny S3 Log Delivery Group Write