Ferramenta para desmontar bytecodes de contratos inteligentes em seus respectivos opcodes.

A ferramenta faz web scraping no site https://ethervm.io e coleta os bytecodes e seus respectivos opcodes, criando um dicionario que permite desmontar grandes quantidade de bytecodes (desde que estejam em um arquivo .csv).

Basta organizar o seu dataset com o cabeçalho 'bytecode' e 'category' e inserir ele em 'input_csv'. Ao rodar, será gerado um novo dataset chamado 'output.csv' que terá todos os opcodes respectivos ao seu dataset de origem inserido em 'input.csv'.

TO-DO: Aceitar outros tipos, como JSON.


In [15]:
import csv
import requests
from bs4 import BeautifulSoup

# Função para buscar o dicionário de bytecodes e opcodes da página web
def fetch_bytecodes_and_opcodes(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Localize a tabela de opcodes
    table = soup.find('table', class_='opcodes')  # Ajustar a classe da tabela, se necessário
    rows = table.find_all('tr')

    # Dicionário para armazenar os bytecodes e opcodes
    bytecodes_to_opcodes = {}

    for row in rows:
        # Encontre a tag <a> com os atributos id e name
        link = row.find('a', class_='anchor')
        if link and 'id' in link.attrs and 'name' in link.attrs:
            bytecode = link['id']
            opcode = link['name']

            # Adicionar ao dicionário
            bytecodes_to_opcodes[f"0x{bytecode}"] = opcode

    return bytecodes_to_opcodes

# Função para converter bytecode em opcodes
def convert_bytecode_to_opcodes(bytecode, opcode_dict):
    if bytecode.startswith("0x"):
        bytecode = bytecode[2:]  # Remove o prefixo '0x'

    opcodes = []
    i = 0
    while i < len(bytecode):
        byte = bytecode[i:i+2].upper()  # Obter 2 caracteres
        opcode = opcode_dict.get(f"0x{byte}", f"UNKNOWN({byte})")

        # Ignorar opcodes desconhecidos
        if opcode.startswith("UNKNOWN"):
            i += 2  # Pular para o próximo byte
            continue

        # Simplificação de instruções variáveis
        if opcode.startswith("PUSH"):
            opcode = "PUSH"  # Generalizar todas as instruções PUSH
        elif opcode.startswith("DUP"):
            opcode = "DUP"  # Generalizar todas as instruções DUP
        elif opcode.startswith("SWAP"):
            opcode = "SWAP"  # Generalizar todas as instruções SWAP
        elif opcode.startswith("LOG"):
            opcode = "LOG"  # Generalizar todas as instruções LOG

        opcodes.append(opcode)

        # Tratar instruções PUSH (ignorar bytes adicionais)
        if opcode == "PUSH":
            push_bytes = int(byte, 16) - 0x60 + 1
            i += push_bytes * 2  # Ignorar os bytes PUSH
        i += 2  # Próximo byte

    return opcodes

# Função para ler CSV, transformar os bytecodes e salvar em um novo arquivo
def process_csv(input_file, output_file, opcode_dict):
    with open(input_file, mode='r', newline='', encoding='utf-8') as infile:
        reader = csv.DictReader(infile)
        
        # Imprimir os nomes das colunas (opcional para depuração)
        print("Colunas encontradas:", reader.fieldnames)
        
        # Criando um novo arquivo CSV com as colunas 'Opcodes' e 'CATEGORY'
        with open(output_file, mode='w', newline='', encoding='utf-8') as outfile:
            fieldnames = ['Opcodes', 'CATEGORY']
            writer = csv.DictWriter(outfile, fieldnames=fieldnames)
            writer.writeheader()
            
            # Processa cada linha do arquivo CSV
            for row in reader:
                bytecode = row['bytecode']  # Use o nome exato da coluna de bytecode
                category = row['category']  # Use o nome exato da coluna de categoria
                opcodes = convert_bytecode_to_opcodes(bytecode, opcode_dict)
                opcodes_str = " ".join(opcodes)  # Transforma a lista de opcodes em uma string
                
                # Escreve a nova linha no arquivo CSV de saída
                writer.writerow({'Opcodes': opcodes_str, 'CATEGORY': category})

# Exemplo de uso
url = "https://ethervm.io"  # URL onde os bytecodes e opcodes estão
bytecodes_opcodes = fetch_bytecodes_and_opcodes(url)

input_csv = 'final_dataset.csv'  # Nome do arquivo CSV de entrada
output_csv = 'output.csv'  # Nome do arquivo CSV de saída

process_csv(input_csv, output_csv, bytecodes_opcodes)


Colunas encontradas: ['bytecode', 'category']
