In [8]:
import pandas as pd
from sqlalchemy import create_engine
import json
from web3 import Web3

# --------------------------------------------------------------------------
# PASSO 1: Carregar os Dados REAIS do seu Banco de Dados
# --------------------------------------------------------------------------
print("--- Passo 1: Carregando dados da Mainnet do seu servidor na nuvem ---")
db_connection_str = 'postgresql://admin:supersecret@34.79.99.180:5433/mempool_data'
db_engine = create_engine(db_connection_str)

try:
    df = pd.read_sql("SELECT hash, \"inputData\", to_address FROM transactions", con=db_engine)
    print(f"Sucesso! Carregamos {len(df)} transações REAIS para análise.")
    df.dropna(subset=['inputData'], inplace=True)
    df = df[df['inputData'].str.len() > 10]
except Exception as e:
    print(f"--- ERRO ao carregar dados do banco: {e} ---")
    df = pd.DataFrame()

# --------------------------------------------------------------------------
# PASSO 2: Decodificação com um "Molho de Chaves" Maior
# --------------------------------------------------------------------------
if not df.empty:
    print("\n--- Passo 2: Decodificando 'inputData' para identificar TODAS as funções ---")
    
    # Usamos um ABI mais completo com as assinaturas de função mais comuns
    # Incluindo a poderosa função 'execute'
    abi_str = '[{"inputs":[{"type":"bytes","name":"commands","internalType":"bytes"},{"type":"bytes[]","name":"inputs","internalType":"bytes[]"}],"name":"execute","outputs":[],"stateMutability":"payable","type":"function"},{"inputs":[{"type":"uint256","name":"amountIn","type":"uint256"},{"type":"uint256","name":"amountOutMin","type":"uint256"},{"type":"address[]","name":"path","type":"address[]"},{"type":"address","name":"to","type":"address"},{"type":"uint256","name":"deadline","type":"uint256"}],"name":"swapExactTokensForTokens","outputs":[],"stateMutability":"nonpayable","type":"function"},{"inputs":[{"type":"uint256","name":"amountOutMin","type":"uint256"},{"type":"address[]","name":"path","type":"address[]"},{"type":"address","name":"to","type":"address"},{"type":"uint256","name":"deadline","type":"uint256"}],"name":"swapExactETHForTokens","outputs":[],"stateMutability":"payable","type":"function"},{"inputs":[{"internalType":"address","name":"token","type":"address"},{"internalType":"uint256","name":"value","type":"uint256"},{"internalType":"uint256","name":"deadline","type":"uint256"},{"internalType":"uint8","name":"v","type":"uint8"},{"internalType":"bytes32","name":"r","type":"bytes32"},{"internalType":"bytes32","name":"s","type":"bytes32"}],"name":"permit","outputs":[],"stateMutability":"nonpayable","type":"function"}]'
    
    generic_abi = json.loads(abi_str)
    generic_contract = Web3().eth.contract(abi=generic_abi)

    def decode_input_data(input_data):
        try:
            input_bytes = bytes.fromhex(input_data[2:])
            func_obj, func_params = generic_contract.decode_function_input(input_bytes)
            return func_obj.fn_name
        except Exception:
            return 'desconhecido'

    # Criamos a nova coluna com o nome da função decodificada
    df['function_name'] = df['inputData'].apply(decode_input_data)
    
    print("\n--- ANÁLISE DE FUNÇÕES ENCONTRADAS ---")
    print("Esta é a distribuição real das funções que seu bot está capturando:")
    
    # Mostra a contagem de quais funções encontramos
    function_counts = df['function_name'].value_counts()
    display(function_counts)

else:
    print("\nNenhum dado para analisar.")

--- Passo 1: Carregando dados da Mainnet do seu servidor na nuvem ---
Sucesso! Carregamos 791 transações REAIS para análise.

--- Passo 2: Decodificando 'inputData' para identificar TODAS as funções ---

--- ANÁLISE DE FUNÇÕES ENCONTRADAS ---
Esta é a distribuição real das funções que seu bot está capturando:


function_name
desconhecido                563
swapExactETHForTokens       157
swapExactTokensForTokens     71
Name: count, dtype: int64

In [10]:
from sklearn.model_selection import train_test_split

if not swaps_df.empty:
    print("--- Preparando dados para o modelo de IA ---")
    
    # Criando nosso alvo (target): uma transação é "interessante" (1) se a gorjeta for muito alta
    priority_fee_threshold = swaps_df['priority_fee'].quantile(0.85) # Top 15% das gorjetas
    swaps_df['target'] = (swaps_df['priority_fee'] > priority_fee_threshold).astype(int)
    
    print(f"Definimos 'interessante' como transações com gorjeta > {priority_fee_threshold:.0f} wei.")
    print("Distribuição do alvo:", swaps_df['target'].value_counts(), sep='\n')

    # Selecionando as features que o modelo usará
    features_df = swaps_df[['gas_limit', 'priority_fee', 'path_length']]
    
    # O alvo que o modelo tentará prever
    y = swaps_df['target']
    
    # Dividindo os dados
    X_train, X_test, y_train, y_test = train_test_split(features_df, y, test_size=0.3, random_state=42, stratify=y)
    
    print(f"\nDados prontos! {len(X_train)} amostras de treino, {len(X_test)} amostras de teste.")

else:
    print("Nenhum swap encontrado para preparar. Deixe o coletor rodar mais.")

Nenhum swap encontrado para preparar. Deixe o coletor rodar mais.


In [11]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import numpy as np

# Só executa se o DataFrame 'df' da célula anterior existir e tiver dados
if 'df' in locals() and not df.empty:
    print("--- Iniciando a fase final: Treinamento do Modelo de IA ---")

    # 1. ENGENHARIA DE FEATURES
    # Filtra apenas os swaps que conseguimos decodificar
    swaps_df = df[df['function_name'].str.contains("swap", na=False)].copy()
    
    if not swaps_df.empty:
        print(f"\nUsando {len(swaps_df)} swaps reais como base para o treinamento...")
        
        # Converte colunas para formato numérico, tratando possíveis erros
        swaps_df['gas_price_numeric'] = pd.to_numeric(swaps_df['gas_price'], errors='coerce').fillna(0)
        swaps_df['base_fee_numeric'] = pd.to_numeric(swaps_df['base_fee_per_gas'], errors='coerce').fillna(0)
        swaps_df['value_numeric'] = pd.to_numeric(swaps_df['value'], errors='coerce').fillna(0)
        
        # Feature #1: A "gorjeta de urgência" (priority_fee)
        # Transações com gorjeta alta são mais suspeitas de serem MEV/Arbitragem
        swaps_df['priority_fee'] = swaps_df['gas_price_numeric'] - swaps_df['base_fee_numeric']
        # Garante que não há valores negativos
        swaps_df['priority_fee'] = swaps_df['priority_fee'].apply(lambda x: max(x, 0))

        # 2. CRIAÇÃO DO ALVO (LABELING)
        # Nosso alvo: a transação é "altamente competitiva" (1) ou "normal" (0)?
        # Usamos a gorjeta como um proxy para isso. As 20% transações com maior gorjeta serão nosso alvo.
        limiar_interesse = swaps_df['priority_fee'].quantile(0.80)
        swaps_df['target'] = (swaps_df['priority_fee'] > limiar_interesse).astype(int)

        print("\nDistribuição do nosso alvo de treino:")
        print(swaps_df['target'].value_counts())

        # 3. PREPARAÇÃO DOS DADOS PARA O MODELO
        # Nossas "pistas" (features) serão o valor da transação e a gorjeta paga
        features_df = swaps_df[['value_numeric', 'priority_fee']]
        y = swaps_df['target']

        # Dividimos os dados para treino e para teste
        X_train, X_test, y_train, y_test = train_test_split(features_df, y, test_size=0.3, random_state=42, stratify=y)
        
        # 4. TREINAMENTO E AVALIAÇÃO DA IA
        # Usamos um RandomForest, um modelo poderoso e versátil
        model = RandomForestClassifier(n_estimators=100, random_state=42, max_depth=10, class_weight='balanced')
        
        print("\nTreinando o modelo de IA com dados da Mainnet...")
        model.fit(X_train, y_train)
        print("Treinamento concluído!")

        predictions = model.predict(X_test)
        accuracy = accuracy_score(y_test, predictions)
        
        print("\n--- AVALIAÇÃO DO MODELO PREDITIVO v1.0 ---")
        print(f"Acurácia do Modelo: {accuracy * 100:.2f}%")
        print("\nRelatório de Classificação Detalhado:")
        print(classification_report(y_test, predictions))
    else:
        print("Nenhum swap encontrado no dataset para treinar o modelo.")
else:
    print("DataFrame 'df' não foi encontrado. Execute a célula anterior para carregar os dados.")

--- Iniciando a fase final: Treinamento do Modelo de IA ---

Usando 228 swaps reais como base para o treinamento...


KeyError: 'gas_price'