In [20]:
# Instala as bibliotecas necessárias para a sessão
!pip install pandas sqlalchemy psycopg2-binary web3 tqdm scikit-learn matplotlib seaborn

# Importa as ferramentas
import pandas as pd
from sqlalchemy import create_engine
import json
from web3 import Web3
from tqdm.auto import tqdm

print("--- Passo 1: Carregando Dados da Mainnet ---")
# Conecta ao banco de dados
db_connection_str = 'postgresql://admin:supersecret@localhost:5433/mempool_data'
db_engine = create_engine(db_connection_str)

try:
    df_raw = pd.read_sql("SELECT * FROM transactions", con=db_engine)
    print(f"Sucesso! Carregamos {len(df_raw)} transações REAIS e enriquecidas.")
    # Remove qualquer linha que possa ter falhado na coleta
    df_raw.dropna(subset=['inputData', 'base_fee_per_gas'], inplace=True)
    df_raw = df_raw[df_raw['inputData'] != '0x'] # Remove transações sem input data
    print(f"Temos {len(df_raw)} transações válidas para análise.")
    
except Exception as e:
    print(f"--- ERRO ao carregar dados do banco: {e} ---")
    df = pd.DataFrame()

--- Passo 1: Carregando Dados da Mainnet ---
Sucesso! Carregamos 24014 transações REAIS e enriquecidas.
Temos 24013 transações válidas para análise.


In [21]:
if not df_raw.empty:
    print("\n--- Passo 2: Decodificando transações e criando features ---")
    
    # ABI para decodificar swaps da Uniswap V2
    router_v2_abi_str = '[{"inputs":[{"type":"uint256","name":"amountIn"},{"type":"uint256","name":"amountOutMin"},{"type":"address[]","name":"path"}],"name":"swapExactTokensForTokens","type":"function"},{"inputs":[{"type":"uint256","name":"amountOutMin"},{"type":"address[]","name":"path"}],"name":"swapExactETHForTokens","type":"function"}]'
    router_abi = json.loads(router_v2_abi_str)
    generic_contract = Web3().eth.contract(abi=router_abi)

    def decode_input_data(input_data):
        try:
            input_bytes = bytes.fromhex(input_data[2:])
            func_obj, func_params = generic_contract.decode_function_input(input_bytes)
            # Retorna o nome da função e os parâmetros como um dicionário
            return pd.Series([func_obj.fn_name, func_params])
        except Exception:
            return pd.Series(['desconhecido', {}])

    # Cria as novas colunas
    df_raw[['function_name', 'params']] = df_raw['inputData'].apply(decode_input_data)
    
    # Filtra apenas os swaps diretos de token para token
    swaps_df = df_raw[df_raw['function_name'] == 'swapExactTokensForTokens'].copy()
    
    # Cria as features que usaremos para treinar o modelo
    if not swaps_df.empty:
        swaps_df['token_in'] = swaps_df['params'].apply(lambda p: p.get('path', [None])[0])
        swaps_df['token_out'] = swaps_df['params'].apply(lambda p: p.get('path', [None])[-1])
        swaps_df['amount_in'] = swaps_df['params'].apply(lambda p: p.get('amountIn', 0))
        # Limpando colunas numéricas que vieram como texto
        swaps_df['gas_price_numeric'] = pd.to_numeric(swaps_df['gas_price'], errors='coerce').fillna(0)
        swaps_df['base_fee_numeric'] = pd.to_numeric(swaps_df['base_fee_per_gas'], errors='coerce').fillna(0)
        swaps_df['value_numeric'] = pd.to_numeric(swaps_df['value'], errors='coerce').fillna(0)
        
        # FEATURE NOVA: Gorjeta do Minerador (sinal de urgência)
        swaps_df['priority_fee'] = swaps_df['gas_price_numeric'] - swaps_df['base_fee_numeric']
        
        print(f"Engenharia de features concluída! Encontramos {len(swaps_df)} swaps para usar.")
        display(swaps_df[['hash', 'token_in', 'token_out', 'amount_in', 'priority_fee']].head())
    else:
        print("Nenhum swap do tipo 'swapExactTokensForTokens' encontrado na amostra.")

else:
    print("DataFrame original vazio. Verifique a Célula 1.")


--- Passo 2: Decodificando transações e criando features ---
Nenhum swap do tipo 'swapExactTokensForTokens' encontrado na amostra.


In [3]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Só executa se tivermos swaps para analisar
if not swaps_df.empty:
    print("\n--- Passo 3: Rotulando dados e treinando o modelo de IA ---")
    # A lógica de cálculo de preço (getAmountOut) é complexa de replicar aqui.
    # Para este exercício final, vamos criar um "alvo" baseado em uma heurística forte:
    # "Uma oportunidade de arbitragem é mais provável em uma transação com gorjeta alta e valor alto"
    
    # Criando um alvo proxy (substituto) para o treinamento
    amount_in_threshold = swaps_df['amount_in'].quantile(0.90) # Top 10% dos valores
    priority_fee_threshold = swaps_df['priority_fee'].quantile(0.90) # Top 10% das gorjetas
    
    swaps_df['arbitrage_opportunity'] = ((swaps_df['amount_in'] > amount_in_threshold) & (swaps_df['priority_fee'] > priority_fee_threshold)).astype(int)
    
    print("Distribuição do nosso alvo 'arbitrage_opportunity':")
    print(swaps_df['arbitrage_opportunity'].value_counts())

    # --- Treinamento da IA ---
    # Features que usaremos: valor do swap, limite de gás, e a gorjeta paga
    features = ['amount_in', 'gas_limit', 'priority_fee']
    X = swaps_df[features]
    y = swaps_df['arbitrage_opportunity']
    
    if len(swaps_df[y==1]) > 1: # Garante que temos pelo menos uma oportunidade para treinar
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

        model = RandomForestClassifier(n_estimators=100, random_state=42, max_depth=10)
        print("\nTreinando o modelo de IA v1.0...")
        model.fit(X_train, y_train)
        print("Treinamento concluído!")
        
        predictions = model.predict(X_test)
        accuracy = accuracy_score(y_test, predictions)
        
        print("\n--- AVALIAÇÃO DO MODELO FINAL ---")
        print(f"Acurácia: {accuracy * 100:.2f}%")
        print("\nRelatório de Classificação:")
        print(classification_report(y_test, predictions))
    else:
        print("\nNão foram encontradas 'oportunidades' suficientes no dataset para treinar o modelo.")

else:
    print("Nenhum swap encontrado para analisar. Deixe o coletor rodar mais.")

Nenhum swap encontrado para analisar. Deixe o coletor rodar mais.
