In [1]:
import pandas as pd
from sqlalchemy import create_engine
from web3 import Web3
import json
from tqdm.auto import tqdm
import math

# --------------------------------------------------------------------------
# PASSO 1: Carregar os Dados do Banco de Dados
# --------------------------------------------------------------------------
print("--- Passo 1: Carregando dados da Mainnet do seu banco de dados ---")
db_connection_str = 'postgresql://admin:supersecret@localhost:5433/mempool_data'
db_engine = create_engine(db_connection_str)

try:
    df_raw = pd.read_sql("SELECT * FROM transactions", con=db_engine)
    # Para o nosso teste, vamos pegar uma amostra de 200 transações para ser mais rápido
    df = df_raw.sample(n=min(200, len(df_raw)), random_state=42).copy()
    print(f"Sucesso! Carregamos uma amostra de {len(df)} transações para processamento.")
except Exception as e:
    print(f"--- ERRO ao carregar dados do banco: {e} ---")
    df = pd.DataFrame()

# --------------------------------------------------------------------------
# PASSO 2: Configuração e Função de Cálculo de Preço
# --------------------------------------------------------------------------
if not df.empty:
    print("\n--- Passo 2: Configurando o ambiente de cálculo ---")
    alchemy_url = "SUA_URL_HTTP_DA_MAINNET_AQUI" 
    w3 = Web3(Web3.HTTPProvider(alchemy_url))

    # ABIs que precisamos
    factory_abi_str = '[{"constant":true,"inputs":[{"internalType":"address","name":"tokenA","type":"address"},{"internalType":"address","name":"tokenB","type":"address"}],"name":"getPair","outputs":[{"internalType":"address","name":"pair","type":"address"}],"payable":false,"stateMutability":"view","type":"function"}]'
    pair_abi_str = '[{"constant":true,"inputs":[],"name":"getReserves","outputs":[{"internalType":"uint112","name":"_reserve0","type":"uint112"},{"internalType":"uint112","name":"_reserve1","type":"uint112"},{"internalType":"uint32","name":"_blockTimestampLast","type":"uint32"}],"payable":false,"stateMutability":"view","type":"function"},{"constant":true,"inputs":[],"name":"token0","outputs":[{"internalType":"address","name":"","type":"address"}],"payable":false,"stateMutability":"view","type":"function"}]'
    
    factory_abi = json.loads(factory_abi_str)
    pair_abi = json.loads(pair_abi_str)

    # Função que replica a nossa lógica do Go em Python
    def get_amount_out(factory_address_str, token_in_str, token_out_str, amount_in_wei):
        try:
            factory = w3.eth.contract(address=Web3.to_checksum_address(factory_address_str), abi=factory_abi)
            token_in = Web3.to_checksum_address(token_in_str)
            token_out = Web3.to_checksum_address(token_out_str)
            
            pair_address = factory.functions.getPair(token_in, token_out).call()
            if pair_address == '0x0000000000000000000000000000000000000000':
                return 0

            pair = w3.eth.contract(address=pair_address, abi=pair_abi)
            reserves = pair.functions.getReserves().call()
            token0 = pair.functions.token0().call()

            reserve_in, reserve_out = (reserves[0], reserves[1]) if token_in == token0 else (reserves[1], reserves[0])
            
            amount_in_with_fee = amount_in * 997
            numerator = amount_in_with_fee * reserve_out
            denominator = (reserve_in * 1000) + amount_in_with_fee
            
            return numerator // denominator
        except Exception:
            return 0
    
    print("Função de cálculo de preço pronta.")

# --------------------------------------------------------------------------
# PASSO 3: Rotulando os Dados (A Criação do Alvo)
# --------------------------------------------------------------------------
if not df.empty:
    print("\n--- Passo 3: Rotulando cada transação como 'Oportunidade (1)' ou 'Não (0)' ---")
    
    # Endereços das Factories na Mainnet
    uniswap_factory = "0x5C69bEe701ef814a2B6a3EDD4B1652CB9cc5aA6f"
    sushiswap_factory = "0xC0AEe478e3658e2610c5F7A4A2E1777cE9e4f2Ac"

    # Decodificando o input data (simplificado para este exemplo)
    df['token_in'] = '0xC02aaA39b223FE8D0A0e5C4F27eAD9083C756Cc2' # Exemplo: WETH
    df['token_out'] = '0x6B175474E89094C44Da98b954EedeAC495271d0F'# Exemplo: DAI
    df['amount_in'] = 1 * (10**18) # Exemplo: 1 WETH

    opportunities = []
    for index, row in tqdm(df.iterrows(), total=df.shape[0]):
        amount_in = int(row['amount_in'])
        
        # Simula a troca nos dois sentidos
        # Cenário 1: Compra na Sushi, Vende na Uni
        sushi_out = get_amount_out(sushiswap_factory, row['token_in'], row['token_out'], amount_in)
        if sushi_out > 0:
            final_amount_A = get_amount_out(uniswap_factory, row['token_out'], row['token_in'], sushi_out)
            if final_amount_A > amount_in:
                opportunities.append(1)
                continue
        
        # Cenário 2: Compra na Uni, Vende na Sushi
        uni_out = get_amount_out(uniswap_factory, row['token_in'], row['token_out'], amount_in)
        if uni_out > 0:
            final_amount_B = get_amount_out(sushiswap_factory, row['token_out'], row['token_in'], uni_out)
            if final_amount_B > amount_in:
                opportunities.append(1)
                continue

        opportunities.append(0)

    df['arbitrage_opportunity'] = opportunities
    
    print("\nRotulagem concluída!")
    print("Distribuição do nosso alvo real:")
    print(df['arbitrage_opportunity'].value_counts())
    
else:
    print("Nenhum dado para analisar.")

--- Passo 1: Carregando dados da Mainnet do seu banco de dados ---
Sucesso! Carregamos uma amostra de 200 transações para processamento.

--- Passo 2: Configurando o ambiente de cálculo ---
Função de cálculo de preço pronta.

--- Passo 3: Rotulando cada transação como 'Oportunidade (1)' ou 'Não (0)' ---


  0%|          | 0/200 [00:00<?, ?it/s]


Rotulagem concluída!
Distribuição do nosso alvo real:
arbitrage_opportunity
0    200
Name: count, dtype: int64
