In [1]:
import pandas as pd
from sqlalchemy import create_engine

# Conecta ao nosso banco de dados TimescaleDB/PostgreSQL
db_connection_str = 'postgresql://admin:supersecret@localhost:5433/mempool_data'
db_engine = create_engine(db_connection_str)

print("Carregando dados enriquecidos da Mainnet coletados pelo bot...")

try:
    # Carrega toda a tabela 'transactions' para um DataFrame do pandas
    df = pd.read_sql("SELECT * FROM transactions", con=db_engine)
    print(f"Sucesso! Carregamos {len(df)} transações REAIS de alvos de alto volume.")
    
    if not df.empty:
        # Mostra um resumo dos dados e as primeiras linhas
        print("\nResumo do Dataset:")
        df.info()
        print("\n\n5 Primeiras Linhas do Dataset:")
        display(df.head())
    else:
        print("AVISO: A tabela está vazia. Deixe o coletor rodar por mais tempo.")
        
except Exception as e:
    print(f"\nOcorreu um erro ao carregar os dados: {e}")

Carregando dados enriquecidos da Mainnet coletados pelo bot...
Sucesso! Carregamos 9784 transações REAIS de alvos de alto volume.

Resumo do Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9784 entries, 0 to 9783
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype              
---  ------           --------------  -----              
 0   hash             9784 non-null   object             
 1   to_address       9784 non-null   object             
 2   from_address     9784 non-null   object             
 3   nonce            9784 non-null   int64              
 4   gas_price        9784 non-null   object             
 5   gas_limit        9784 non-null   int64              
 6   value            9784 non-null   object             
 7   event_timestamp  9784 non-null   datetime64[ns, UTC]
 8   inputData        9784 non-null   object             
dtypes: datetime64[ns, UTC](1), int64(2), object(6)
memory usage: 688.1+ KB


5 Primeiras Linhas do Datase

Unnamed: 0,hash,to_address,from_address,nonce,gas_price,gas_limit,value,event_timestamp,inputData
0,0xb9d032c6aec802365a59666eea8745a9d9e188603089...,0x7a250d5630B4cF539739dF2C5dAcb4c659F2488D,,325,1826147392,134460,0,2025-06-19 17:14:47+00:00,0x8803dbee000000000000000000000000000000000000...
1,0x4552a8611aba019a9c5c1a3126c29946f802d9a31a13...,0x111111125421cA6dc452d289314280a0f8842A65,,160,2066977320,209794,0,2025-06-19 17:14:47+00:00,0x07ed23790000000000000000000000005141b82f5ffd...
2,0xcb6c305ed3987722de573ce8d6066607bea92de9b3c6...,0x7a250d5630B4cF539739dF2C5dAcb4c659F2488D,,12613,4201094898,500000,0,2025-06-19 17:14:47+00:00,0x18cbafe5000000000000000000000000000000000000...
3,0xf368f903196bdf38b7a95b1395a6cb0afaa2eb444802...,0x7a250d5630B4cF539739dF2C5dAcb4c659F2488D,,131,2112722635,156216,0,2025-06-19 17:14:47+00:00,0x5c11d795000000000000000000000000000000000000...
4,0x28f0643130807b5489c88a00698556034f51a2f1b2f7...,0x7a250d5630B4cF539739dF2C5dAcb4c659F2488D,,630,3599567633,300000,316200000000000000,2025-06-19 17:15:11+00:00,0x7ff36ab5000000000000000000000000000000000000...


In [2]:
from web3 import Web3
import json

# Só executa se tivermos dados
if not df.empty:
    print("--- Iniciando decodificação do 'inputData' ---")
    
    # Usamos um ABI combinado para decodificar as funções de swap mais comuns
    # dos roteadores que estamos monitorando.
    combined_abi_str = '[{"name":"swapExactTokensForTokens","inputs":[{"type":"address[]","name":"path"},{"type":"uint256","name":"amountIn"},{"type":"uint256","name":"amountOutMin"}],"type":"function"},{"name":"swapExactETHForTokens","inputs":[{"type":"address[]","name":"path"},{"type":"uint256","name":"amountOutMin"}],"type":"function"},{"name":"execute","inputs":[{"type":"bytes","name":"commands"},{"type":"bytes[]","name":"inputs"}],"type":"function"}]'
    combined_abi = json.loads(combined_abi_str)
    generic_contract = Web3().eth.contract(abi=combined_abi)

    decoded_results = []
    for input_data in df['inputData']:
        if not isinstance(input_data, str) or len(input_data) <= 10:
            decoded_results.append({'function_name': 'no_input_data', 'params': {}})
            continue
        try:
            input_bytes = bytes.fromhex(input_data[2:])
            func_obj, func_params = generic_contract.decode_function_input(input_bytes)
            decoded_results.append({'function_name': func_obj.fn_name, 'params': func_params})
        except Exception:
            decoded_results.append({'function_name': 'desconhecido', 'params': {}})
            
    # Adiciona os resultados decodificados como novas colunas no nosso DataFrame
    df_decoded = pd.DataFrame(decoded_results)
    df['function_name'] = df_decoded['function_name']
    df['decoded_params'] = df_decoded['params']

    print("\nDecodificação completa!")
    print("Contagem das funções encontradas:")
    display(df['function_name'].value_counts())
else:
    print("Nenhum dado para analisar.")

--- Iniciando decodificação do 'inputData' ---

Decodificação completa!
Contagem das funções encontradas:


function_name
desconhecido    9784
Name: count, dtype: int64

In [3]:
# Filtramos o DataFrame para conter apenas os swaps que conseguimos decodificar
swaps_df = df[df['function_name'].str.contains("swap", case=False, na=False)].copy()

print(f"Encontramos {len(swaps_df)} transações de swap para analisar.")

# Criamos as colunas de features extraindo os dados dos parâmetros
# 'path' nos diz os tokens, 'amountIn' nos diz a quantidade
swaps_df['token_in'] = swaps_df['decoded_params'].apply(
    lambda params: params.get('path', [None])[0] if isinstance(params, dict) else None
)
swaps_df['token_out'] = swaps_df['decoded_params'].apply(
    lambda params: params.get('path', [None])[-1] if isinstance(params, dict) else None
)
swaps_df['amount_in'] = swaps_df['decoded_params'].apply(
    lambda params: params.get('amountIn', 0) if isinstance(params, dict) else 0
)

print("\nFeatures 'token_in', 'token_out' e 'amount_in' criadas com sucesso!")
print("Amostra do nosso dataset final de treino:")

# Exibe as colunas mais importantes do nosso dataset final
display(swaps_df[['hash', 'function_name', 'token_in', 'token_out', 'amount_in']].head())

Encontramos 0 transações de swap para analisar.

Features 'token_in', 'token_out' e 'amount_in' criadas com sucesso!
Amostra do nosso dataset final de treino:


Unnamed: 0,hash,function_name,token_in,token_out,amount_in


In [4]:
# PASSO 0: Importar todas as ferramentas
import pandas as pd
from sqlalchemy import create_engine
from web3 import Web3
import json
from tqdm.auto import tqdm

# --------------------------------------------------------------------------
# PASSO 1: Carregar os Dados REAIS do seu Banco de Dados
# --------------------------------------------------------------------------
print("--- Passo 1: Carregando dados REAIS da Mainnet do seu banco de dados ---")
db_connection_str = 'postgresql://admin:supersecret@localhost:5433/mempool_data'
db_engine = create_engine(db_connection_str)

try:
    df = pd.read_sql("SELECT * FROM transactions", con=db_engine)
    print(f"Sucesso! Carregamos {len(df)} transações REAIS coletadas pelo seu bot.")
    df.dropna(subset=['inputData'], inplace=True) # Garante que não temos dados de input nulos
except Exception as e:
    print(f"--- ERRO ao carregar dados do banco: {e} ---")
    df = pd.DataFrame()

# --------------------------------------------------------------------------
# PASSO 2: Decodificar o 'inputData' com o ABI CORRETO
# --------------------------------------------------------------------------
if not df.empty:
    print("\n--- Passo 2: Decodificando 'inputData' com o ABI correto ---")
    
    # CORREÇÃO: Usando o ABI completo e correto da Uniswap V2
    router_v2_abi_str = '[{"inputs":[{"internalType":"uint256","name":"amountIn","type":"uint256"},{"internalType":"uint256","name":"amountOutMin","type":"uint256"},{"internalType":"address[]","name":"path","type":"address[]"},{"internalType":"address","name":"to","type":"address"},{"internalType":"uint256","name":"deadline","type":"uint256"}],"name":"swapExactTokensForTokens","outputs":[{"internalType":"uint256[]","name":"amounts","type":"uint256[]"}],"stateMutability":"nonpayable","type":"function"},{"inputs":[{"internalType":"uint256","name":"amountOutMin","type":"uint256"},{"internalType":"address[]","name":"path","type":"address[]"},{"internalType":"address","name":"to","type":"address"},{"internalType":"uint256","name":"deadline","type":"uint256"}],"name":"swapExactETHForTokens","outputs":[{"internalType":"uint256[]","name":"amounts","type":"uint256[]"}],"stateMutability":"payable","type":"function"}]'
    router_abi = json.loads(router_v2_abi_str)
    # Não precisamos de endereço, apenas do objeto ABI para decodificação
    generic_contract = Web3().eth.contract(abi=router_abi)

    def decode_input_data(input_data):
        if not isinstance(input_data, str) or len(input_data) <= 10:
            return 'no_input_data'
        try:
            input_bytes = bytes.fromhex(input_data[2:])
            func_obj, func_params = generic_contract.decode_function_input(input_bytes)
            # Retornamos o nome da função para nossa análise
            return func_obj.fn_name
        except Exception:
            # Se não for uma função do ABI V2, marcamos como "Outra Função"
            return 'Outra Funcao'

    # Criamos a nova coluna com o nome da função decodificada
    df['function_name'] = df['inputData'].apply(decode_input_data)
    
    print("\nDecodificação concluída!")
    print("\n--- Análise Final dos DADOS REAIS ---")
    print("Contagem das funções decodificadas:")
    
    # Mostra a contagem de quais funções encontramos
    display(df['function_name'].value_counts())
else:
    print("\nNenhum dado para analisar. Deixe o coletor rodar por mais tempo.")

--- Passo 1: Carregando dados REAIS da Mainnet do seu banco de dados ---
Sucesso! Carregamos 9968 transações REAIS coletadas pelo seu bot.

--- Passo 2: Decodificando 'inputData' com o ABI correto ---

Decodificação concluída!

--- Análise Final dos DADOS REAIS ---
Contagem das funções decodificadas:


function_name
Outra Funcao                7870
swapExactETHForTokens       1535
swapExactTokensForTokens     563
Name: count, dtype: int64

In [5]:
import pandas as pd
from sqlalchemy import create_engine
from web3 import Web3
import json
from tqdm.auto import tqdm

# --- Passo 1: Carregar os Dados REAIS do Banco de Dados ---
print("--- Passo 1: Carregando dados da Mainnet do seu banco de dados ---")
db_connection_str = 'postgresql://admin:supersecret@localhost:5433/mempool_data'
db_engine = create_engine(db_connection_str)
try:
    df = pd.read_sql("SELECT hash, \"inputData\" FROM transactions", con=db_engine)
    print(f"Sucesso! Carregamos {len(df)} transações coletadas para processamento.")
except Exception as e:
    print(f"--- ERRO ao carregar dados do banco: {e} ---")
    df = pd.DataFrame()

# --- Passo 2: Decodificar o 'inputData' ---
if not df.empty:
    print("\n--- Passo 2: Decodificando 'inputData' para extrair parâmetros ---")
    # Usaremos um ABI completo para capturar as funções de swap mais comuns
    router_abi_str = '[{"inputs":[{"type":"uint256","name":"amountIn","internalType":"uint256"},{"type":"uint256","name":"amountOutMin","internalType":"uint256"},{"type":"address[]","name":"path","internalType":"address[]"},{"type":"address","name":"to","type":"address"},{"type":"uint256","name":"deadline","type":"uint256"}],"name":"swapExactTokensForTokens","outputs":[{"type":"uint256[]","name":"amounts","type":"uint256[]"}],"stateMutability":"nonpayable","type":"function"},{"inputs":[{"type":"uint256","name":"amountOutMin","type":"uint256"},{"type":"address[]","name":"path","internalType":"address[]"},{"type":"address","name":"to","type":"address"},{"type":"uint256","name":"deadline","type":"uint256"}],"name":"swapExactETHForTokens","outputs":[{"type":"uint256[]","name":"amounts","type":"uint256[]"}],"stateMutability":"payable","type":"function"},{"name":"execute","inputs":[{"type":"bytes","name":"commands"},{"type":"bytes[]","name":"inputs"}],"type":"function"}]'
    router_abi = json.loads(router_abi_str)
    generic_contract = Web3().eth.contract(abi=router_abi)

    def decode_input(input_data):
        if not isinstance(input_data, str) or len(input_data) <= 10:
            return pd.Series([None, None])
        try:
            input_bytes = bytes.fromhex(input_data[2:])
            func_obj, func_params = generic_contract.decode_function_input(input_bytes)
            return pd.Series([func_obj.fn_name, func_params])
        except Exception:
            return pd.Series(['desconhecido', None])

    # Cria as novas colunas com o nome da função e os parâmetros
    df[['function_name', 'params']] = df['inputData'].apply(decode_input)
    
    print("Decodificação concluída!")
    display(df.head())
else:
    print("Nenhum dado para analisar.")

--- Passo 1: Carregando dados da Mainnet do seu banco de dados ---
Sucesso! Carregamos 10358 transações coletadas para processamento.

--- Passo 2: Decodificando 'inputData' para extrair parâmetros ---
Decodificação concluída!


Unnamed: 0,hash,inputData,function_name,params
0,0xb9d032c6aec802365a59666eea8745a9d9e188603089...,0x8803dbee000000000000000000000000000000000000...,desconhecido,
1,0x4552a8611aba019a9c5c1a3126c29946f802d9a31a13...,0x07ed23790000000000000000000000005141b82f5ffd...,desconhecido,
2,0xcb6c305ed3987722de573ce8d6066607bea92de9b3c6...,0x18cbafe5000000000000000000000000000000000000...,desconhecido,
3,0xf368f903196bdf38b7a95b1395a6cb0afaa2eb444802...,0x5c11d795000000000000000000000000000000000000...,desconhecido,
4,0x28f0643130807b5489c88a00698556034f51a2f1b2f7...,0x7ff36ab5000000000000000000000000000000000000...,swapExactETHForTokens,"{'amountOutMin': 523693237307611933900343, 'pa..."


In [6]:
# Só prossiga se a decodificação tiver funcionado
if 'function_name' in df.columns:
    print("--- Passo 3: Engenharia de Features ---")
    
    # 1. Filtrar apenas os swaps que nos interessam
    swaps_df = df[df['function_name'].isin(['swapExactTokensForTokens', 'swapExactETHForTokens'])].copy()
    print(f"Encontradas {len(swaps_df)} transações de swap para usar no treinamento.")

    # 2. Extrair 'amountIn' dos parâmetros
    # (Para swapExactETHForTokens, o amountIn é o 'value' da transação, o que é mais complexo. 
    # Por simplicidade, vamos focar nas transações 'swapExactTokensForTokens' por enquanto)
    swaps_df = df[df['function_name'] == 'swapExactTokensForTokens'].copy()
    swaps_df['amount_in'] = swaps_df['params'].apply(lambda p: p.get('amountIn', 0) if isinstance(p, dict) else 0)

    # 3. Criar nossa variável "alvo" (target)
    # Vamos definir que uma transação "interessante" é uma com um valor de entrada ('amount_in') alto.
    # Usamos o quantil 75% como nosso limiar.
    limiar_de_interesse = swaps_df['amount_in'].quantile(0.75)
    swaps_df['alvo_interessante'] = (swaps_df['amount_in'] > limiar_de_interesse).astype(int)

    print(f"\nCriamos um alvo: transações com valor acima de {limiar_de_interesse} são 'interessantes' (1).")
    print("Distribuição do nosso alvo:")
    print(swaps_df['alvo_interessante'].value_counts())
    
    # 4. Criar features numéricas a partir de colunas de texto (One-Hot Encoding)
    # Isso transforma os endereços dos tokens em colunas numéricas que a IA entende
    swaps_df['token_in'] = swaps_df['params'].apply(lambda p: p.get('path', [None])[0] if isinstance(p, dict) else None)
    features_df = pd.get_dummies(swaps_df[['token_in']], columns=['token_in'], dummy_na=True)
    
    # Junta as novas features com os dados de 'amount_in'
    final_df = pd.concat([swaps_df[['amount_in', 'alvo_interessante']], features_df], axis=1)

    print("\nDataset final de features pronto para o treinamento!")
    display(final_df.head())

else:
    print("A decodificação falhou ou não encontrou swaps. Verifique a célula anterior.")

--- Passo 3: Engenharia de Features ---
Encontradas 2211 transações de swap para usar no treinamento.

Criamos um alvo: transações com valor acima de 1.3029114178499998e+21 são 'interessantes' (1).
Distribuição do nosso alvo:
alvo_interessante
0    438
1    146
Name: count, dtype: int64

Dataset final de features pronto para o treinamento!


Unnamed: 0,amount_in,alvo_interessante,token_in_0x00c83aeCC790e8a4453e5dD3B0B4b3680501a7A7,token_in_0x02e7F808990638E9e67E1f00313037EDe2362361,token_in_0x033BbDe722EA3Cdcec73cFFEA6581DF9F9C257de,token_in_0x06450dEe7FD2Fb8E39061434BAbCFC05599a6Fb8,token_in_0x06A01a4d579479Dd5D884EBf61A31727A3d8D442,token_in_0x0D505C03d30e65f6e9b4Ef88855a47a89e4b7676,token_in_0x0f7dC5D02CC1E1f5Ee47854d534D332A1081cCC8,token_in_0x1aE7e1d0ce06364CED9aD58225a1705b3e5DB92b,...,token_in_0xb8a87405d9a4F2F866319B77004e88dfF66c0d92,token_in_0xdA891AFeB0C9FF9377A05CD91d8EAC1Dd8331CfD,token_in_0xdAC17F958D2ee523a2206206994597C13D831ec7,token_in_0xe533C2480983E46664B15717d6FC02C0a1daD537,token_in_0xe6f98920852A360497dBcc8ec895F1bB1F7c8Df4,token_in_0xed1167b6Dc64E8a366DB86F2E952A482D0981ebd,token_in_0xf477AC7719e2e659001455cDDA0cc8f3aD10b604,token_in_0xfF836A5821E69066c87E268bC51b849FaB94240C,token_in_0xff56Cc6b1E6dEd347aA0B7676C85AB0B3D08B0FA,token_in_nan
48,48466664239760000000000,1,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
58,18714392093986760000000000,1,False,True,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
61,10813060000000000000000,1,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
74,693630000,0,False,False,False,False,False,False,False,False,...,False,False,True,False,False,False,False,False,False,False
76,165791800000000000000000,1,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [7]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Só prossiga se o DataFrame final foi criado
if 'final_df' in locals():
    print("--- Passo 4: Treinando e Avaliando o Modelo de IA ---")

    # 1. Definir X (as features) e y (o alvo)
    X = final_df.drop('alvo_interessante', axis=1)
    y = final_df['alvo_interessante']

    # 2. Dividir em dados de treino e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

    # 3. Criar e treinar o modelo
    model = RandomForestClassifier(n_estimators=100, random_state=42, max_depth=10)
    print("Treinando o modelo de Floresta Aleatória...")
    model.fit(X_train, y_train)
    print("Treinamento concluído!")

    # 4. Avaliar o modelo
    predictions = model.predict(X_test)
    accuracy = accuracy_score(y_test, predictions)
    
    print("\n--- AVALIAÇÃO DO MODELO v0.2 ---")
    print(f"Acurácia: {accuracy * 100:.2f}%")
    print("\nRelatório de Classificação:")
    print(classification_report(y_test, predictions))
else:
    print("O DataFrame 'final_df' não foi criado. Verifique as células anteriores.")

--- Passo 4: Treinando e Avaliando o Modelo de IA ---
Treinando o modelo de Floresta Aleatória...
Treinamento concluído!

--- AVALIAÇÃO DO MODELO v0.2 ---
Acurácia: 99.43%

Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.99      1.00      1.00       132
           1       1.00      0.98      0.99        44

    accuracy                           0.99       176
   macro avg       1.00      0.99      0.99       176
weighted avg       0.99      0.99      0.99       176

