In [2]:
import pandas as pd
from sqlalchemy import create_engine

# Conecta ao nosso banco de dados
db_connection_str = 'postgresql://admin:supersecret@localhost:5433/mempool_data'
db_engine = create_engine(db_connection_str)

print("Carregando os novos dados coletados da Mainnet...")
df = pd.read_sql("SELECT * FROM transactions", con=db_engine)

print(f"Sucesso! Temos {len(df)} novas transações de alvos de alto volume para analisar.")
display(df.head())

Carregando os novos dados coletados da Mainnet...
Sucesso! Temos 224 novas transações de alvos de alto volume para analisar.


Unnamed: 0,hash,to_address,from_address,nonce,gas_price,gas_limit,value,event_timestamp
0,0x0e2be62502143a2e47371084be49adb9de385d5fe2db...,0x7a250d5630B4cF539739dF2C5dAcb4c659F2488D,,38,5998759446,500000,0,2025-06-19 14:57:38+00:00
1,0xac7fc27d18964a96df0b0512be3daffcb252ea644a74...,0x68b3465833fb72A70ecDF485E0e4C7bD8665Fc45,,154,4138791184,116175,0,2025-06-19 14:58:04+00:00
2,0xe0eb5498397df94f5d15e36d09f6d10156b295b00403...,0x7a250d5630B4cF539739dF2C5dAcb4c659F2488D,,31,6928258059,187855,0,2025-06-19 14:58:13+00:00
3,0x40e42c67c997403ea5933d33bdbce5ecb89e0cadfeb8...,0x7a250d5630B4cF539739dF2C5dAcb4c659F2488D,,3760,3095975062,175572,0,2025-06-19 14:58:13+00:00
4,0x0cdb2a922534e99342ac9cfb00a9e4b412ba97300d8c...,0x7a250d5630B4cF539739dF2C5dAcb4c659F2488D,,39,6108891774,500000,0,2025-06-19 14:58:15+00:00


In [3]:
from web3 import Web3
import json
from tqdm.auto import tqdm

# Conecta à Alchemy para pegar os dados completos da transação
alchemy_url = "https://eth-mainnet.g.alchemy.com/v2/OPbbmuEc74NysSD6jK28Z" 
w3 = Web3(Web3.HTTPProvider(alchemy_url))

# ABI do Roteador V2 (o mais simples de decodificar)
router_v2_abi_str = '[{"inputs":[{"type":"uint256","name":"amountIn","internalType":"uint256"},{"type":"uint256","name":"amountOutMin","internalType":"uint256"},{"type":"address[]","name":"path","internalType":"address[]"},{"type":"address","name":"to","internalType":"address"},{"type":"uint256","name":"deadline","type":"uint256"}],"name":"swapExactTokensForTokens","outputs":[{"type":"uint256[]","name":"amounts","internalType":"uint256[]"}],"stateMutability":"nonpayable","type":"function"}]'
router_abi = json.loads(router_v2_abi_str)
router_contract = w3.eth.contract(abi=router_abi) # Criamos um objeto de contrato genérico

decoded_data = []
for index, row in tqdm(df.iterrows(), total=df.shape[0]):
    try:
        tx = w3.eth.get_transaction(row['hash'])
        # Tentamos decodificar usando o ABI que temos
        func_obj, func_params = router_contract.decode_function_input(tx.input)
        decoded_data.append({'hash': row['hash'], 'decoded_function': func_obj.fn_name, 'decoded_params': str(func_params)})
    except Exception as e:
        decoded_data.append({'hash': row['hash'], 'decoded_function': 'Nao V2 Swap', 'decoded_params': ''})

decoded_df = pd.DataFrame(decoded_data)
df_final = pd.merge(df, decoded_df, on='hash')

print("\n--- Resultado da Decodificação ---")
# Mostra a contagem de quais funções encontramos
print(df_final['decoded_function'].value_counts())

  0%|          | 0/224 [00:00<?, ?it/s]


--- Resultado da Decodificação ---
decoded_function
Nao V2 Swap                 195
swapExactTokensForTokens     29
Name: count, dtype: int64


In [4]:
import ast # Uma biblioteca para converter strings em objetos Python

# Filtra apenas as transações que conseguimos decodificar como 'swapExactTokensForTokens'
swaps_df = df_final[df_final['decoded_function'] == 'swapExactTokensForTokens'].copy()

# Função para extrair o caminho (path) dos parâmetros de forma segura
def extract_path(params_str):
    try:
        # ast.literal_eval transforma a string "{'path': ['0x...', ...]}" em um dicionário Python
        params_dict = ast.literal_eval(params_str)
        return params_dict.get('path', []) # Pega a lista do 'path', ou uma lista vazia se não encontrar
    except:
        return []

# CORREÇÃO: Usamos o nome correto da coluna: 'decoded_params'
swaps_df['token_path'] = swaps_df['decoded_params'].apply(extract_path)

# Cria as colunas 'token_in' e 'token_out' a partir do caminho
swaps_df['token_in'] = swaps_df['token_path'].apply(lambda path: path[0] if len(path) > 0 else None)
swaps_df['token_out'] = swaps_df['token_path'].apply(lambda path: path[-1] if len(path) > 0 else None)

print("Novas 'features' criadas com sucesso a partir dos dados decodificados!")
print("Amostra dos swaps com os tokens de entrada e saída identificados:")

# Exibe a nossa nova tabela, focada apenas nos swaps, com as novas colunas
# Nós selecionamos apenas as colunas de interesse para uma visualização limpa
display(swaps_df[['hash', 'decoded_function', 'token_in', 'token_out']])

Novas 'features' criadas com sucesso a partir dos dados decodificados!
Amostra dos swaps com os tokens de entrada e saída identificados:


Unnamed: 0,hash,decoded_function,token_in,token_out
28,0xb3e1e203719a85613315229660850f418f2f03c03df5...,swapExactTokensForTokens,0xC02aaA39b223FE8D0A0e5C4F27eAD9083C756Cc2,0xa93d86Af16fe83F064E3C0e2F3d129F7B7b002b0
36,0xd172c532c0bb0b15bd8911b8a790b61f6ba19389feef...,swapExactTokensForTokens,0xC02aaA39b223FE8D0A0e5C4F27eAD9083C756Cc2,0x48B847cF774A5710F36f594b11fc10E2E59BbA72
41,0x10981fa3e82f4774a7fb0c5b9aa810686ff685a40391...,swapExactTokensForTokens,0xa29C9a740De8194e4016747E9A04a84946ada0a5,0xdAC17F958D2ee523a2206206994597C13D831ec7
43,0xfedb00d40e9a9d4ece2b5525b58cbc8ec40cfcf2f9a0...,swapExactTokensForTokens,0xdAC17F958D2ee523a2206206994597C13D831ec7,0xa29C9a740De8194e4016747E9A04a84946ada0a5
49,0xd7bda2dbde92eb0329dda0e8113242ae20d89c851781...,swapExactTokensForTokens,0xa29C9a740De8194e4016747E9A04a84946ada0a5,0xdAC17F958D2ee523a2206206994597C13D831ec7
54,0x53661c859caefd0b3dcc3f79bc139e9e5615c5ef059d...,swapExactTokensForTokens,0xdAC17F958D2ee523a2206206994597C13D831ec7,0xa29C9a740De8194e4016747E9A04a84946ada0a5
58,0x7b6326a43e51b435fc96e5e6f23b099b9330d938e194...,swapExactTokensForTokens,0xa29C9a740De8194e4016747E9A04a84946ada0a5,0xdAC17F958D2ee523a2206206994597C13D831ec7
59,0xfdd53cbf1c970c103aaeb1b1fe0dde7cb4cc51eb49e9...,swapExactTokensForTokens,0xdAC17F958D2ee523a2206206994597C13D831ec7,0xa29C9a740De8194e4016747E9A04a84946ada0a5
73,0xc5690d2fc8844a358e3ff8ce72dab2a432fb8fe730d7...,swapExactTokensForTokens,0x6982508145454Ce325dDbE47a25d4ec3d2311933,0xdAC17F958D2ee523a2206206994597C13D831ec7
79,0x45a0ed26236f4f7dffa5fb265b5f53baa724c8930ee6...,swapExactTokensForTokens,0xC02aaA39b223FE8D0A0e5C4F27eAD9083C756Cc2,0x76e222b07C53D28b89b0bAc18602810Fc22B49A8


In [5]:
import pandas as pd
from sqlalchemy import create_engine
from web3 import Web3
import json
from tqdm.auto import tqdm
from concurrent.futures import ThreadPoolExecutor, as_completed
import time

# --- CÉLULA 1: Carregar os Dados do CSV ---
print("--- Passo 1: Carregando dados do CSV ---")
file_path = 'proxy_transactions.csv' 
try:
    df = pd.read_csv(file_path)
    print(f"Arquivo CSV '{file_path}' carregado com sucesso! {len(df)} linhas encontradas.")
except FileNotFoundError:
    print(f"--- ERRO: Arquivo '{file_path}' não encontrado! ---")
    df = pd.DataFrame() # Cria um dataframe vazio para o resto do código não quebrar

# --- CÉLULA 2: Decodificar Transações ---
if not df.empty:
    print("\n--- Passo 2: Decodificando transações (isso pode levar um minuto) ---")
    alchemy_url = "https://eth-mainnet.g.alchemy.com/v2/OPbbmuEc74NysSD6jK28Z" 
    w3 = Web3(Web3.HTTPProvider(alchemy_url))
    router_v2_abi_str = '[{"inputs":[{"type":"uint256","name":"amountIn","internalType":"uint256"},{"type":"uint256","name":"amountOutMin","internalType":"uint256"},{"type":"address[]","name":"path","internalType":"address[]"},{"type":"address","name":"to","type":"address"},{"type":"uint256","name":"deadline","type":"uint256"}],"name":"swapExactTokensForTokens","outputs":[{"type":"uint256[]","name":"amounts","type":"uint256[]"}],"stateMutability":"nonpayable","type":"function"}]'
    router_abi = json.loads(router_v2_abi_str)
    router_contract = w3.eth.contract(abi=router_abi)

    def fetch_and_decode(tx_hash):
        try:
            tx = w3.eth.get_transaction(tx_hash)
            if len(tx.input) > 4:
                func_obj, func_params = router_contract.decode_function_input(tx.input)
                return {'Txhash': tx_hash, 'function_name': func_obj.fn_name, 'params': str(func_params)}
            else:
                return {'Txhash': tx_hash, 'function_name': 'Transferencia Simples', 'params': '{}'}
        except Exception as e:
            return {'Txhash': tx_hash, 'function_name': 'desconhecido', 'params': str(e)}

    tasks = []
    decoded_data = []
    with ThreadPoolExecutor(max_workers=50) as executor:
        for tx_hash in df['Transaction Hash']:
            tasks.append(executor.submit(fetch_and_decode, tx_hash))
        for future in tqdm(as_completed(tasks), total=len(tasks)):
            decoded_data.append(future.result())

    decoded_df = pd.DataFrame(decoded_data)
    df_completo = pd.merge(df, decoded_df, left_on='Transaction Hash', right_on='Txhash')
    print("Decodificação completa!")

    # --- CÉLULA 3: Criar o "Alvo" para a IA ---
    print("\n--- Passo 3: Criando a coluna 'alvo' para o modelo ---")
    df_completo['TxnFee(ETH)'] = pd.to_numeric(df_completo['TxnFee(ETH)'], errors='coerce').fillna(0)
    media_taxa_gas = df_completo['TxnFee(ETH)'].mean()
    df_completo['alvo_interessante'] = (df_completo['TxnFee(ETH)'] > media_taxa_gas).astype(int)
    
    print("Coluna 'alvo' criada com sucesso!")
    print(df_completo['alvo_interessante'].value_counts())
else:
    print("A tabela de dados está vazia. Verifique o Passo 1.")

--- Passo 1: Carregando dados do CSV ---
Arquivo CSV 'proxy_transactions.csv' carregado com sucesso! 5000 linhas encontradas.

--- Passo 2: Decodificando transações (isso pode levar um minuto) ---


  0%|          | 0/5000 [00:00<?, ?it/s]

Decodificação completa!

--- Passo 3: Criando a coluna 'alvo' para o modelo ---
Coluna 'alvo' criada com sucesso!
alvo_interessante
0    3967
1    1033
Name: count, dtype: int64


In [7]:
from sklearn.model_selection import train_test_split

# Para ter certeza, vamos imprimir todos os nomes de coluna exatos
print("Colunas disponíveis no nosso dataset:")
print(df_completo.columns)
print("-" * 30)

# --- CORREÇÃO: Selecionamos as 'features' que realmente existem no nosso CSV ---
# Vamos usar o número do bloco e a taxa de gás como nossas primeiras características
features = ['Blockno', 'TxnFee(ETH)']
X = df_completo[features]
y = df_completo['alvo_interessante'] # Nosso alvo continua o mesmo

# Dividimos os dados: 70% para treino, 30% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print("\nDados divididos com sucesso!")
print(f"Temos {len(X_train)} amostras de treino para ensinar o modelo.")
print(f"Temos {len(X_test)} amostras de teste para avaliar o modelo.")

Colunas disponíveis no nosso dataset:
Index(['Transaction Hash', 'Blockno', 'UnixTimestamp', 'DateTime (UTC)',
       'From', 'To', 'ContractAddress', 'Value_IN(ETH)', 'Value_OUT(ETH)',
       'CurrentValue @ $0/Eth', 'TxnFee(ETH)', 'TxnFee(USD)',
       'Historical $Price/Eth', 'Status', 'ErrCode', 'Method', 'Txhash',
       'function_name', 'params', 'alvo_interessante'],
      dtype='object')
------------------------------

Dados divididos com sucesso!
Temos 3500 amostras de treino para ensinar o modelo.
Temos 1500 amostras de teste para avaliar o modelo.


In [8]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# 1. Cria o nosso primeiro modelo de IA (uma Árvore de Decisão)
# 'max_depth=5' limita a profundidade da árvore para evitar que ela "decore" as respostas
# 'random_state=42' garante que o resultado seja sempre o mesmo se rodarmos de novo
model = DecisionTreeClassifier(max_depth=5, random_state=42)

# 2. Treina o modelo com os 70% dos dados que separamos para treino. 
# É aqui que o "aprendizado" acontece.
print("Treinando o modelo de IA v0.1...")
model.fit(X_train, y_train)
print("Treinamento concluído!")

# 3. Agora, pedimos ao modelo treinado para fazer previsões nos 30% de dados de teste
# que ele nunca viu antes.
print("Avaliando o modelo com dados de teste...")
predictions = model.predict(X_test)

# 4. Comparamos as previsões do modelo com as respostas reais para ver o quão bem ele se saiu.
print("\n--- AVALIAÇÃO DO MODELO v0.1 ---")

# Acurácia: a porcentagem geral de acertos.
accuracy = accuracy_score(y_test, predictions)
print(f"Acurácia Geral: {accuracy * 100:.2f}%")

# Relatório de Classificação: uma visão mais detalhada da performance.
print("\nRelatório de Classificação Detalhado:")
print(classification_report(y_test, predictions))

Treinando o modelo de IA v0.1...
Treinamento concluído!
Avaliando o modelo com dados de teste...

--- AVALIAÇÃO DO MODELO v0.1 ---
Acurácia Geral: 100.00%

Relatório de Classificação Detalhado:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      1192
           1       1.00      1.00      1.00       308

    accuracy                           1.00      1500
   macro avg       1.00      1.00      1.00      1500
weighted avg       1.00      1.00      1.00      1500

