In [1]:
!pip install pandas sqlalchemy psycopg2-binary

Collecting sqlalchemy
  Downloading sqlalchemy-2.0.41-cp312-cp312-win_amd64.whl.metadata (9.8 kB)
Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.10-cp312-cp312-win_amd64.whl.metadata (5.0 kB)
Collecting greenlet>=1 (from sqlalchemy)
  Downloading greenlet-3.2.3-cp312-cp312-win_amd64.whl.metadata (4.2 kB)
Downloading sqlalchemy-2.0.41-cp312-cp312-win_amd64.whl (2.1 MB)
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
   ---------------------------------------- 2.1/2.1 MB 23.7 MB/s eta 0:00:00
Downloading psycopg2_binary-2.9.10-cp312-cp312-win_amd64.whl (1.2 MB)
   ---------------------------------------- 0.0/1.2 MB ? eta -:--:--
   ---------------------------------------- 1.2/1.2 MB 14.3 MB/s eta 0:00:00
Downloading greenlet-3.2.3-cp312-cp312-win_amd64.whl (297 kB)
Installing collected packages: psycopg2-binary, greenlet, sqlalchemy
Successfully installed greenlet-3.2.3 psycopg2-binary-2.9.10 sqlalchemy-2.0.41


In [1]:
import pandas as pd
from sqlalchemy import create_engine
import time

# String de conexão com nosso banco de dados no Docker.
# Lembre-se que mudamos a porta para 5433 e a senha para 'supersecret'.
db_connection_str = 'postgresql://admin:supersecret@localhost:5433/mempool_data'

# Cria o "motor" de conexão com o banco de dados
try:
    db_engine = create_engine(db_connection_str)
    print("Conexão com o banco de dados estabelecida com sucesso!")
except Exception as e:
    print(f"Falha ao conectar ao banco de dados: {e}")

# A consulta SQL para pegar todas as transações da nossa tabela
query = "SELECT * FROM transactions;"

# Medindo o tempo de carregamento
start_time = time.time()

# O pandas vai usar o motor de conexão para executar a query e carregar
# todos os resultados diretamente para uma tabela em memória chamada 'df' (DataFrame)
df = pd.read_sql(query, con=db_engine)

end_time = time.time()

print(f"\nDados carregados com sucesso em {end_time - start_time:.2f} segundos.")
print(f"Total de {len(df)} transações carregadas para análise.")

# Exibe as 5 primeiras linhas da nossa tabela de dados para verificação
df.head()

Conexão com o banco de dados estabelecida com sucesso!

Dados carregados com sucesso em 0.15 segundos.
Total de 2189 transações carregadas para análise.


Unnamed: 0,hash,to_address,from_address,nonce,gas_price,gas_limit,value,event_timestamp
0,0xc0783a8ebf7cda84501152e9fb32e363d8e11732d104...,0xd85042f9FAAb5b74d840368982De72F900F19065,,1811,1149476,183394,0,2025-06-18 04:42:52+00:00
1,0x06275a62baedfecf7bde5805662167933d4b363f02ed...,0xd1ccB15E30a9Fd5d96a731064205BC12D3183869,,103985,806102,10000000,0,2025-06-18 04:42:52+00:00
2,0xd46a206a9c67a47415f19cf2ac751e4f9e6978bef2e3...,0x5FbE74A283f7954f10AA04C2eDf55578811aeb03,0xb8F52Fa018485e6bbF83C86c45C5f5F3a70e330c,2290,1259372,142165,0,2025-06-18 04:42:52+00:00
3,0x088ddb601aa5571aa08b8ca9a2ca183a2b76f1426bee...,0x5FbE74A283f7954f10AA04C2eDf55578811aeb03,,670,1500055083,192706,10000000000000,2025-06-18 04:42:52+00:00
4,0x492f0a9fe0c584f740fb625bd89db192f983ed13dd60...,0x5FbE74A283f7954f10AA04C2eDf55578811aeb03,,734,1098954,158520,0,2025-06-18 04:42:52+00:00


In [2]:
# Converte colunas de texto para numéricas. Erros serão transformados em 'NaN' (Not a Number).
df['value_numeric'] = pd.to_numeric(df['value'], errors='coerce')
df['gas_price_numeric'] = pd.to_numeric(df['gas_price'], errors='coerce')

# Converte a coluna de timestamp para um formato de data/hora que o pandas entende
df['event_timestamp'] = pd.to_datetime(df['event_timestamp'])

# Remove linhas onde a conversão falhou (se houver alguma)
df.dropna(subset=['value_numeric', 'gas_price_numeric'], inplace=True)

print("Colunas convertidas para formato numérico!")
df.info()

Colunas convertidas para formato numérico!
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2189 entries, 0 to 2188
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype              
---  ------             --------------  -----              
 0   hash               2189 non-null   object             
 1   to_address         2189 non-null   object             
 2   from_address       2189 non-null   object             
 3   nonce              2189 non-null   int64              
 4   gas_price          2189 non-null   object             
 5   gas_limit          2189 non-null   int64              
 6   value              2189 non-null   object             
 7   event_timestamp    2189 non-null   datetime64[ns, UTC]
 8   value_numeric      2189 non-null   float64            
 9   gas_price_numeric  2189 non-null   int64              
dtypes: datetime64[ns, UTC](1), float64(1), int64(3), object(5)
memory usage: 171.1+ KB


In [3]:
# Conta a frequência de cada endereço de destino e mostra os 10 mais comuns
top_10_contracts = df['to_address'].value_counts().head(10)

print("Top 10 Contratos Mais Acionados no Mempool:")
print(top_10_contracts)

Top 10 Contratos Mais Acionados no Mempool:
to_address
0x5FbE74A283f7954f10AA04C2eDf55578811aeb03    500
0xfe7a9eabcE779a090FD702346Fd0bFAc02ce6Ac8     64
0x03C66CB1826BDB0395BF31E68Bf7E873e9564fFB     63
0xCB33Aa5B38d79E3D9Fa8B10afF38AA201399a7e3     39
0x7a4B41C809dbaFD200903d7AC6d180468C6b2688     38
0xE7F48E6dCfBeA43ff5CD1F1570f6543878cCF156     36
0x58d99290e5a9882735E517f99676aE049b12F877     26
0x1c7D4B196Cb0C7B01d743Fbc6116a902379C7238     26
0x9E3fB678bA0a21C2f50b9eB501e48289AC01a15D     24
0xCf8EDB3333Fae73b23f689229F4De6Ac95d1f707     23
Name: count, dtype: int64
