In [7]:
# ==============================================================
# BLOCO 1 — Teste de consulta Athena via boto3
# --------------------------------------------------------------
# Executa uma query de visualização simples no Athena, 
# retornando as 10 últimas entradas do dataset refinado.
# Essa etapa é útil para validar a integridade dos dados
# carregados no S3 (refined) e garantir que o Glue Catalog 
# está populando corretamente a tabela b3_refined_db.refined.
# ==============================================================

import boto3

# Cria cliente do serviço Athena
athena = boto3.client("athena")

# linguagem: SQL
query = """
SELECT * FROM "b3_refined_db"."ibov"
WHERE year = '2025'
ORDER BY day DESC
LIMIT 10;
"""

athena.start_query_execution(
    QueryString=query,
    QueryExecutionContext={'Database': 'b3_refined_db'},
    ResultConfiguration={'OutputLocation': 's3://b3-dataflow-logs/athena-results/'}
)


{'QueryExecutionId': '2d7b7392-bf5b-40b4-92bf-b5228b9b13a1',
 'ResponseMetadata': {'RequestId': 'a4649fa9-0ee2-4169-9d66-ab7edab1329d',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'date': 'Mon, 13 Oct 2025 02:31:22 GMT',
   'content-type': 'application/x-amz-json-1.1',
   'content-length': '59',
   'connection': 'keep-alive',
   'x-amzn-requestid': 'a4649fa9-0ee2-4169-9d66-ab7edab1329d'},
  'RetryAttempts': 0}}

In [6]:
# ================================================================
# BLOCO 2 – Query agregada de estatísticas do dataset refinado
# ---------------------------------------------------------------
# Essa célula executa uma consulta no Amazon Athena via awswrangler,
# retornando estatísticas consolidadas sobre o índice IBOV.
#
# O objetivo é calcular medidas descritivas (média, máximo e mínimo)
# a partir dos dados refinados, servindo de base para análises
# de volatilidade e detecção de anomalias futuras (ex: Isolation Forest).
#
# Essa consulta ajuda a validar a consistência das features derivadas
# do pipeline ETL, garantindo que os valores calculados (ex. amplitude
# e volatilidade_pct) estão em escala e coerência com o comportamento
# esperado do índice.
# ================================================================

import awswrangler as wr

query = """
SELECT 
    AVG(preco_fechamento) AS media_fechamento,
    MAX(high) AS max_high,
    MIN(low) AS min_low
FROM "b3_refined_db"."refined"
WHERE year = '2025';
"""

# Executa query agregada e retorna resultado em DataFrame
df_stats = wr.athena.read_sql_query(
    sql=query,
    database="b3_refined_db",
    ctas_approach=False
)

# Exibe o resultado agregado
display(df_stats)


Unnamed: 0,media_fechamento,max_high,min_low
0,144211.217391,147578.0,140231.0


In [None]:
# ==============================================================
# BLOCO 3 — Consulta analítica e ingestão direta em DataFrame
# --------------------------------------------------------------
# Essa célula executa uma query no Amazon Athena via awswrangler
# e retorna os dados refinados em formato pandas DataFrame.
#
# O objetivo é puxar os mesmos dados do Athena direto pro Python,
# mostrando o DataFrame já com 'volatilidade_pct' e 'amplitude' —
# prontos pra feature engineering (ex: rolling mean, z-score,
# Isolation Forest futuramente).
#
# Essa etapa consolida o pipeline end-to-end: S3 → Glue → Athena → Python.
# ==============================================================

import boto3
import pandas as pd
import awswrangler as wr

# Configurações
database = "b3_refined_db"
table = "refined"
output_path = "s3://b3-dataflow-logs/athena-results/"

# Consulta base
query = f"""
SELECT
    date,
    preco_abertura,
    preco_fechamento,
    high,
    low,
    volume_negociado,
    (high - low) AS amplitude,
    ROUND(((high - low) / preco_fechamento) * 100, 2) AS volatilidade_pct
FROM "{database}"."{table}"
WHERE year = '2025';
"""

# Executa query e lê diretamente em pandas
df = wr.athena.read_sql_query(
    sql=query,
    database=database,
    ctas_approach=False
)

# Visualiza as primeiras linhas
display(df.head(10))


Unnamed: 0,date,preco_abertura,preco_fechamento,high,low,volume_negociado,amplitude,volatilidade_pct
0,2025-09-10,141612.0,142349.0,143182.0,141612.0,7138700,1570.0,1.1
1,2025-09-11,142349.0,143151.0,144013.0,142349.0,7570400,1664.0,1.16
2,2025-09-12,143151.0,142272.0,143202.0,142241.0,6388600,961.0,0.68
3,2025-09-15,142292.0,143547.0,144194.0,142292.0,6614000,1902.0,1.33
4,2025-09-16,143547.0,144062.0,144584.0,143547.0,8478200,1037.0,0.72
5,2025-09-17,144059.0,145594.0,146331.0,143910.0,9604400,2421.0,1.66
6,2025-09-18,145594.0,145500.0,145726.0,144993.0,8372000,733.0,0.5
7,2025-09-19,145500.0,145865.0,146399.0,145496.0,10279800,903.0,0.62
8,2025-09-22,145864.0,145109.0,145864.0,144117.0,9428100,1747.0,1.2
9,2025-09-23,145112.0,146425.0,147179.0,145107.0,8143800,2072.0,1.42
