In [None]:
from pyspark.sql.functions import col, sum, avg, to_date, countDistinct
import matplotlib.pyplot as plt

# Lê a tabela do Glue Catalog
df = spark.table("default.b3_refined")

# Exemplo: Soma da Qtde. Teórica por ação
df_agrupado = df.groupBy("codigo").agg(sum("sum_qtd").alias("total_qtd"))
df_top10 = df_agrupado.orderBy(col("total_qtd").desc()).limit(10)

# Converte para Pandas para plotar
pd_top10 = df_top10.toPandas()

# Plot com matplotlib
plt.figure(figsize=(10,5))
bars = plt.bar(pd_top10["codigo"], pd_top10["total_qtd"])

# Adiciona rótulos de valor em cada barra
for bar in bars:
    height = bar.get_height()
    plt.text(
        bar.get_x() + bar.get_width() / 2,  
        height,                             
        f"{height:,}",                      
        ha='center',                        
        va='bottom',                        
        fontsize=8
    )

plt.title("Top 10 ações por Qtde. Teórica")
plt.xlabel("Código")
plt.ylabel("Total Qtde. Teórica")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
%matplot plt


In [None]:
from pyspark.sql.functions import col, countDistinct
import matplotlib.pyplot as plt

# 2. Evolução de ações por dia
df = spark.table("default.b3_refined")
df_evol = df.groupBy("data_pregao") \
    .agg(countDistinct("codigo").alias("num_acoes"))
df_evol_pd = df_evol.orderBy(col("data_pregao")).toPandas()

plt.figure(figsize=(10,5))
plt.plot(df_evol_pd["data_pregao"], df_evol_pd["num_acoes"], marker='o')

# Adiciona rótulos de valor em cada ponto
for x, y in zip(df_evol_pd["data_pregao"], df_evol_pd["num_acoes"]):
    plt.text(x, y, str(y), ha='center', va='bottom', fontsize=8)

plt.title("Evolução do número de ações por dia")
plt.xlabel("Data")
plt.ylabel("Número de ações")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
%matplot plt
