In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

query = """
SELECT
    setor,
    SUM(soma_porcentagem_particao) AS porcentagem_participacao
FROM bovespa_db.refined_bovespa
WHERE data_pregao = DATE '2025-07-15'
GROUP BY setor
ORDER BY porcentagem_participacao DESC
LIMIT 15
"""

spark_df = spark.sql(query)
df_setores = spark_df.toPandas()


plt.style.use('seaborn-darkgrid') 
plt.figure(figsize=(14, 8))

sns.barplot(
    x='porcentagem_participacao',
    y='setor',
    data=df_setores,
    palette='viridis'
)

plt.title('Participação Percentual por Setor no Ibovespa (15/07/2025)', fontsize=18, fontweight='bold')
plt.xlabel('Participação Total no Índice (%)', fontsize=12)
plt.ylabel('Setor Econômico', fontsize=12)
plt.tight_layout()

%matplot plt

In [None]:
%%sql
SELECT codigo_acao, sum(soma_porcentagem_particao) as porcentagem_participacao
FROM bovespa_db.refined_bovespa
group by codigo_acao
order by porcentagem_participacao desc
LIMIT 5;

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

query = """
SELECT
    data_pregao,
    codigo_acao,
    soma_porcentagem_particao
FROM bovespa_db.refined_bovespa
WHERE codigo_acao IN ('VALE3', 'ITUB4', 'PETR4', 'PETR3', 'BBDC4')
ORDER BY data_pregao ASC
"""

spark_df = spark.sql(query)
df_timeseries = spark_df.toPandas()


plt.style.use('seaborn-darkgrid')
plt.figure(figsize=(15, 8))

sns.lineplot(
    data=df_timeseries,
    x='data_pregao',
    y='soma_porcentagem_particao',
    hue='codigo_acao',  # Cria uma linha de cor diferente para cada ação
    style='codigo_acao', # Cria um estilo de linha/marcador diferente para cada ação
    markers=True,
    dashes=False
)


plt.title('Série Temporal da Participação (Top 5 Ações)', fontsize=18, fontweight='bold')
plt.xlabel('Data do Pregão', fontsize=12)
plt.ylabel('Porcentagem da Participação', fontsize=12)
plt.xticks(rotation=45) # Rotaciona as datas no eixo X para melhor leitura
plt.legend(title='Ação')
plt.tight_layout()


%matplot plt