# Análise dos Dados Gold RL Tabular

Este notebook analisa os dados do arquivo `gold_rl_tabular.parquet` e cria visualizações dos fechamentos dos tickers e indicadores usando Plotly.

## Carregamento e Exploração dos Dados

In [2]:
import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.express as px
import numpy as np
from pathlib import Path

# Carregar os dados
data_path = r"G:\Drives compartilhados\BOLSA_2026\a_bolsa2026\dados\gold_rl_tabular.parquet"
df = pd.read_parquet(data_path)

print("=== ESTRUTURA DOS DADOS ===")
print(f"Shape: {df.shape}")
print(f"Colunas: {list(df.columns)}")
print("\n=== PRIMEIRAS LINHAS ===")
display(df.head())
print("\n=== INFO DOS DADOS ===")
print(df.info())
print("\n=== VALORES ÚNICOS NAS PRINCIPAIS COLUNAS ===")

# Verificar se existe coluna de ticker/símbolo
possible_ticker_cols = ['ticker', 'symbol', 'ativo', 'codigo']
ticker_col = None
for col in possible_ticker_cols:
    if col in df.columns:
        ticker_col = col
        break

if ticker_col:
    print(f"\nTickers únicos (coluna {ticker_col}): {df[ticker_col].nunique()}")
    print(f"Lista de tickers: {sorted(df[ticker_col].unique())}")

# Verificar colunas de data
date_cols = [col for col in df.columns if 'date' in col.lower() or 'data' in col.lower()]
print(f"\nColunas de data encontradas: {date_cols}")

# Verificar colunas numéricas (possíveis preços/indicadores)
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
print(f"\nColunas numéricas: {numeric_cols}")

=== ESTRUTURA DOS DADOS ===
Shape: (105089, 20)
Colunas: ['date', 'ticker', 'close', 'volume', 'ret1', 'ret2', 'ret3', 'ret5', 'z1', 'z2', 'z3', 'z5', 'vol21', 'vol21_pct', 'rvol_pct', 'rvol_chg', 'clv', 'dist_peak20_sigma', 'pct_z2_le_m1', 'med_vol21']

=== PRIMEIRAS LINHAS ===


Unnamed: 0,date,ticker,close,volume,ret1,ret2,ret3,ret5,z1,z2,z3,z5,vol21,vol21_pct,rvol_pct,rvol_chg,clv,dist_peak20_sigma,pct_z2_le_m1,med_vol21
0,2012-01-02,ABEV3.SA,10.872475,119582.0,,,,,,,,,,,,,,,0.0,
1,2012-01-03,ABEV3.SA,10.748561,2099952.0,-0.011397,,,,,,,,,,,,,,0.0,
2,2012-01-04,ABEV3.SA,10.498734,989684.0,-0.023243,-0.034375,,,,,,,,,,,,,0.0,
3,2012-01-05,ABEV3.SA,10.290878,1077745.0,-0.019798,-0.042581,-0.053493,,,,,,,,,,,,0.0,
4,2012-01-06,ABEV3.SA,10.264896,451312.0,-0.002525,-0.022273,-0.044998,,,,,,,,,,,,0.0,



=== INFO DOS DADOS ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105089 entries, 0 to 105088
Data columns (total 20 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   date               105089 non-null  datetime64[ns]
 1   ticker             105089 non-null  object        
 2   close              105089 non-null  float64       
 3   volume             105089 non-null  float64       
 4   ret1               104886 non-null  float64       
 5   ret2               104854 non-null  float64       
 6   ret3               104822 non-null  float64       
 7   ret5               104758 non-null  float64       
 8   z1                 101604 non-null  float64       
 9   z2                 101573 non-null  float64       
 10  z3                 101542 non-null  float64       
 11  z5                 101480 non-null  float64       
 12  vol21              104769 non-null  float64       
 13  vol21_pct          1

In [4]:
# Separar tickers (ações brasileiras) e indicadores econômicos
tickers_acoes = [t for t in df['ticker'].unique() if t.endswith('.SA')]
indicadores = [t for t in df['ticker'].unique() if not t.endswith('.SA')]

print(f"=== AÇÕES BRASILEIRAS ({len(tickers_acoes)}) ===")
for ticker in sorted(tickers_acoes):
    print(ticker)

print(f"\n=== INDICADORES ECONÔMICOS ({len(indicadores)}) ===")
for ticker in sorted(indicadores):
    print(ticker)

# Verificar período dos dados
print(f"\n=== PERÍODO DOS DADOS ===")
print(f"Data inicial: {df['date'].min()}")
print(f"Data final: {df['date'].max()}")
print(f"Número de pregões: {df['date'].nunique()}")

# Verificar se todos os tickers têm dados completos
print(f"\n=== COMPLETUDE DOS DADOS ===")
ticker_counts = df['ticker'].value_counts()
print(ticker_counts)

=== AÇÕES BRASILEIRAS (24) ===
ABEV3.SA
B3SA3.SA
BBAS3.SA
CPLE6.SA
CSNA3.SA
ELET3.SA
GGBR4.SA
HAPV3.SA
ITUB4.SA
LREN3.SA
PETR4.SA
PRIO3.SA
PSSA3.SA
RAIL3.SA
RDOR3.SA
SBSP3.SA
SUZB3.SA
TAEE11.SA
TIMS3.SA
TOTS3.SA
UGPA3.SA
VALE3.SA
VIVT3.SA
WEGE3.SA

=== INDICADORES ECONÔMICOS (8) ===
_bvsp
_gspc
_tnx
_vix
bz=f
dx-y.nyb
ewz
is_trading_day

=== PERÍODO DOS DADOS ===
Data inicial: 2012-01-02 00:00:00
Data final: 2025-10-01 00:00:00
Número de pregões: 3588

=== COMPLETUDE DOS DADOS ===
ticker
is_trading_day    3588
dx-y.nyb          3457
_gspc             3456
_vix              3456
ewz               3456
_tnx              3455
bz=f              3439
B3SA3.SA          3416
TOTS3.SA          3416
BBAS3.SA          3416
SBSP3.SA          3416
PSSA3.SA          3416
PRIO3.SA          3416
PETR4.SA          3416
LREN3.SA          3416
ITUB4.SA          3416
TIMS3.SA          3416
VIVT3.SA          3415
WEGE3.SA          3415
UGPA3.SA          3415
GGBR4.SA          3415
ELET3.SA          3415
A

## Gráficos dos Fechamentos - Ações Brasileiras

Visualizações dos preços de fechamento das ações brasileiras organizados 3 por prancha.

In [7]:
# Função para criar gráficos com 3 séries por prancha
def criar_graficos_3_por_prancha(df, tickers_list, titulo_principal, prefixo_arquivo):
    """
    Cria gráficos organizados 3 por prancha usando Plotly
    """
    import math
    
    # Calcular número de pranchas necessárias
    num_pranchas = math.ceil(len(tickers_list) / 3)
    
    for prancha in range(num_pranchas):
        # Definir tickers para esta prancha
        inicio = prancha * 3
        fim = min(inicio + 3, len(tickers_list))
        tickers_prancha = tickers_list[inicio:fim]
        
        # Criar subplot
        fig = make_subplots(
            rows=len(tickers_prancha), 
            cols=1,
            subplot_titles=tickers_prancha,
            vertical_spacing=0.1,
            shared_xaxes=True
        )
        
        # Adicionar cada ticker à prancha
        for i, ticker in enumerate(tickers_prancha):
            # Filtrar dados do ticker
            ticker_data = df[df['ticker'] == ticker].copy()
            ticker_data = ticker_data.sort_values('date')
            
            # Adicionar linha do fechamento
            fig.add_trace(
                go.Scatter(
                    x=ticker_data['date'],
                    y=ticker_data['close'],
                    mode='lines',
                    name=f'{ticker} Close',
                    line=dict(width=1.5),
                    showlegend=False
                ),
                row=i+1, col=1
            )
            
            # Configurar eixo Y para cada subplot
            fig.update_yaxes(title_text="Preço (R$)", row=i+1, col=1)
        
        # Configurar layout
        fig.update_layout(
            title=f"{titulo_principal} - Prancha {prancha + 1}/{num_pranchas}",
            height=300 * len(tickers_prancha),
            showlegend=False,
            template="plotly_white"
        )
        
        # Configurar eixo X apenas para o último subplot
        fig.update_xaxes(title_text="Data", row=len(tickers_prancha), col=1)
        
        # Mostrar gráfico
        fig.show()
        
        print(f"Prancha {prancha + 1}/{num_pranchas} - Tickers: {', '.join(tickers_prancha)}")

# Remover tickers com poucos dados (menos de 2000 observações)
tickers_acoes_filtrados = [t for t in tickers_acoes if df[df['ticker'] == t].shape[0] >= 2000]
print(f"Ações com dados suficientes: {len(tickers_acoes_filtrados)} de {len(tickers_acoes)}")
print(f"Ações filtradas: {sorted(tickers_acoes_filtrados)}")

# Criar gráficos das ações brasileiras
criar_graficos_3_por_prancha(
    df, 
    sorted(tickers_acoes_filtrados), 
    "Fechamentos das Ações Brasileiras", 
    "acoes_brasileiras"
)

Ações com dados suficientes: 22 de 24
Ações filtradas: ['ABEV3.SA', 'B3SA3.SA', 'BBAS3.SA', 'CPLE6.SA', 'CSNA3.SA', 'ELET3.SA', 'GGBR4.SA', 'ITUB4.SA', 'LREN3.SA', 'PETR4.SA', 'PRIO3.SA', 'PSSA3.SA', 'RAIL3.SA', 'SBSP3.SA', 'SUZB3.SA', 'TAEE11.SA', 'TIMS3.SA', 'TOTS3.SA', 'UGPA3.SA', 'VALE3.SA', 'VIVT3.SA', 'WEGE3.SA']


Prancha 1/8 - Tickers: ABEV3.SA, B3SA3.SA, BBAS3.SA


Prancha 2/8 - Tickers: CPLE6.SA, CSNA3.SA, ELET3.SA


Prancha 3/8 - Tickers: GGBR4.SA, ITUB4.SA, LREN3.SA


Prancha 4/8 - Tickers: PETR4.SA, PRIO3.SA, PSSA3.SA


Prancha 5/8 - Tickers: RAIL3.SA, SBSP3.SA, SUZB3.SA


Prancha 6/8 - Tickers: TAEE11.SA, TIMS3.SA, TOTS3.SA


Prancha 7/8 - Tickers: UGPA3.SA, VALE3.SA, VIVT3.SA


Prancha 8/8 - Tickers: WEGE3.SA


## Gráficos dos Indicadores Econômicos

Visualizações dos indicadores econômicos (IBOVESPA, S&P 500, VIX, etc.) organizados 3 por prancha.

In [6]:
# Remover 'is_trading_day' pois é um indicador binário, não um preço
indicadores_filtrados = [i for i in indicadores if i != 'is_trading_day']
print(f"Indicadores econômicos: {len(indicadores_filtrados)}")
print(f"Lista: {sorted(indicadores_filtrados)}")

# Verificar dados disponíveis para cada indicador
print("\n=== DADOS DOS INDICADORES ===")
for ticker in sorted(indicadores_filtrados):
    count = df[df['ticker'] == ticker].shape[0]
    print(f"{ticker}: {count} observações")

# Criar gráficos dos indicadores econômicos
criar_graficos_3_por_prancha(
    df, 
    sorted(indicadores_filtrados), 
    "Indicadores Econômicos", 
    "indicadores_economicos"
)

Indicadores econômicos: 7
Lista: ['_bvsp', '_gspc', '_tnx', '_vix', 'bz=f', 'dx-y.nyb', 'ewz']

=== DADOS DOS INDICADORES ===
_bvsp: 3407 observações
_gspc: 3456 observações
_tnx: 3455 observações
_vix: 3456 observações
bz=f: 3439 observações
dx-y.nyb: 3457 observações
ewz: 3456 observações


Prancha 1/3 - Tickers: _bvsp, _gspc, _tnx


Prancha 2/3 - Tickers: _vix, bz=f, dx-y.nyb


Prancha 3/3 - Tickers: ewz


## Resumo da Análise

### Dados Analisados:
- **Período**: 2012-01-02 a 2025-10-01 (aproximadamente 13.75 anos)
- **Total de observações**: 105.089 registros
- **Número de pregões**: 3.588

### Ações Brasileiras (22 ações com dados completos):
- **8 pranchas** com gráficos organizados 3 por prancha
- Todas as principais ações do IBOVESPA incluídas
- Séries temporais completas mostrando a evolução dos preços

### Indicadores Econômicos (7 indicadores):
- **3 pranchas** com gráficos organizados 3 por prancha
- Incluindo: IBOVESPA (_bvsp), S&P 500 (_gspc), Treasury 10Y (_tnx), VIX (_vix), Petróleo Brent (bz=f), Dólar (_dx-y.nyb), EWZ (ewz)

### Observações:
- Os dados são sequenciais referenciados aos pregões da BOVESPA
- Algumas ações têm menos dados disponíveis (HAPV3.SA e RDOR3.SA foram filtradas)
- Todos os gráficos mostram a evolução completa dos preços de fechamento ao longo do tempo

In [8]:
# 1) Quais ações não foram plotadas anteriormente e por quê?
all_tickers = sorted([t for t in df['ticker'].unique() if t.endswith('.SA')])
plotted = sorted(tickers_acoes_filtrados)
not_plotted = [t for t in all_tickers if t not in plotted]
print(f"Total ações: {len(all_tickers)}")
print(f"Plotted: {len(plotted)}")
print(f"Not plotted ({len(not_plotted)}): {not_plotted}")

# Mostrar contagens para as não plotadas
for t in not_plotted:
    print(t, df[df['ticker']==t].shape[0])

# 2) Buscar nomes das empresas usando yfinance
try:
    import yfinance as yf
    have_yf = True
except Exception as e:
    print('yfinance não disponível:', e)
    have_yf = False

ticker_to_name = {}
if have_yf:
    for t in all_tickers:
        try:
            info = yf.Ticker(t).info
            name = info.get('shortName') or info.get('longName') or info.get('short_name') or None
            ticker_to_name[t] = name if name else ''
        except Exception:
            ticker_to_name[t] = ''
else:
    # fallback: usar ticker como nome
    for t in all_tickers:
        ticker_to_name[t] = ''

print('\nMapeamento ticker->nome (amostra)')
for t in all_tickers[:10]:
    print(t, '->', ticker_to_name.get(t))

# 3) Preparar pasta para salvar gráficos
from pathlib import Path
out_dir = Path(r"G:\Drives compartilhados\BOLSA_2026\a_bolsa2026\analises\graficos")
out_dir.mkdir(parents=True, exist_ok=True)
print('Diretório de saída:', out_dir)

# 4) Refazer gráficos para TODOS os tickers disponíveis (sem filtro), salvar HTML
all_tickers_to_plot = all_tickers  # inclui os que tinham menos observações

import math
for prancha in range(math.ceil(len(all_tickers_to_plot)/3)):
    inicio = prancha*3
    fim = inicio+3
    tickers_prancha = all_tickers_to_plot[inicio:fim]
    fig = make_subplots(rows=len(tickers_prancha), cols=1, subplot_titles=[f"{t} - {ticker_to_name.get(t,'')}" for t in tickers_prancha], shared_xaxes=True, vertical_spacing=0.1)
    for i, t in enumerate(tickers_prancha):
        d = df[df['ticker']==t].sort_values('date')
        fig.add_trace(go.Scatter(x=d['date'], y=d['close'], mode='lines', name=t, showlegend=False), row=i+1, col=1)
        fig.update_yaxes(title_text='Preço (R$)', row=i+1, col=1)
    fig.update_layout(title=f'Fechamentos - Prancha {prancha+1}', template='plotly_white', height=300*len(tickers_prancha))
    html_path = out_dir / f'fechamentos_prancha_{prancha+1}.html'
    fig.write_html(str(html_path))
    print('Salvo:', html_path)

print('Todos os gráficos salvos em HTML.')

# Observação: gerar PNG requer orca/ kaleido; vamos tentar com kaleido se disponível
try:
    import plotly.io as pio
    pio.kaleido.scope.default_format = 'png'
    can_png = True
except Exception as e:
    print('kaleido indisponível, não salvaremos PNGs automaticamente:', e)
    can_png = False

if can_png:
    for prancha in range(math.ceil(len(all_tickers_to_plot)/3)):
        html_path = out_dir / f'fechamentos_prancha_{prancha+1}.html'
        png_path = out_dir / f'fechamentos_prancha_{prancha+1}.png'
        # Recreate fig (to ensure fig object in scope)
        inicio = prancha*3
        fim = inicio+3
        tickers_prancha = all_tickers_to_plot[inicio:fim]
        fig = make_subplots(rows=len(tickers_prancha), cols=1, subplot_titles=[f"{t} - {ticker_to_name.get(t,'')}" for t in tickers_prancha], shared_xaxes=True, vertical_spacing=0.1)
        for i, t in enumerate(tickers_prancha):
            d = df[df['ticker']==t].sort_values('date')
            fig.add_trace(go.Scatter(x=d['date'], y=d['close'], mode='lines', name=t, showlegend=False), row=i+1, col=1)
            fig.update_yaxes(title_text='Preço (R$)', row=i+1, col=1)
        fig.update_layout(title=f'Fechamentos - Prancha {prancha+1}', template='plotly_white', height=300*len(tickers_prancha))
        fig.write_image(str(png_path))
        print('PNG salvo:', png_path)

print('Processo de geração de gráficos finalizado.')

Total ações: 24
Plotted: 22
Not plotted (2): ['HAPV3.SA', 'RDOR3.SA']
HAPV3.SA 1846
RDOR3.SA 1193

Mapeamento ticker->nome (amostra)
ABEV3.SA -> AMBEV S/A   ON
B3SA3.SA -> B3          ON  EJ  NM
BBAS3.SA -> BRASIL      ON      NM
CPLE6.SA -> COPEL       PNB     N2
CSNA3.SA -> SID NACIONALON
ELET3.SA -> ELETROBRAS  ON      N1
GGBR4.SA -> GERDAU      PN      N1
HAPV3.SA -> HAPVIDA     ON      NM
ITUB4.SA -> ITAUUNIBANCOPN      N1
LREN3.SA -> LOJAS RENNERON  EJ  NM
Diretório de saída: G:\Drives compartilhados\BOLSA_2026\a_bolsa2026\analises\graficos
Salvo: G:\Drives compartilhados\BOLSA_2026\a_bolsa2026\analises\graficos\fechamentos_prancha_1.html
Salvo: G:\Drives compartilhados\BOLSA_2026\a_bolsa2026\analises\graficos\fechamentos_prancha_2.html
Salvo: G:\Drives compartilhados\BOLSA_2026\a_bolsa2026\analises\graficos\fechamentos_prancha_3.html
Salvo: G:\Drives compartilhados\BOLSA_2026\a_bolsa2026\analises\graficos\fechamentos_prancha_4.html
Salvo: G:\Drives compartilhados\BOLSA_2026\a_bo