
### üóÇÔ∏è Hist√≥rico ‚Äî downloader & combinador (b3_hist_downloader.py)

**Resumo r√°pido**  
Script que baixa hist√≥ricos de pre√ßos (via **yfinance**), salva por ticker em parquet (e opcionalmente CSV), e permite combinar todos os parquets em um √∫nico arquivo *long-format*. Feito para rodar em batch com retry/backoff, pular tickers j√° salvos e gerar um resumo final.


#### ‚ú® Principais responsabilidades
- Baixar hist√≥ricos de pre√ßo por lotes (batch) com **yfinance**.  
- Salvar cada ticker em **data/historical/{TICKER}.parquet** e **{TICKER}.csv**.  
- Gerenciar retries (exponencial), fallback ticker-a-ticker e logs.  
- Gerar CSV de resumo por execu√ß√£o (**download_summary_YYYYMMDDTHHMMSSZ.csv**).  
- Recombinar todos os parquets em um √∫nico **all_histories.parquet** / **all_histories.csv**.


#### üß© Fun√ß√µes principais (one-liners)
- **ticker_exists_local(ticker)** ‚Üí verifica exist√™ncia de **{ticker}.parquet**.  
- **save_history_df(ticker, df, save_csv=True)** ‚Üí salva parquet e CSV; garante coluna **date**.  
- **download_batch(batch, start, threads)** ‚Üí tenta baixar um batch via **yfinance.download** com retries e fallback.  
- **download_all_histories(tickers, start, force, save_summary, save_csv_per_ticker)** ‚Üí orquestra o download em batches, salva e retorna um **DataFrame** resumo.  
- **combine_all_to_single_parquet(out_path, out_csv, tickers)** ‚Üí concatena todos os parquets em formato long e salva.


#### ‚öôÔ∏è Par√¢metros principais (valores padr√£o)
| Par√¢metro | Valor padr√£o |
|---:|:---|
| **HIST_DIR** | **data/historical/** |
| **DEFAULT_START** | **"2011-01-01"** |
| **BATCH_SIZE** | **15** |
| **MAX_ATTEMPTS** | **4** |
| **SLEEP_BETWEEN_BATCHES** | **1** (seg) |
| **SLEEP_BETWEEN_TICKERS** | **0.2** (seg) |


#### üìÇ Sa√≠das geradas
- **data/historical/{TICKER}.parquet** ‚Äî parquet por ticker.  
- **data/historical/{TICKER}.csv** ‚Äî  CSV por ticker.  
- **data/historical/download_summary_{ts}.csv** ‚Äî resumo da execu√ß√£o.  
- **data/historical/all_histories.parquet** & **all_histories.csv** ‚Äî concat final (long format).


In [None]:
import datetime
import logging
import os
import time

import pandas as pd

from typing import Dict, Iterable, List, Optional, Set

import yfinance as yf

logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s")

HIST_DIR = os.path.join("..", "data", "historical")
os.makedirs(HIST_DIR, exist_ok=True)

DEFAULT_START = "2011-01-01"
BATCH_SIZE = 15
MAX_ATTEMPTS = 4          
SLEEP_BETWEEN_BATCHES = 1  
SLEEP_BETWEEN_TICKERS = 0.2

def ticker_exists_local(ticker: str) -> bool:
    """Verifica se j√° existe parquet salvo para ticker (usa para pular downloads)"""
    path = os.path.join(HIST_DIR, f"{ticker}.parquet")
    return os.path.isfile(path)

def save_history_df(ticker: str, df: pd.DataFrame, save_csv: bool = True):
    """Salva DataFrame em parquet e opcionalmente em CSV. Garante coluna 'date' se √≠ndice for DatetimeIndex."""
    if df is None or df.empty:
        raise ValueError("DataFrame nulo ou vazio")
    df = df.copy()
    if isinstance(df.index, pd.DatetimeIndex):
        df.index.name = "date"
        df = df.reset_index()
    
    out_parquet = os.path.join(HIST_DIR, f"{ticker}.parquet")
    out_csv = os.path.join(HIST_DIR, f"{ticker}.csv")
    try:
        df.to_parquet(out_parquet, index=False)
        logging.info("Saved %s rows for %s -> %s", len(df), ticker, out_parquet)
    except Exception as e:
        logging.exception("Erro salvando parquet para %s: %s", ticker, e)
        raise
    if save_csv:
        try:
            if 'date' in df.columns:
                df['date'] = pd.to_datetime(df['date']).dt.strftime('%Y-%m-%d')
            df.to_csv(out_csv, index=False)
            logging.info("Saved CSV for %s -> %s", ticker, out_csv)
        except Exception as e:
            logging.exception("Erro salvando CSV para %s: %s", ticker, e)

def download_batch(batch: List[str], start: str = DEFAULT_START, threads: bool = True) -> Dict[str, Optional[pd.DataFrame]]:
    """
    Tenta baixar um batch de tickers via yfinance.download.
    Retorna dict ticker -> DataFrame or None (se falhou).
    """
    joined = " ".join(batch)
    attempt = 0
    last_exc = None
    while attempt < MAX_ATTEMPTS:
        try:
            logging.info("yfinance.download attempt %d for batch size %d", attempt+1, len(batch))
            data = yf.download(tickers=joined, start=start, progress=False, threads=threads, group_by='ticker', auto_adjust=False, actions=True)
            result = {}
            if isinstance(data, pd.DataFrame) and isinstance(data.columns, pd.MultiIndex):
                for ticker in batch:
                    if ticker in data.columns.get_level_values(0):
                        df_t = data[ticker].copy()
                        result[ticker] = df_t
                    else:
                        try:
                            single = yf.download(ticker, start=start, progress=False, actions=True)
                            result[ticker] = single if not single.empty else None
                        except Exception:
                            result[ticker] = None
            else:
                for ticker in batch:
                    try:
                        df_t = yf.download(ticker, start=start, progress=False, actions=True)
                        result[ticker] = df_t if not df_t.empty else None
                    except Exception:
                        result[ticker] = None
            return result
        except Exception as e:
            last_exc = e
            logging.warning("Erro no yfinance.download (attempt %d): %s", attempt+1, str(e))
            attempt += 1
            time.sleep(2 ** attempt) 
    logging.error("Todas tentativas falharam para batch (%s). √öltimo erro: %s", joined, last_exc)
    result = {}
    for ticker in batch:
        try:
            df_t = yf.download(ticker, start=start, progress=False, actions=True)
            result[ticker] = df_t if not df_t.empty else None
        except Exception as e:
            logging.warning("Fallback individual falhou para %s: %s", ticker, e)
            result[ticker] = None
    return result

def download_all_histories(tickers: List[str], start: str = DEFAULT_START, force: bool = False, save_summary: bool = True, save_csv_per_ticker: bool = True):
    """
    Processo principal: recebe lista de tickers (strings), baixa hist√≥ricos e salva parquet + csv por ticker.
    - force: se True, re-baixa mesmo que arquivo exista.
    - save_csv_per_ticker: se True salva um CSV para cada ticker (al√©m do parquet).
    - retorna um DataFrame resumo com status por ticker.
    """
    os.makedirs(HIST_DIR, exist_ok=True)
    tickers = [t for t in tickers if isinstance(t, str) and t.strip()]
    tickers = list(dict.fromkeys(tickers))
    summary = []
    for i in range(0, len(tickers), BATCH_SIZE):
        batch = tickers[i:i+BATCH_SIZE]
        to_download = [t for t in batch if force or not ticker_exists_local(t)]
        if not to_download:
            logging.info("Batch %d: todos j√° existem localmente ‚Äî pulando.", i//BATCH_SIZE+1)
            for t in batch:
                summary.append({
                    "ticker": t,
                    "status": "skipped_local",
                    "rows": None,
                    "saved_parquet": os.path.join(HIST_DIR, f"{t}.parquet") if ticker_exists_local(t) else None,
                    "saved_csv": os.path.join(HIST_DIR, f"{t}.csv") if os.path.exists(os.path.join(HIST_DIR, f"{t}.csv")) else None
                })
            continue

        logging.info("Processando batch %d/%d (download %d/%d)", i//BATCH_SIZE+1, (len(tickers)+BATCH_SIZE-1)//BATCH_SIZE, len(to_download), len(batch))
        results = download_batch(to_download, start=start)
        for t in batch:
            df_t = results.get(t) if t in results else None
            if df_t is None or (isinstance(df_t, pd.DataFrame) and df_t.empty):
                logging.warning("Nenhum dado para %s em batch; tentativa isolada...", t)
                try:
                    single = yf.download(t, start=start, progress=False, actions=True)
                    df_t = single if not single.empty else None
                except Exception:
                    df_t = None
            if df_t is None or df_t.empty:
                logging.error("Falha obtendo dados para %s", t)
                summary.append({"ticker": t, "status": "failed", "rows": 0, "saved_parquet": None, "saved_csv": None})
            else:
                try:
                    save_history_df(t, df_t, save_csv=save_csv_per_ticker)
                    summary.append({
                        "ticker": t,
                        "status": "ok",
                        "rows": len(df_t),
                        "saved_parquet": os.path.join(HIST_DIR, f"{t}.parquet"),
                        "saved_csv": os.path.join(HIST_DIR, f"{t}.csv") if save_csv_per_ticker else None
                    })
                except Exception as e:
                    logging.exception("Erro salvando para %s: %s", t, e)
                    summary.append({"ticker": t, "status": "save_error", "rows": len(df_t) if isinstance(df_t, pd.DataFrame) else None, "saved_parquet": None, "saved_csv": None})
            time.sleep(SLEEP_BETWEEN_TICKERS)
        time.sleep(SLEEP_BETWEEN_BATCHES)

    df_summary = pd.DataFrame(summary)
    if save_summary:
        ts = datetime.datetime.utcnow().strftime("%Y%m%dT%H%M%SZ")
        summary_path = os.path.join(HIST_DIR, f"download_summary_{ts}.csv")
        df_summary.to_csv(summary_path, index=False)
        logging.info("Resumo salvo em %s", summary_path)
    return df_summary

def combine_all_to_single_parquet(out_path: str = os.path.join(HIST_DIR, "all_histories.parquet"), out_csv: Optional[str] = os.path.join(HIST_DIR, "all_histories.csv"), tickers: Optional[List[str]] = None):
    """
    L√™ todos os parquets em HIST_DIR (ou tickers list) e concatena em formato long:
    columns: ['ticker','date', 'Open','High','Low','Close','Adj Close','Volume', 'Dividends','Stock Splits']
    Salva em parquet e opcionalmente em csv.
    """
    files = []
    if tickers:
        files = [os.path.join(HIST_DIR, f"{t}.parquet") for t in tickers if os.path.exists(os.path.join(HIST_DIR, f"{t}.parquet"))]
    else:
        files = [os.path.join(HIST_DIR, f) for f in os.listdir(HIST_DIR) if f.endswith(".parquet")]
    dfs = []
    for f in files:
        try:
            df = pd.read_parquet(f)
            if 'date' in df.columns:
                df['date'] = pd.to_datetime(df['date'])
            fname = os.path.basename(f).replace(".parquet","")
            if 'ticker' not in df.columns:
                df.insert(0, 'ticker', fname)
            dfs.append(df)
        except Exception as e:
            logging.warning("Erro lendo %s: %s", f, e)
    if not dfs:
        raise RuntimeError("Nenhum parquet encontrado para combinar.")
    big = pd.concat(dfs, ignore_index=True, sort=False)
    big.to_parquet(out_path, index=False)
    logging.info("Combined saved to %s (rows=%d)", out_path, len(big))
    if out_csv:
        try:
            if 'date' in big.columns:
                big['date'] = pd.to_datetime(big['date']).dt.strftime('%Y-%m-%d')
            big.to_csv(out_csv, index=False)
            logging.info("Combined CSV saved to %s", out_csv)
        except Exception as e:
            logging.exception("Erro salvando combined CSV: %s", e)
    return big

if __name__ == "__main__":
    tickers_file = os.path.join("..", "data", "tickers_ibrx100_full.csv")
    if os.path.exists(tickers_file):
        df = pd.read_csv(tickers_file)
        if 'Ticker' in df.columns:
            tickers = df['Ticker'].dropna().astype(str).tolist()
        else:
            tickers = df.iloc[:,0].dropna().astype(str).tolist()
    else:
        raise RuntimeError(f"N√£o encontrou {tickers_file}. Coloque seu CSV de tickers na pasta 'aurum/data/' ou edite este script.")

    def normalize(t):
        t = str(t).strip().upper()
        if not t.endswith(".SA"):
            t = t.replace(".SA","") + ".SA"
        return t
    tickers = [normalize(t) for t in tickers]
    print("Tickers a baixar:", len(tickers), tickers[:10])

    summary_df = download_all_histories(tickers, start=DEFAULT_START, force=False, save_summary=True, save_csv_per_ticker=True)
    print(summary_df.head(50))

    combined = combine_all_to_single_parquet()
    print("Combined rows:", len(combined))

2025-12-11 17:58:44,565 INFO Processando batch 1/7 (download 15/15)
2025-12-11 17:58:44,573 INFO yfinance.download attempt 1 for batch size 15


Tickers a baixar: 97 ['ALOS3.SA', 'ABEV3.SA', 'ANIM3.SA', 'ASAI3.SA', 'AURE3.SA', 'AXIA3.SA', 'AXIA6.SA', 'AZZA3.SA', 'B3SA3.SA', 'BBSE3.SA']


2025-12-11 17:58:48,183 INFO Saved 3716 rows for ALOS3.SA -> ..\data\historical\ALOS3.SA.parquet
2025-12-11 17:58:48,244 INFO Saved CSV for ALOS3.SA -> ..\data\historical\ALOS3.SA.csv
2025-12-11 17:58:48,480 INFO Saved 3716 rows for ABEV3.SA -> ..\data\historical\ABEV3.SA.parquet
2025-12-11 17:58:48,585 INFO Saved CSV for ABEV3.SA -> ..\data\historical\ABEV3.SA.csv
2025-12-11 17:58:48,811 INFO Saved 3716 rows for ANIM3.SA -> ..\data\historical\ANIM3.SA.parquet
2025-12-11 17:58:48,885 INFO Saved CSV for ANIM3.SA -> ..\data\historical\ANIM3.SA.csv
2025-12-11 17:58:49,105 INFO Saved 3716 rows for ASAI3.SA -> ..\data\historical\ASAI3.SA.parquet
2025-12-11 17:58:49,180 INFO Saved CSV for ASAI3.SA -> ..\data\historical\ASAI3.SA.csv
2025-12-11 17:58:49,399 INFO Saved 3716 rows for AURE3.SA -> ..\data\historical\AURE3.SA.parquet
2025-12-11 17:58:49,453 INFO Saved CSV for AURE3.SA -> ..\data\historical\AURE3.SA.csv
2025-12-11 17:58:49,668 INFO Saved 3716 rows for AXIA3.SA -> ..\data\historical\

       ticker status  rows                         saved_parquet  \
0    ALOS3.SA     ok  3716   ..\data\historical\ALOS3.SA.parquet   
1    ABEV3.SA     ok  3716   ..\data\historical\ABEV3.SA.parquet   
2    ANIM3.SA     ok  3716   ..\data\historical\ANIM3.SA.parquet   
3    ASAI3.SA     ok  3716   ..\data\historical\ASAI3.SA.parquet   
4    AURE3.SA     ok  3716   ..\data\historical\AURE3.SA.parquet   
5    AXIA3.SA     ok  3716   ..\data\historical\AXIA3.SA.parquet   
6    AXIA6.SA     ok  3716   ..\data\historical\AXIA6.SA.parquet   
7    AZZA3.SA     ok  3716   ..\data\historical\AZZA3.SA.parquet   
8    B3SA3.SA     ok  3716   ..\data\historical\B3SA3.SA.parquet   
9    BBSE3.SA     ok  3716   ..\data\historical\BBSE3.SA.parquet   
10   BBDC3.SA     ok  3716   ..\data\historical\BBDC3.SA.parquet   
11   BBDC4.SA     ok  3716   ..\data\historical\BBDC4.SA.parquet   
12   BRAP4.SA     ok  3716   ..\data\historical\BRAP4.SA.parquet   
13   BBAS3.SA     ok  3716   ..\data\historical\

2025-12-11 17:59:38,825 INFO Combined saved to ..\data\historical\all_histories.parquet (rows=360452)
2025-12-11 17:59:42,805 INFO Combined CSV saved to ..\data\historical\all_histories.csv


Combined rows: 360452


#### üìã Descri√ß√£o das colunas do dataset hist√≥rico

| Coluna         | Tipo        | Breve descri√ß√£o |
|---------------:|:-----------:|:----------------|
| **date**         | **date**      | Data da observa√ß√£o no formato ISO (**YYYY-MM-DD**). Use como √≠ndice temporal para s√©ries. |
| **Open**         | **float**     | Pre√ßo de abertura do preg√£o (primeira transa√ß√£o considerada naquele dia). |
| **High**         | **float**     | Pre√ßo m√°ximo registrado durante o preg√£o. |
| **Low**          | **float**     | Pre√ßo m√≠nimo registrado durante o preg√£o. |
| **Close**        | **float**     | Pre√ßo de fechamento (√∫ltima transa√ß√£o do dia). N√£o considera ajustes por eventos corporativos. |
| **Adj Close**    | **float**     | Pre√ßo de fechamento **ajustado** por splits e dividendos ‚Äî use para c√°lculo de retornos total/consistentes em s√©ries hist√≥ricas. |
| **Volume**       | **int**       | Quantidade de a√ß√µes negociadas no dia (unidades). |
| **Dividends**    | **float**     | Valor do dividendo pago por a√ß√£o na data (se houver). Geralmente em moeda local (ex.: BRL para B3). |
| **Stock Splits** | **float**     | Fator de desdobramento/agrupamento (ex.: **2.0** ‚Üí split 2-por-1). Zero ou **0.0** quando n√£o houve evento. |

**Notas r√°pidas**
- **Adj Close** √© a coluna recomendada para backtests e c√°lculo de retornos cont√≠nuos (corrige pre√ßos para manter consist√™ncia ap√≥s eventos corporativos).  
- Converta **date** para **datetime** e defina como √≠ndice para opera√ß√µes de s√©rie temporal (**df['date'] = pd.to_datetime(df['date']); df.set_index('date', inplace=True)**).  
- Verifique a unidade/moeda conforme a fonte (normalmente moeda local do mercado, ex.: BRL para B3).  



---

### üìä Documenta√ß√£o: Ferramenta de An√°lise Explorat√≥ria de Hist√≥rico

#### üìù Vis√£o Geral

Este script (**analyze_dataframe**) atua como uma **ferramenta de diagn√≥stico** dentro do pipeline de dados do **Projeto Aurum**.

Seu objetivo principal √© validar a integridade do dataset mestre de pre√ßos (**all_histories.csv**) logo ap√≥s o processo de unifica√ß√£o dos dados hist√≥ricos. Ele serve para garantir que o arquivo CSV consolidado foi gerado corretamente antes que ele seja utilizado em etapas cr√≠ticas como o c√°lculo de indicadores ou backtesting.



### ‚öôÔ∏è Funcionalidades Principais

O script executa uma auditoria sequencial no arquivo de dados:

1.  **Verifica√ß√£o de Exist√™ncia:** Checa se o arquivo existe no caminho especificado antes de tentar carregar, evitando erros em tempo de execu√ß√£o.
2.  **Carregamento Otimizado:** L√™ o CSV convertendo automaticamente a coluna de datas para o formato **datetime** (essencial para s√©ries temporais).
3.  **Auditoria de Estrutura:**
      * Mostra tipos de dados (**dtypes**).
      * Identifica valores nulos (**NaN**) por coluna.
      * Exibe estat√≠sticas descritivas (M√©dia, M√≠nimo, M√°ximo, Desvio Padr√£o) para pre√ßos e volumes.
4.  **Valida√ß√£o de Tickers:** Conta e lista os ativos √∫nicos presentes no arquivo para garantir que a consolida√ß√£o abrangeu todo o universo (ex: IBRX-100).


### üîç Detalhamento do C√≥digo

#### Bibliotecas Utilizadas

  * **pandas**: Motor principal para manipula√ß√£o e an√°lise tabular.
  * **os**: Utilizado para verificar caminhos e exist√™ncia de arquivos no sistema operacional.
  * **io**: Utilizado especificamente (**io.StringIO**) para capturar o output da fun√ß√£o **df.info()**, que nativamente imprime no console, permitindo manipul√°-lo como string se necess√°rio.

### Fun√ß√µes

#### 1\. **print_header(title)**

Uma fun√ß√£o auxiliar est√©tica.

  * **Objetivo:** Criar separadores visuais no log do console.
  * **Utilidade:** Facilita a leitura r√°pida do relat√≥rio quando executado em terminais com muito texto.

#### 2\. **analyze_dataframe(file_path)**

A fun√ß√£o *core* do script. Executa os seguintes passos:

  * **Tratamento de Erros:** Envolve o carregamento (**pd.read_csv**) em um bloco **try-except** para capturar arquivos corrompidos ou mal formatados.
  * **Parsing de Datas:** Usa o argumento **parse_dates=['date']**. Isso √© crucial para o Aurum, pois permite opera√ß√µes de data (ex: filtrar √∫ltimos 5 anos) sem precisar converter strings manualmente depois.
  * **Detec√ß√£o de Nulos:**
    **python
    null_counts = df.isnull().sum()
    if null_counts.sum() == 0: ...
    **
    Isso √© vital para dados financeiros. **Nulls** em pre√ßos de fechamento quebram backtests. Este bloco avisa imediatamente se h√° buracos nos dados.
  * **Verifica√ß√£o de Tickers:** Confirma quantos ativos √∫nicos existem. Se voc√™ espera 100 a√ß√µes (IBRX-100) e o script retorna 50, voc√™ sabe que houve erro na etapa de coleta.


#### üöÄ Como Utilizar

1.  Certifique-se de que o arquivo consolidado existe no diret√≥rio:
    **../data/historical/all_histories.csv**
2.  Execute o script via terminal:
    ```bash
    python analise_historico.py
    ```
3.  **Interpreta√ß√£o do Output:**
      * **Sucesso:** O script imprimir√° as 5 primeiras linhas, o resumo de mem√≥ria e confirmar√° "N√£o h√° valores nulos".
      * **Aten√ß√£o:** Se houver valores nulos em `Close` ou `Adj Close`, voc√™ deve revisitar o script de limpeza de dados.


### üîó Contexto no Projeto Aurum

Dentro da arquitetura do Aurum, este script se encaixa na etapa de **Valida√ß√£o de Qualidade de Dados (Data Quality)**.

```mermaid
flowchart LR
    A[Coleta Yahoo Finance] --> B[Dataset Bruto]
    B --> C[Limpeza e Unifica√ß√£o]
    C --> D[(all_histories.csv)]
    D --> E{Script de An√°lise}
    E -- OK --> F[C√°lculo de Indicadores]
    E -- Erro --> G[Revisar Coleta]
```

-----

*Documenta√ß√£o gerada automaticamente para o Laborat√≥rio Quantitativo Aurum.*

In [2]:
import pandas as pd
import os
import io

def print_header(title):
    """
    Fun√ß√£o auxiliar para imprimir um cabe√ßalho formatado no log.
    """
    print("\n" + "=" * 70)
    print(f" {title.upper()} ")
    print("=" * 70)

def analyze_dataframe(file_path):
    """
    Carrega e analisa um DataFrame de hist√≥rico de a√ß√µes.
    """
    
    print(f"--- Iniciando An√°lise do Arquivo: {file_path} ---")
    
    if not os.path.exists(file_path):
        print_header("[ERRO] Arquivo n√£o encontrado")
        print(f"O arquivo no caminho '{file_path}' n√£o foi localizado.")
        print("Por favor, verifique se o caminho est√° correto e a pasta 'historical' existe.")
        print("=" * 70)
        return

    try:
        df = pd.read_csv(file_path, parse_dates=['date'])
        print(f"\n[SUCESSO] Arquivo carregado. Total de {len(df)} linhas e {len(df.columns)} colunas.")
    except Exception as e:
        print_header("[ERRO] Falha ao carregar o arquivo")
        print(f"Ocorreu um erro ao tentar ler o arquivo CSV: {e}")
        print("=" * 70)
        return

    print_header("1. Amostra dos Dados (Primeiras 5 Linhas)")
    print(df.head().to_string())

    print_header("2. Informa√ß√µes do DataFrame (Tipos de Coluna e Nulos)")
    buffer = io.StringIO()
    df.info(buf=buffer)
    info_str = buffer.getvalue()
    print(info_str)

    print_header("3. Resumo de Valores Nulos por Coluna")
    null_counts = df.isnull().sum()
    
    if null_counts.sum() == 0:
        print("√ìtimo! N√£o h√° valores nulos em nenhuma coluna.")
    else:
        print(null_counts[null_counts > 0].to_string())

    print_header("4. Estat√≠sticas Descritivas (Colunas Num√©ricas)")
    try:
        print(df.describe().to_string())
    except Exception as e:
        print(f"N√£o foi poss√≠vel calcular estat√≠sticas descritivas: {e}")

    print_header("5. An√°lise da Coluna 'ticker'")
    if 'ticker' in df.columns:
        unique_tickers = df['ticker'].unique()
        num_unique_tickers = len(unique_tickers)
        print(f"Total de tickers √∫nicos encontrados: {num_unique_tickers}")
        
        if num_unique_tickers > 10:
            print(f"Amostra de tickers: {unique_tickers[:10]}...")
        else:
            print(f"Tickers presentes: {unique_tickers}")
    else:
        print("Coluna 'ticker' n√£o encontrada.")

    print("\n" + "=" * 70)
    print("--- AN√ÅLISE CONCLU√çDA ---")
    print("=" * 70)

if __name__ == "__main__":
    
    path_do_arquivo = '../data/historical/all_histories.csv'
    
    analyze_dataframe(path_do_arquivo)

--- Iniciando An√°lise do Arquivo: ../data/historical/all_histories.csv ---

[SUCESSO] Arquivo carregado. Total de 360452 linhas e 10 colunas.

 1. AMOSTRA DOS DADOS (PRIMEIRAS 5 LINHAS) 
     ticker       date      Open      High       Low     Close  Adj Close     Volume  Dividends  Stock Splits
0  ABEV3.SA 2011-01-03  8.632311  8.728203  8.630313  8.690246   4.694567   576145.0        0.0           0.0
1  ABEV3.SA 2011-01-04  8.784141  8.784141  8.630313  8.692244   4.695647   328368.0        0.0           0.0
2  ABEV3.SA 2011-01-05  8.672266  8.718215  8.448517  8.530425   4.608231   299836.0        0.0           0.0
3  ABEV3.SA 2011-01-06  8.560392  8.590358  8.396576  8.450515   4.565063   731319.0        0.0           0.0
4  ABEV3.SA 2011-01-07  8.450515  8.550403  8.368607  8.416553   4.546715  1090222.0        0.0           0.0

 2. INFORMA√á√ïES DO DATAFRAME (TIPOS DE COLUNA E NULOS) 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 360452 entries, 0 to 360451
Data columns (t


-----

### üßπ ETL: Sanitiza√ß√£o de Dados Hist√≥ricos de Mercado

#### üìù Vis√£o Geral

Este script √© respons√°vel pela etapa de **Limpeza e Normaliza√ß√£o (Data Cleaning)** dos dados brutos de pre√ßos (OHLCV) coletados.

Ele atua como um filtro de qualidade, removendo registros inconsistentes, dias sem negocia√ß√£o ou dados corrompidos antes que eles entrem no pipeline de c√°lculo de indicadores ou backtesting. Isso √© crucial para evitar erros de divis√£o por zero ou distor√ß√µes estat√≠sticas.

-----

### ‚öôÔ∏è Fluxo de Execu√ß√£o

O script segue uma l√≥gica de **Fallback** (tentativa e erro) para o carregamento e uma l√≥gica estrita para a limpeza.

```mermaid
flowchart LR
    Start([In√≠cio]) --> TryParquet{Existe<br/>.parquet?}
    
    TryParquet -- Sim --> LoadP[Carregar Parquet]
    TryParquet -- N√£o --> TryCSV{Existe<br/>.csv?}
    
    TryCSV -- Sim --> LoadC[Carregar CSV]
    TryCSV -- N√£o --> Error[‚ùå Erro Fatal]
    
    LoadP --> Clean[Sanitiza√ß√£o]
    LoadC --> Clean
    
    subgraph Sanitiza√ß√£o [Regras de Limpeza]
        R1[Drop NaN em 'Adj Close']
        R2[Drop NaN em 'Volume']
        R3[Filtro: Volume > 0]
    end
    
    Clean --> Save[Salvar Arquivos Limpos]
    Save --> End([Fim])
```

-----

### üîç Detalhes da Implementa√ß√£o

#### 1\. Ingest√£o Inteligente (Input)

O script utiliza um mecanismo robusto de carregamento:

  * **Prioridade:** Tenta carregar o formato `.parquet` (mais r√°pido e eficiente em mem√≥ria).
  * **Fallback:** Se o Parquet n√£o existir, recorre automaticamente ao `.csv` bruto.
  * **Parser:** Ao carregar o CSV, j√° converte a coluna de data (`parse_dates=['date']`), garantindo a tipagem correta.

#### 2\. Regras de Limpeza (Business Logic)

O script aplica dois filtros rigorosos para garantir a integridade do dataset `df_prices_clean`:

1.  **Remo√ß√£o de Nulos (`dropna`):**
      * Remove linhas onde o Pre√ßo Ajustado (`Adj Close`) ou Volume sejam nulos/NaN.
      * *Motivo:* Dados nulos quebram c√°lculos de m√©dias m√≥veis e indicadores t√©cnicos.
2.  **Filtro de Liquidez (`Volume > 0`):**
      * Remove dias onde o volume negociado foi zero (feriados locais onde a bolsa mundial abriu, dias de suspens√£o de negocia√ß√£o do ativo, ou erros de coleta).
      * *Motivo:* Dias com volume zero distorcem a m√©dia de liquidez e podem gerar sinais falsos de estabilidade de pre√ßo.

#### 3\. Persist√™ncia (Output)

Os dados limpos s√£o salvos no diret√≥rio `../data/historical/` em dois formatos simultaneamente:

  * `all_histories_cleaned.parquet`: Para leitura r√°pida nos pr√≥ximos scripts do Python.
  * `all_histories_cleaned.csv`: Para inspe√ß√£o visual r√°pida (Excel/Notepad) ou depura√ß√£o.

-----

#### üìä M√©tricas de Qualidade

O script gera logs informativos (`logging`) que permitem monitorar a "sa√∫de" dos dados:

  * **Contagem de Linhas:** Informa quantas linhas existiam antes e quantas restaram.
  * **Perda de Dados:** Calcula e exibe quantas linhas foram descartadas (`linhas_removidas`). Uma taxa de remo√ß√£o muito alta pode indicar problemas na fonte de dados (Yahoo Finance/B3).

-----

### üöÄ Como Executar

Certifique-se de que o arquivo bruto (`all_histories.parquet` ou `.csv`) exista na pasta de dados.

```bash
python clean_market_data.py
```

### Exemplo de Sa√≠da no Console:

```text
2025-12-13 16:30:00 - INFO - Dados de pre√ßo brutos carregados do PARQUET: 150000 linhas
2025-12-13 16:30:01 - INFO - Dados de pre√ßo limpos: 148500 linhas (removidas 1500 linhas com NaN ou Volume 0)
2025-12-13 16:30:02 - INFO - ‚úÖ Arquivo limpo salvo em (Parquet): ../data/historical/all_histories_cleaned.parquet
2025-12-13 16:30:02 - INFO - ‚úÖ Arquivo limpo salvo em (CSV): ../data/historical/all_histories_cleaned.csv

Limpeza conclu√≠da. 1500 linhas removidas.
```

-----

*Documenta√ß√£o do m√≥dulo ETL do Projeto Aurum.*

In [None]:
import pandas as pd
import numpy as np
import logging
import os

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

try:
    df_prices_raw = pd.read_parquet("../data/historical/all_histories.parquet")
    logger.info(f"Dados de pre√ßo brutos carregados do PARQUET: {df_prices_raw.shape[0]} linhas")
except FileNotFoundError:
    logger.warning("Arquivo all_histories.parquet n√£o encontrado! Tentando carregar o CSV...")
    try:
        df_prices_raw = pd.read_csv("../data/historical/all_histories.csv", parse_dates=['date'])
        logger.info(f"Dados de pre√ßo brutos carregados do CSV: {df_prices_raw.shape[0]} linhas")
    except FileNotFoundError as e:
        logger.error("Nenhum arquivo de hist√≥rico (parquet ou csv) encontrado. Execute o download primeiro.")
        raise e
except Exception as e:
    logger.error(f"Erro ao carregar dados: {e}")
    raise

df_prices_clean = df_prices_raw.dropna(subset=['Adj Close', 'Volume'])

df_prices_clean = df_prices_clean[df_prices_clean['Volume'] > 0]

linhas_removidas = len(df_prices_raw) - len(df_prices_clean)
logger.info(f"Dados de pre√ßo limpos: {df_prices_clean.shape[0]} linhas (removidas {linhas_removidas} linhas com NaN ou Volume 0)")

output_dir = "../data/historical"
os.makedirs(output_dir, exist_ok=True)

parquet_path = os.path.join(output_dir, "all_histories_cleaned.parquet")
csv_path = os.path.join(output_dir, "all_histories_cleaned.csv")

try:
    df_prices_clean.to_parquet(parquet_path, index=False)
    logger.info(f"‚úÖ Arquivo limpo salvo em (Parquet): {parquet_path}")

    df_prices_clean.to_csv(csv_path, index=False, date_format='%Y-%m-%d')
    logger.info(f"‚úÖ Arquivo limpo salvo em (CSV): {csv_path}")

except Exception as e:
    logger.error(f"‚ùå Erro ao salvar arquivos limpos: {e}")

print(f"\nLimpeza conclu√≠da. {linhas_removidas} linhas de 'lookahead' removidas.")
print(df_prices_clean.head())

2025-12-13 15:56:26,391 - INFO - Dados de pre√ßo brutos carregados do PARQUET: 360452 linhas
2025-12-13 15:56:26,456 - INFO - Dados de pre√ßo limpos: 276324 linhas (removidas 84128 linhas com NaN ou Volume 0)
2025-12-13 15:56:26,738 - INFO - ‚úÖ Arquivo limpo salvo em (Parquet): ../data/historical\all_histories_cleaned.parquet
2025-12-13 15:56:30,192 - INFO - ‚úÖ Arquivo limpo salvo em (CSV): ../data/historical\all_histories_cleaned.csv



Limpeza conclu√≠da. 84128 linhas de 'lookahead' removidas.
     ticker       date      Open      High       Low     Close  Adj Close  \
0  ABEV3.SA 2011-01-03  8.632311  8.728203  8.630313  8.690246   4.694567   
1  ABEV3.SA 2011-01-04  8.784141  8.784141  8.630313  8.692244   4.695647   
2  ABEV3.SA 2011-01-05  8.672266  8.718215  8.448517  8.530425   4.608231   
3  ABEV3.SA 2011-01-06  8.560392  8.590358  8.396576  8.450515   4.565063   
4  ABEV3.SA 2011-01-07  8.450515  8.550403  8.368607  8.416553   4.546715   

      Volume  Dividends  Stock Splits  
0   576145.0        0.0           0.0  
1   328368.0        0.0           0.0  
2   299836.0        0.0           0.0  
3   731319.0        0.0           0.0  
4  1090222.0        0.0           0.0  



-----

### üîÑ ETL: Transforma√ß√£o e Pivoteamento de Pre√ßos (Mensal)

#### üìù Vis√£o Geral

Este script √© respons√°vel por **alterar a dimensionalidade** dos dados de mercado, preparando o terreno para a etapa de Backtesting e gera√ß√£o de sinais.

Ele transforma o dataset "Longo" (onde cada linha √© um registro di√°rio de um ticker) em datasets "Wide" (Matrizes), onde o √≠ndice √© a Data, as colunas s√£o os Tickers e os valores s√£o os pre√ßos. Al√©m disso, ele realiza a **reamostragem temporal** (Resampling) de dados di√°rios para **mensais**.

-----

### ‚öôÔ∏è Fluxo de Transforma√ß√£o

O script realiza uma convers√£o crucial de formato de dados:

**De: Formato Longo (Transactional)**
| Data | Ticker | Adj Close |
| :--- | :--- | :--- |
| 2024-01-01 | PETR4 | 35.00 |
| 2024-01-01 | VALE3 | 70.00 |
| 2024-01-02 | PETR4 | 36.00 |

**Para: Formato Wide (Matrix)**
| Data (Index) | PETR4 | VALE3 | ... |
| :--- | :--- | :--- | :--- |
| 2024-01-31 | 38.00 | 72.00 | ... |
| 2024-02-29 | 39.50 | 71.00 | ... |

```mermaid
flowchart LR
    Input[("<b>all_histories_cleaned.parquet</b><br/>(Dados Di√°rios Longos)")] --> Process
    
    subgraph Process [Processamento]
        A["<b>Resample Mensal ('M')</b><br/>Captura o √∫ltimo pre√ßo do m√™s"]
        B["<b>Resample Mensal ('MS')</b><br/>Captura o pre√ßo de abertura do m√™s"]
        C["<b>Pivot Table</b><br/>Transforma Tickers em Colunas"]
        D["<b>Fill NA</b><br/>Preenchimento de lacunas (ffill/bfill)"]
    end
    
    Input --> A & B
    A --> C
    B --> C
    C --> D
    
    D --> Out1[("<b>prices_close_wide.parquet</b><br/>Matriz de Fechamentos")]
    D --> Out2[("<b>prices_open_wide.parquet</b><br/>Matriz de Aberturas")]
```

-----

### üîç Detalhes da L√≥gica

#### 1\. Reamostragem (Resampling)

Para simular uma estrat√©gia de rebalanceamento mensal, n√£o precisamos de 252 dias √∫teis por ano, apenas do pre√ßo de entrada e sa√≠da de cada m√™s.

  * **Fechamento (`Close`):** Usa a frequ√™ncia `'M'` (Month End) e a fun√ß√£o `.last()`. Pega o pre√ßo do √∫ltimo dia de negocia√ß√£o do m√™s.
  * **Abertura (`Open`):** Usa a frequ√™ncia `'MS'` (Month Start) e a fun√ß√£o `.first()`. Pega o pre√ßo do primeiro dia de negocia√ß√£o do m√™s.

#### 2\. Tratamento de Lacunas (Gap Filling)

Matrizes de pre√ßos n√£o podem ter buracos (NaN) para c√°lculos vetoriais. O script aplica uma estrat√©gia agressiva de preenchimento:

  * **Forward Fill (`ffill`):** Se um ativo n√£o foi negociado em um m√™s espec√≠fico, ele repete o pre√ßo do m√™s anterior.
  * **Backward Fill (`bfill`):** Se o ativo n√£o tinha dados no in√≠cio do hist√≥rico, ele puxa o primeiro pre√ßo v√°lido para tr√°s (para evitar NaNs no come√ßo da s√©rie).

-----

### üìÇ Entradas e Sa√≠das

#### Input

  * **Arquivo:** `../data/historical/all_histories_cleaned.parquet`
  * **Conte√∫do:** Hist√≥rico di√°rio limpo de todos os ativos (formato longo).

#### Outputs

Salvos em `../data/historical/`:

1.  **`prices_close_wide.parquet`**:
      * Matriz contendo apenas os pre√ßos de fechamento ajustados (`Adj Close`) de fim de m√™s.
      * Essencial para calcular a rentabilidade da carteira.
2.  **`prices_open_wide.parquet`**:
      * Matriz contendo os pre√ßos de abertura (`Open`) de in√≠cio de m√™s.
      * Utilizado para simular o pre√ßo de execu√ß√£o da compra no rebalanceamento.

-----

### üöÄ Como Executar

Este script depende da execu√ß√£o pr√©via do script de limpeza.

```bash
python gerar_matriz_precos.py
```

### Exemplo de Log de Sucesso:

```text
2025-12-13 16:45:00 - INFO - Iniciando o Passo 1: Gera√ß√£o dos Pre√ßos Pivotados (Wide)...
2025-12-13 16:45:01 - INFO - Dados limpos carregados.
2025-12-13 16:45:02 - INFO - Reamostrando para Frequ√™ncia Mensal (M e MS)...
2025-12-13 16:45:03 - INFO - Corrigindo MultiIndex e Pivotando...
2025-12-13 16:45:04 - INFO - ‚úÖ ARQUIVO FALTOSO GERADO: ../data/historical/prices_close_wide.parquet
```

-----

*Documenta√ß√£o do m√≥dulo de Transforma√ß√£o de Dados do Projeto Aurum.*

In [4]:
import pandas as pd
import numpy as np
import logging
import os

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

INPUT_FILE = "../data/historical/all_histories_cleaned.parquet"
OUTPUT_DIR = "../data/historical"

def gerar_precos_pivotados():
    logger.info("Iniciando o Passo 1: Gera√ß√£o dos Pre√ßos Pivotados (Wide)...")
    
    try:
        df_prices_clean = pd.read_parquet(INPUT_FILE)
        logger.info(f"Dados limpos '{INPUT_FILE}' carregados.")
    except FileNotFoundError:
        logger.error(f"ARQUIVO N√ÉO ENCONTRADO: {INPUT_FILE}")
        logger.error("Execute o 'Script 1: Limpeza' primeiro.")
        return

    df_prices_clean['date'] = pd.to_datetime(df_prices_clean['date'])

    logger.info("Reamostrando para Frequ√™ncia Mensal (M e MS)...")
    df_prices_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('M').last()

    df_open_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('MS').first()

    logger.info("Corrigindo MultiIndex e Pivotando...")
    
    df_prices_mensal_long = df_prices_mensal_raw.drop(columns='ticker', errors='ignore').reset_index()
    df_open_mensal_long = df_open_mensal_raw.drop(columns='ticker', errors='ignore').reset_index()

    df_close_wide = df_prices_mensal_long.pivot(index='date', columns='ticker', values='Adj Close')
    df_open_wide = df_open_mensal_long.pivot(index='date', columns='ticker', values='Open')

    logger.info("Sincronizando e preenchendo √≠ndices de data...")
    idx_union = df_close_wide.index.union(df_open_wide.index)
    
    df_close_wide = df_close_wide.reindex(idx_union, method='ffill')
    df_open_wide = df_open_wide.reindex(idx_union, method='ffill')

    df_close_wide = df_close_wide.ffill().bfill()
    df_open_wide = df_open_wide.ffill().bfill()

    os.makedirs(OUTPUT_DIR, exist_ok=True)
    
    path_close = os.path.join(OUTPUT_DIR, "prices_close_wide.parquet")
    path_open = os.path.join(OUTPUT_DIR, "prices_open_wide.parquet")
    
    df_close_wide.to_parquet(path_close)
    df_open_wide.to_parquet(path_open)
    
    logger.info(f"‚úÖ ARQUIVO FALTOSO GERADO: {path_close}")
    logger.info(f"‚úÖ ARQUIVO FALTOSO GERADO: {path_open}")
    print("\n--- Amostra de Fechamento (Wide) ---")
    print(df_close_wide.head())

if __name__ == "__main__":
    gerar_precos_pivotados()



2025-12-13 15:56:30,226 - INFO - Iniciando o Passo 1: Gera√ß√£o dos Pre√ßos Pivotados (Wide)...
2025-12-13 15:56:30,309 - INFO - Dados limpos '../data/historical/all_histories_cleaned.parquet' carregados.
2025-12-13 15:56:30,323 - INFO - Reamostrando para Frequ√™ncia Mensal (M e MS)...
  df_prices_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('M').last()
  df_prices_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('M').last()
  df_open_mensal_raw = df_prices_clean.set_index('date').groupby('ticker').resample('MS').first()
2025-12-13 15:56:31,971 - INFO - Corrigindo MultiIndex e Pivotando...
2025-12-13 15:56:32,009 - INFO - Sincronizando e preenchendo √≠ndices de data...
2025-12-13 15:56:32,082 - INFO - ‚úÖ ARQUIVO FALTOSO GERADO: ../data/historical\prices_close_wide.parquet
2025-12-13 15:56:32,083 - INFO - ‚úÖ ARQUIVO FALTOSO GERADO: ../data/historical\prices_open_wide.parquet



--- Amostra de Fechamento (Wide) ---
ticker      ABEV3.SA   ALOS3.SA  ANIM3.SA   ASAI3.SA   AURE3.SA   AXIA3.SA  \
date                                                                         
2011-01-01  4.097764  32.057922  5.146394  14.210447  12.438302  12.054853   
2011-01-31  4.097764  32.057922  5.146394  14.210447  12.438302  12.054853   
2011-02-01  4.097764  32.057922  5.146394  14.210447  12.438302  12.054853   
2011-02-28  4.041646  32.057922  5.146394  14.210447  12.438302  12.646833   
2011-03-01  4.041646  32.057922  5.146394  14.210447  12.438302  12.646833   

ticker       AXIA6.SA   AZZA3.SA  B3SA3.SA  BBAS3.SA  ...  TOTS3.SA  UGPA3.SA  \
date                                                  ...                       
2011-01-01  10.141385  14.825628  6.694447  5.331043  ...  8.352773  2.950102   
2011-01-31  10.141385  14.825628  6.694447  5.331043  ...  8.352773  2.950102   
2011-02-01  10.141385  14.825628  6.694447  5.331043  ...  8.352773  2.950102   
2011-02-28

In [5]:
import pandas as pd
import numpy as np
import os
import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

logger.info("Iniciando Passo 2: C√°lculo da Volatilidade...")

df_prices_daily = pd.read_parquet("../data/historical/all_histories_cleaned.parquet")
df_prices_daily['date'] = pd.to_datetime(df_prices_daily['date'])

df_prices_daily['returns'] = df_prices_daily.groupby('ticker')['Adj Close'].pct_change()

df_prices_daily['VOLATILIDADE'] = df_prices_daily.groupby('ticker')['returns'].rolling(window=63).std().reset_index(0, drop=True)

df_vol_mensal = df_prices_daily.set_index('date').groupby('ticker').resample('M').last()['VOLATILIDADE'].reset_index()

logger.info(f"‚úÖ Volatilidade mensal calculada. {len(df_vol_mensal)} registros.")
print(df_vol_mensal.tail())

2025-12-13 15:56:32,122 - INFO - Iniciando Passo 2: C√°lculo da Volatilidade...
  df_vol_mensal = df_prices_daily.set_index('date').groupby('ticker').resample('M').last()['VOLATILIDADE'].reset_index()
  df_vol_mensal = df_prices_daily.set_index('date').groupby('ticker').resample('M').last()['VOLATILIDADE'].reset_index()
2025-12-13 15:56:33,107 - INFO - ‚úÖ Volatilidade mensal calculada. 13829 registros.


         ticker       date  VOLATILIDADE
13824  YDUQ3.SA 2025-08-31      0.026134
13825  YDUQ3.SA 2025-09-30      0.027915
13826  YDUQ3.SA 2025-10-31      0.026777
13827  YDUQ3.SA 2025-11-30      0.026897
13828  YDUQ3.SA 2025-12-31      0.028388
