# üìà An√°lise Explorat√≥ria (EDA)
## üîÑ Ajuste do Diret√≥rio de Trabalho

Antes de carregar ou manipular arquivos, √© importante garantir que estamos no diret√≥rio correto do projeto.  
O c√≥digo abaixo verifica se o notebook est√° sendo executado a partir da pasta `notebooks`. Se for o caso, ele sobe um n√≠vel na hierarquia de diret√≥rios para garantir que o diret√≥rio de trabalho seja a raiz do projeto.

Isso √© √∫til para manter caminhos relativos consistentes ao acessar dados, scripts ou outros recursos do projeto.

üìå **Resumo do que o c√≥digo faz:**
- Verifica se o diret√≥rio atual termina com `notebooks`.
- Se sim, volta uma pasta (para a raiz do projeto).
- Exibe o novo diret√≥rio de trabalho.


In [17]:
import os

# Verifica se o diret√≥rio de trabalho atual termina com 'notebooks'
if os.path.basename(os.getcwd()) == 'notebooks':
    # Se sim, sobe um n√≠vel de diret√≥rio para a pasta raiz do projeto
    os.chdir('..')

# Imprime o diret√≥rio de trabalho para confirmar que a mudan√ßa foi feita
print(f"Diret√≥rio de Trabalho Atual: {os.getcwd()}")

Diret√≥rio de Trabalho Atual: c:\Users\Carlo\Desktop\Portfolio\postech-challenge-ibov


## ‚öôÔ∏è Carregamento de Bibliotecas e Configura√ß√µes do Projeto

Nesta etapa, realizamos a importa√ß√£o das principais bibliotecas que ser√£o utilizadas ao longo do projeto, organizadas por finalidade:

- üìÅ **Configura√ß√µes do Projeto**:  
  Importamos o m√≥dulo `src.config`, que armazena configura√ß√µes como caminhos de arquivos, vari√°veis globais e par√¢metros fixos.

- üìä **Manipula√ß√£o de Dados**:  
  - `pandas` e `numpy` para opera√ß√µes de estrutura√ß√£o e an√°lise de dados.  
  - `duckdb` para consultas SQL diretamente em DataFrames.

- ‚öôÔ∏è **Engenharia de Atributos**:  
  - `pandas_ta` √© uma biblioteca especializada para an√°lise t√©cnica, √∫til para projetos com dados temporais (ex: s√©ries financeiras).

- üìà **Visualiza√ß√£o de Dados**:  
  - `matplotlib.pyplot` e `seaborn` para constru√ß√£o de gr√°ficos interativos e estilizados.

- üß∞ **Helpers do Notebook**:  
  - `display` do `IPython` facilita a visualiza√ß√£o de objetos em c√©lulas do notebook.

Al√©m disso, aplicamos configura√ß√µes visuais para padronizar os gr√°ficos:
- Tema `whitegrid` do Seaborn.
- Estilo `fivethirtyeight` do Matplotlib.
- Habilita√ß√£o do modo inline para que os gr√°ficos sejam renderizados dentro do notebook.

```python
print("‚úÖ Bibliotecas carregadas com sucesso!")


In [18]:
# --- Configura√ß√µes do Projeto ---
# Importa nossas configura√ß√µes (ex: caminho do DB)
import src.config as config

# --- Manipula√ß√£o de Dados ---
import pandas as pd
import numpy as np
import duckdb

# --- Engenharia de Atributos ---
import pandas_ta as ta

# --- Visualiza√ß√£o ---
import matplotlib.pyplot as plt
import seaborn as sns

# --- Helpers do Notebook ---
from IPython.display import display

# Garante que os gr√°ficos sejam exibidos no notebook
%matplotlib inline 

print("‚úÖ Bibliotecas carregadas com sucesso!")

‚úÖ Bibliotecas carregadas com sucesso!


## üß∞ Configura√ß√£o de Estilo e Exibi√ß√£o de Dados

Antes de iniciar a an√°lise, definimos algumas configura√ß√µes visuais e de exibi√ß√£o para melhorar a legibilidade dos outputs e a consist√™ncia gr√°fica.

### üìä Configura√ß√µes do `pandas`
- `max_columns = 100`: Permite visualizar at√© 100 colunas sem truncamento.
- `max_rows = 100`: Permite visualizar at√© 100 linhas diretamente no output.
- `float_format = '{:.2f}'`: Formata n√∫meros decimais com 2 casas, facilitando a leitura.

```python
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)
```

In [19]:
# Pandas display settings
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

# Estilo visual com Seaborn (engloba Matplotlib)
sns.set_theme(
    context='notebook',
    style='whitegrid',
    palette='viridis',
    font='sans-serif',
    font_scale=1.1,
    rc={
        'figure.figsize': (12, 6),
        'font.size': 12,
        'axes.titlesize': 16,
        'axes.labelsize': 14,
        'xtick.labelsize': 12,
        'ytick.labelsize': 12,
        'legend.fontsize': 12,
        'lines.linewidth': 2,
        'grid.alpha': 0.3
    }
)

## üóÉÔ∏è Carregamento dos Dados - Fase 1

Nesta etapa, conectamos ao banco de dados local gerado na **Fase 1** do pipeline para carregar os dados da tabela `precos_diarios`.

Utilizamos o **DuckDB**, um banco de dados anal√≠tico embutido, eficiente para an√°lise local de dados com sintaxe SQL.

üìå **Etapas realizadas:**
1. O caminho do banco de dados (`DB_PATH`) √© recuperado do m√≥dulo de configura√ß√µes `config`.
2. Estabelecemos uma conex√£o com o DuckDB em modo **somente leitura** (`read_only=True`), garantindo integridade.
3. Executamos uma query SQL para obter todos os registros da tabela `precos_diarios`.
4. A conex√£o √© encerrada ap√≥s a leitura.
5. O dataframe resultante √© exibido com:
   - `df.info()` para verificar a estrutura.
   - `df.head()` para visualizar as primeiras linhas.

Em caso de falha, uma mensagem de erro orienta o usu√°rio a verificar se o pipeline da Fase 1 foi executado corretamente e se o arquivo do banco existe no local esperado.


In [20]:
# --- Carregando os dados da Fase 1 ---

# O caminho para o banco de dados j√° est√° no nosso m√≥dulo 'config'
db_path = str(config.DB_PATH)

print(f"Carregando dados de: {db_path}")

try:
    # Conecta ao banco de dados DuckDB em modo de apenas leitura
    con = duckdb.connect(database=db_path, read_only=True)

    # Executa uma query SQL para selecionar todos os dados da nossa tabela
    df = con.execute("SELECT * FROM precos_diarios").fetchdf()

    # Fecha a conex√£o com o banco de dados
    con.close()

    # --- Verifica√ß√£o ---
    print("\n‚úÖ Dados carregados com sucesso! Verificando a estrutura:")
    df.info()

    print("\nExibindo as 5 primeiras linhas:")
    display(df.head())

except Exception as e:
    print(f"‚ùå Ocorreu um erro ao carregar os dados: {e}")
    print("Verifique se o pipeline da Fase 1 foi executado com sucesso e se o arquivo do banco de dados existe no local correto.")

Carregando dados de: C:\Users\Carlo\Desktop\Portfolio\postech-challenge-ibov\data\mercados.duckdb

‚úÖ Dados carregados com sucesso! Verificando a estrutura:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   data                  3000 non-null   object 
 1   close_petroleo_brent  3000 non-null   float64
 2   close_petrobras       3000 non-null   float64
 3   close_dolar           3000 non-null   float64
 4   close_ibovespa        3000 non-null   float64
 5   close_sp500           3000 non-null   float64
 6   high_petroleo_brent   3000 non-null   float64
 7   high_petrobras        3000 non-null   float64
 8   high_dolar            3000 non-null   float64
 9   high_ibovespa         3000 non-null   float64
 10  high_sp500            3000 non-null   float64
 11  low_petroleo_brent    3000 non-null   float64
 12  low_petrobras   

Unnamed: 0,data,close_petroleo_brent,close_petrobras,close_dolar,close_ibovespa,close_sp500,high_petroleo_brent,high_petrobras,high_dolar,high_ibovespa,high_sp500,low_petroleo_brent,low_petrobras,low_dolar,low_ibovespa,low_sp500,open_petroleo_brent,open_petrobras,open_dolar,open_ibovespa,open_sp500,semana_do_mes
0,2014-01-01,95.44,6.15,2.36,50341.0,1831.98,98.97,6.32,2.36,51656.0,1845.86,95.34,6.11,2.35,50246.0,1827.74,98.5,6.3,2.36,51522.0,1845.86,1
1,2014-01-02,95.44,6.15,2.36,50341.0,1831.98,98.97,6.32,2.41,51656.0,1845.86,95.34,6.11,2.35,50246.0,1827.74,98.5,6.3,2.36,51522.0,1845.86,1
2,2014-01-03,93.96,6.06,2.38,50981.0,1831.37,95.74,6.16,2.39,50981.0,1838.24,93.86,6.03,2.36,50269.0,1829.13,95.47,6.15,2.38,50348.0,1833.21,1
3,2014-01-06,93.43,6.1,2.37,50974.0,1826.77,94.59,6.11,2.38,51002.0,1837.16,93.2,5.93,2.36,50451.0,1823.73,94.18,6.04,2.37,50980.0,1832.31,1
4,2014-01-07,93.67,5.93,2.37,50430.0,1837.88,94.22,6.18,2.37,51478.0,1840.1,93.35,5.92,2.34,50429.0,1828.71,93.6,6.11,2.37,50982.0,1828.71,1


## üóìÔ∏è Ajuste do √çndice Temporal

Para garantir uma manipula√ß√£o adequada de s√©ries temporais, realizamos o ajuste da coluna `data`, transformando-a no √≠ndice principal do DataFrame.

üìå **Etapas executadas:**
1. Convertida a coluna `'data'` para o tipo `datetime` com `pd.to_datetime()` para garantir que opera√ß√µes temporais funcionem corretamente (ex: resampling, filtros por per√≠odo).
2. Definida como **√≠ndice do DataFrame** com `df.set_index('data', inplace=True)`, substituindo o √≠ndice num√©rico padr√£o.
3. Exibimos as primeiras linhas para confirmar a altera√ß√£o, verificando que `'data'` agora aparece como √≠ndice √† esquerda do DataFrame.

Esse passo √© essencial em an√°lises temporais, especialmente para s√©ries de pre√ßos, permitindo ordena√ß√£o cronol√≥gica, reamostragem e outras opera√ß√µes baseadas em tempo.


In [21]:
# Garante que a coluna 'data' esteja no formato datetime, caso ainda n√£o esteja
df['data'] = pd.to_datetime(df['data'])

# Define a coluna 'data' como o novo √≠ndice do DataFrame
# O inplace=True modifica o DataFrame diretamente
df.set_index('data', inplace=True)

# Exibe as primeiras linhas para confirmar a mudan√ßa. 
# Note que 'data' agora est√° no lugar do √≠ndice num√©rico.
print("‚úÖ Coluna 'data' definida como √≠ndice. A estrutura agora √©:")
display(df.head())

‚úÖ Coluna 'data' definida como √≠ndice. A estrutura agora √©:


Unnamed: 0_level_0,close_petroleo_brent,close_petrobras,close_dolar,close_ibovespa,close_sp500,high_petroleo_brent,high_petrobras,high_dolar,high_ibovespa,high_sp500,low_petroleo_brent,low_petrobras,low_dolar,low_ibovespa,low_sp500,open_petroleo_brent,open_petrobras,open_dolar,open_ibovespa,open_sp500,semana_do_mes
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2014-01-01,95.44,6.15,2.36,50341.0,1831.98,98.97,6.32,2.36,51656.0,1845.86,95.34,6.11,2.35,50246.0,1827.74,98.5,6.3,2.36,51522.0,1845.86,1
2014-01-02,95.44,6.15,2.36,50341.0,1831.98,98.97,6.32,2.41,51656.0,1845.86,95.34,6.11,2.35,50246.0,1827.74,98.5,6.3,2.36,51522.0,1845.86,1
2014-01-03,93.96,6.06,2.38,50981.0,1831.37,95.74,6.16,2.39,50981.0,1838.24,93.86,6.03,2.36,50269.0,1829.13,95.47,6.15,2.38,50348.0,1833.21,1
2014-01-06,93.43,6.1,2.37,50974.0,1826.77,94.59,6.11,2.38,51002.0,1837.16,93.2,5.93,2.36,50451.0,1823.73,94.18,6.04,2.37,50980.0,1832.31,1
2014-01-07,93.67,5.93,2.37,50430.0,1837.88,94.22,6.18,2.37,51478.0,1840.1,93.35,5.92,2.34,50429.0,1828.71,93.6,6.11,2.37,50982.0,1828.71,1
