In [63]:
import requests
import pandas as pd
import yfinance as yf
import plotly as plt
import plotly.express as px
import streamlit as st
import scipy.stats as stats
from scipy.stats import ttest_ind, f_oneway
import numpy as np

In [64]:
tickers = [
    "WEGE3.SA", "KEPL3.SA", "ROMI3.SA", "TASA3.SA", "SHUL4.SA", "POMO4.SA",
    "VLID3.SA", "EMBR3.SA", "RAPT4.SA", "TUPY3.SA", "RAIL3.SA", "GOLL4.SA",
    "AZUL4.SA", "JSLG3.SA", "LOGN3.SA"
]

# Fun√ß√£o para testar se os tickers est√£o dispon√≠veis
def check_tickers_availability(tickers):
    valid_tickers = []
    for ticker in tickers:
        try:
            df = yf.download(ticker, period="1mo", progress=False)
            if not df.empty:
                valid_tickers.append(ticker)
        except Exception as e:
            print(f"Erro ao verificar {ticker}: {e}")
    return valid_tickers

# Verificar tickers v√°lidos
valid_tickers = check_tickers_availability(tickers)

# Exibir os tickers que funcionam
print("Tickers dispon√≠veis:", valid_tickers)

Tickers dispon√≠veis: ['WEGE3.SA', 'KEPL3.SA', 'ROMI3.SA', 'TASA3.SA', 'SHUL4.SA', 'POMO4.SA', 'VLID3.SA', 'EMBR3.SA', 'RAPT4.SA', 'TUPY3.SA', 'RAIL3.SA', 'GOLL4.SA', 'AZUL4.SA', 'JSLG3.SA', 'LOGN3.SA']


In [65]:

# Lista de tickers v√°lidos
valid_tickers = ['WEGE3.SA', 'KEPL3.SA', 'ROMI3.SA', 'TASA3.SA', 'SHUL4.SA', 
                 'POMO4.SA', 'VLID3.SA', 'EMBR3.SA', 'RAPT4.SA', 'TUPY3.SA', 
                 'RAIL3.SA', 'GOLL4.SA', 'AZUL4.SA', 'JSLG3.SA', 'LOGN3.SA']

# Definir o per√≠odo de an√°lise
start_date = "2019-01-01"
end_date = "2024-12-31"

# Fun√ß√£o para baixar os pre√ßos de fechamento ajustados das a√ß√µes
def get_stock_data(tickers, start_date, end_date):
    data = yf.download(tickers, start=start_date, end=end_date, interval='1mo', progress=False)['Close']
    return data

# Baixando os dados das a√ß√µes dispon√≠veis
stock_data = get_stock_data(valid_tickers, start_date, end_date)

# Exibir as primeiras linhas dos dados coletados
stock_data = stock_data.reset_index()

In [66]:

# Fun√ß√£o para obter dados da SELIC via API do Banco Central do Brasil (BCB)
def get_selic_data():
    url = "https://api.bcb.gov.br/dados/serie/bcdata.sgs.4189/dados?formato=json"  # C√≥digo 4189 corresponde √† SELIC
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        df_selic = pd.DataFrame(data)
        df_selic['data'] = pd.to_datetime(df_selic['data'], format='%d/%m/%Y')
        df_selic['valor'] = df_selic['valor'].astype(float)
        df_selic.rename(columns={'data': 'Date', 'valor': 'Selic'}, inplace=True)
        return df_selic
    else:
        print("Erro ao obter dados da SELIC")
        return None

# Obtendo os dados da SELIC
df_selic = get_selic_data()

# Filtrar os dados para manter apenas de 2019 a 2024
df_selic_filtered = df_selic[(df_selic['Date'] >= "2019-01-01") & (df_selic['Date'] <= "2024-12-31")]

# Exibir as primeiras linhas dos dados filtrados
print(df_selic_filtered.head())



          Date  Selic
389 2019-01-01    6.4
390 2019-02-01    6.4
391 2019-03-01    6.4
392 2019-04-01    6.4
393 2019-05-01    6.4


In [67]:
df_fed_funds = pd.read_csv("FEDFUNDS.csv", parse_dates=['observation_date'])

# Renomeando colunas
df_fed_funds.rename(columns={'observation_date': 'Date', 'FEDFUNDS': 'Fed_Funds'}, inplace=True)

# Filtrando os dados entre 2019 e 2024
df_fed_funds = df_fed_funds[(df_fed_funds['Date'] >= "2019-01-01") & (df_fed_funds['Date'] <= "2024-12-31")]

# Exibir os dados carregados
print(df_fed_funds.head())


        Date  Fed_Funds
0 2019-01-01       2.40
1 2019-02-01       2.40
2 2019-03-01       2.41
3 2019-04-01       2.42
4 2019-05-01       2.39


In [68]:
# Definir √≠ndice como data para facilitar jun√ß√£o
df_selic_filtered.set_index('Date', inplace=True)
df_fed_funds.set_index('Date', inplace=True)

# Juntar os dados pelo √≠ndice de data
df_rates = df_selic_filtered.join(df_fed_funds, how='inner')

# Resetar o √≠ndice
df_rates.reset_index(inplace=True)

# Exibir as primeiras linhas para validar
print(df_rates.head())


        Date  Selic  Fed_Funds
0 2019-01-01    6.4       2.40
1 2019-02-01    6.4       2.40
2 2019-03-01    6.4       2.41
3 2019-04-01    6.4       2.42
4 2019-05-01    6.4       2.39


---

### **üìä Correla√ß√£o entre Selic e Fed Funds Rate**


---


In [88]:
# Criar um heatmap interativo da correla√ß√£o entre Selic e Fed Funds Rate
fig = px.imshow(
    df_rates[['Selic', 'Fed_Funds']].corr(),
    text_auto=True,
    color_continuous_scale=["#dbe9f6", "#08306b"],  # Dois tons de azul
    title="Correla√ß√£o entre Selic e Fed Funds Rate"
)

# Ajustar o layout para aumentar o tamanho da fonte
fig.update_layout(
    title_font_size=20,  # Tamanho da fonte do t√≠tulo
    font=dict(size=14),  # Tamanho da fonte geral
    coloraxis_colorbar=dict(title="Correla√ß√£o", title_font_size=14, tickfont_size=12)  # Fonte da barra de cores
)

# Exibir o gr√°fico interativo
fig.show()



---

### **üìä O QUE ESSE GR√ÅFICO MOSTRA?**
1. **Cores e Valores**  
   - O quadrado vermelho (1.0) mostra que **Selic tem correla√ß√£o perfeita com ela mesma** (√≥bvio).
   - O quadrado azul com **0.737** indica que **existe uma correla√ß√£o positiva forte** entre a **Selic e o Fed Funds Rate**.
   - Isso significa que, quando o **Fed Funds Rate sobe**, a **Selic tende a subir tamb√©m**.

2. **Correla√ß√£o de 0.737**
   - Esse valor **n√£o √© 1.0**, ou seja, **n√£o √© uma rela√ß√£o perfeita**, mas ainda assim √© uma **forte correla√ß√£o positiva**.
   - Isso indica que as taxas de juros do Brasil e dos EUA se movem **na mesma dire√ß√£o** na maioria das vezes, mas n√£o sempre.

---

### **üìå INTERPRETA√á√ÉO PR√ÅTICA**
- Quando o **Fed aumenta os juros**, isso pode influenciar o Banco Central do Brasil a **tamb√©m aumentar a Selic**.
- Isso acontece porque **juros mais altos nos EUA fazem os investidores retirarem dinheiro do Brasil**, for√ßando o BC a subir os juros para manter a atratividade do pa√≠s.
- Por outro lado, se os **EUA cortam os juros**, o Brasil pode seguir essa tend√™ncia **para estimular o crescimento econ√¥mico**.



---
### **üìå  O que vamos fazer? - Estat√≠stica Por Tr√°s do Graficoüìå**
1. ‚úÖ Aplicar o Teste de Pearson para verificar se a correla√ß√£o observada √© estatisticamente significativa.

**‚úÖ Hip√≥teses do teste:**
- H‚ÇÄ (Hip√≥tese Nula): N√£o h√° correla√ß√£o significativa entre Selic e Fed Funds Rate.
- H‚ÇÅ (Hip√≥tese Alternativa): Existe uma correla√ß√£o significativa entre Selic e Fed Funds Rate. ‚úÖ N√≠vel de Signific√¢ncia: 5% (0.05). Se p < 0.05, rejeitamos H‚ÇÄ e aceitamos que h√° correla√ß√£o significativa.

---

In [70]:
from scipy.stats import pearsonr

# Remover valores nulos para evitar erros
df_rates.dropna(subset=['Selic', 'Fed_Funds'], inplace=True)

# Aplicar o teste de correla√ß√£o de Pearson
correlation, p_value = pearsonr(df_rates['Selic'], df_rates['Fed_Funds'])

# Exibir resultados
print(f"Correla√ß√£o de Pearson: {correlation:.4f}")
print(f"Valor-p: {p_value:.6f}")

# Interpretar os resultados
if p_value < 0.05:
    print("‚û°Ô∏è O resultado √© estatisticamente significativo. Existe uma correla√ß√£o entre a Selic e o Fed Funds Rate.")
else:
    print("‚ùå O resultado N√ÉO √© estatisticamente significativo. N√£o podemos afirmar que h√° correla√ß√£o real entre as taxas.")


Correla√ß√£o de Pearson: 0.7371
Valor-p: 0.000000
‚û°Ô∏è O resultado √© estatisticamente significativo. Existe uma correla√ß√£o entre a Selic e o Fed Funds Rate.


---
### **1Ô∏è‚É£ Intervalo de Confian√ßa para a Correla√ß√£o**
 - Queremos calcular um **intervalo de confian√ßa (IC)** de **95%** para a correla√ß√£o entre **Selic e Fed Funds Rate**.  
 - Isso nos ajudar√° a entender a **precis√£o** da correla√ß√£o observada.
---

In [71]:
# N√∫mero de observa√ß√µes
n = len(df_rates.dropna(subset=['Selic', 'Fed_Funds']))

# Correla√ß√£o e p-valor j√° calculados antes
correlation, _ = pearsonr(df_rates['Selic'], df_rates['Fed_Funds'])

# Calcular erro padr√£o da correla√ß√£o
se = 1 / np.sqrt(n - 3)

# Calcular intervalo de confian√ßa de 95%
z_score = np.arctanh(correlation)  # Convers√£o para Z-score
z_critical = stats.norm.ppf(0.975)  # Valor cr√≠tico para 95%
ci_lower = np.tanh(z_score - z_critical * se)
ci_upper = np.tanh(z_score + z_critical * se)

# Exibir resultados
print(f"Intervalo de Confian√ßa (95%) da Correla√ß√£o:")
print(f"[{ci_lower:.4f}, {ci_upper:.4f}]")

Intervalo de Confian√ßa (95%) da Correla√ß√£o:
[0.6095, 0.8275]


---
### **üìä Interpreta√ß√£o**
 - Como o intervalo n√£o inclui 0, podemos concluir que a correla√ß√£o √© estatisticamente significativa.
 - O intervalo √© relativamente estreito, indicando boa precis√£o na estimativa da correla√ß√£o.
 - A correla√ß√£o √© positiva e forte (entre 0.61 e 0.83), sugerindo que quando o Fed Funds Rate sobe, a Selic tende a acompanhar.
 ---

---

## üìä **Distribui√ß√£o Anual da Selic (Boxplot)**

1. 
   - Cada caixa representa a **distribui√ß√£o da taxa Selic** ao longo de cada ano.  
   - As caixas mostram o comportamento da taxa ao longo do tempo: valores m√≠nimos, m√°ximos, mediana e dispers√£o.
---

In [72]:
# ==========================
# 1Ô∏è‚É£  PREPARA√á√ÉO DOS DADOS
# ==========================
# Criar coluna com o ano para segmenta√ß√£o
df_rates['Ano'] = df_rates['Date'].dt.year

# Filtrar dados para garantir que s√≥ temos anos completos
anos_disponiveis = df_rates['Ano'].unique()
grupos_selic = [df_rates[df_rates['Ano'] == ano]['Selic'].dropna() for ano in anos_disponiveis]

# ==========================
# 2Ô∏è‚É£  TESTE ANOVA
# ==========================
stat, p_value = f_oneway(*grupos_selic)

In [73]:
# ==========================
# 3Ô∏è‚É£  INTERPRETA√á√ÉO AUTOM√ÅTICA
# ==========================
significancia = 0.05
if p_value < significancia:
    resultado = "A diferen√ßa entre os anos √© estatisticamente significativa. Ou seja, a Selic variou de forma relevante ao longo dos anos."
else:
    resultado = "N√£o h√° evid√™ncias estat√≠sticas suficientes para afirmar que houve mudan√ßas significativas na Selic entre os anos."

# ==========================
# 4Ô∏è‚É£  VISUALIZA√á√ÉO INTERATIVA (com ajuste de propor√ß√£o)
# ==========================
fig = px.box(df_rates, x='Ano', y='Selic', title='Distribui√ß√£o da Selic ao longo dos anos')

# Ajustar propor√ß√µes do gr√°fico para evitar que fique muito retangular
fig.update_layout(
    width=1900,  # Largura ajustada
    height=800,  # Altura reduzida para melhor propor√ß√£o
    margin=dict(l=40, r=40, t=60, b=40)  # Margens ajustadas
)

# ==========================
# 5Ô∏è‚É£  EXIBIR RESULTADOS
# ==========================
print(f"F-Estat√≠stica: {stat:.4f}")
print(f"Valor-p: {p_value:.4f}")
print(f"Conclus√£o: {resultado}")

fig.show()



F-Estat√≠stica: 149.5436
Valor-p: 0.0000
Conclus√£o: A diferen√ßa entre os anos √© estatisticamente significativa. Ou seja, a Selic variou de forma relevante ao longo dos anos.


---

## üß™ INTERPRETA√á√ÉO ESTAT√çSTICA (ANOVA)

Aplicamos um **Teste ANOVA** para verificar se as varia√ß√µes na taxa Selic entre os anos s√£o **estatisticamente significativas**.

### ‚úîÔ∏è Resultado do Teste:
- **F-Estat√≠stica**: `149.5436`
- **Valor-p**: `0.0000`  
  ‚úÖ *Significativo ao n√≠vel de 5% (p < 0.05)*

### üîé Conclus√£o:
> A diferen√ßa entre os anos √© estatisticamente significativa.  
> Ou seja, a **Selic variou de forma relevante ao longo dos anos**, e essa mudan√ßa **n√£o √© fruto do acaso**.

---

## üß† INTERPRETA√á√ÉO PR√ÅTICA

- A Selic passou por **momentos de forte queda** (2020‚Äì2021) para estimular a economia na pandemia.  
- Posteriormente, teve uma **alta expressiva** (2022 em diante) para conter a infla√ß√£o.  
- Essa varia√ß√£o impacta diretamente **o custo do cr√©dito, o investimento em renda fixa, o c√¢mbio e o desempenho da Bolsa**.

##  **Evid√™ncia Visual de Varia√ß√£o**
   - √â poss√≠vel notar visualmente que a Selic teve **comportamentos distintos** em diferentes anos.  
   - Por exemplo, em **2020 e 2021**, a taxa esteve notavelmente mais baixa e vol√°til.  
   - Em **2022 e 2023**, observamos uma forte eleva√ß√£o da taxa.
---


üîÅ Relacionar a varia√ß√£o da Selic com o retorno m√©dio das a√ß√µes industriais.

In [74]:
# Garantir que a coluna 'Date' esteja em formato datetime
df_rates['Date'] = pd.to_datetime(df_rates['Date'])

# Calcular a varia√ß√£o percentual da Selic m√™s a m√™s
df_rates['Varia√ß√£o_Selic'] = df_rates['Selic'].pct_change() * 100


In [80]:
from scipy.stats import pearsonr
import plotly.express as px

# Calcular retorno mensal das a√ß√µes (em %)
returns = stock_data.set_index('Date').pct_change().dropna() * 100

# Calcular varia√ß√£o percentual da Selic
df_rates['Varia√ß√£o_Selic'] = df_rates['Selic'].pct_change() * 100
selic_var = df_rates[['Date', 'Varia√ß√£o_Selic']].set_index('Date')

# Juntar retornos com varia√ß√£o da Selic
combined = returns.join(selic_var, how='inner')

# Calcular correla√ß√£o de cada a√ß√£o com a varia√ß√£o da Selic
correlacoes = {}
for ticker in returns.columns:
    correlacao, _ = pearsonr(combined[ticker], combined['Varia√ß√£o_Selic'])
    correlacoes[ticker] = correlacao

# Selecionar as 5 a√ß√µes mais correlacionadas com a Selic
top_5_tickers = pd.Series(correlacoes).sort_values(ascending=False).head(15).index.tolist()

# Criar DataFrame com pre√ßos dessas a√ß√µes + Selic + Fed Funds
df_top5 = stock_data[['Date'] + top_5_tickers].copy()
df_taxas = df_rates[['Date', 'Selic', 'Fed_Funds']]
df_plot = pd.merge(df_top5, df_taxas, on='Date', how='inner')

# Reestruturar para gr√°fico interativo
df_long = df_plot.melt(id_vars='Date', var_name='Vari√°vel', value_name='Valor')

# Gr√°fico interativo
fig = px.line(df_long, x='Date', y='Valor', color='Vari√°vel',
              title='Evolu√ß√£o de Pre√ßo das A√ß√µes mais Correlacionadas com Selic vs Selic e Fed Funds',
              labels={'Valor': 'Valor (%)', 'Date': 'Data'})
# Criar DataFrame de correla√ß√£o com ranking
df_correlacao = pd.DataFrame.from_dict(correlacoes, orient='index', columns=['Correla√ß√£o_Selic'])
df_correlacao = df_correlacao.sort_values(by='Correla√ß√£o_Selic', ascending=False).reset_index()
df_correlacao.columns = ['Ticker', 'Correla√ß√£o_Selic']
df_correlacao['Ranking'] = df_correlacao['Correla√ß√£o_Selic'].rank(ascending=False).astype(int)

# Visualizar o ranking
import plotly.express as px
fig_corr = px.bar(df_correlacao, x='Ticker', y='Correla√ß√£o_Selic',
                  title='Ranking de Correla√ß√£o com a Varia√ß√£o da Selic (%)',
                  text='Ranking',
                  color='Correla√ß√£o_Selic',
                  color_continuous_scale='RdBu')

fig_corr.update_traces(textposition='outside')
fig_corr.update_layout(height=900, width=1900)
fig_corr.show()

# Se quiser apenas o DataFrame tabular tamb√©m:
df_correlacao

#fig.update_layout(height=500, width=1000)
#fig.show()


Unnamed: 0,Ticker,Correla√ß√£o_Selic,Ranking
0,LOGN3.SA,0.151269,1
1,SHUL4.SA,0.145172,2
2,KEPL3.SA,0.083113,3
3,GOLL4.SA,0.080654,4
4,RAIL3.SA,0.051265,5
5,VLID3.SA,0.037218,6
6,TASA3.SA,0.013353,7
7,TUPY3.SA,0.002413,8
8,EMBR3.SA,-0.032349,9
9,AZUL4.SA,-0.073561,10


In [81]:
import plotly.express as px

# Reestruturar para gr√°fico interativo
df_long = df_plot.melt(id_vars=['Date'], var_name='Vari√°vel', value_name='Valor')

# Gr√°fico com cores vis√≠veis e interativas
fig = px.line(
    df_long,
    x='Date',
    y='Valor',
    color='Vari√°vel',
    color_discrete_sequence=px.colors.qualitative.Plotly,  # Cores diferentes!
    title='Evolu√ß√£o de Pre√ßo das A√ß√µes mais Correlacionadas com Selic e Fed Funds',
    labels={
        'Valor': 'Valor (%)',
        'Date': 'Data'
    }
)

# Layout ajustado
fig.update_layout(
    height=800,
    width=1900,
    legend_title_text='Selecione vari√°veis para visualizar',
    hovermode='x unified'
)

fig.show()

