pip install yfinance==0.2.58

In [13]:
# Importar as bibliotecas
import yfinance as yf
import pandas as pd
import numpy as np
from scipy import stats
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

In [14]:
# Importar dataframe
ticker = '^BVSP'
dtini = '2016-01-01'
dtfin = '2025-12-31'
df = yf.download(ticker, dtini, dtfin, auto_adjust=False)
df.columns=df.columns.get_level_values(0)

[*********************100%***********************]  1 of 1 completed


In [15]:
# Primeira inspeção dos dados
print("="*50)
print("PRIMEIRA INSPEÇÃO DOS DADOS")
print("="*50)
print(f"Dimensões: {df.shape}")
print(f"\nColunas: {list(df.columns)}")
print(f"\nTipos de dados:")
print(df.dtypes)
print(f"\nInformações gerais:")
print(df.info())
print(f"\nPrimeiras 5 linhas:")
print(df.head())

PRIMEIRA INSPEÇÃO DOS DADOS
Dimensões: (2334, 6)

Colunas: ['Adj Close', 'Close', 'High', 'Low', 'Open', 'Volume']

Tipos de dados:
Price
Adj Close    float64
Close        float64
High         float64
Low          float64
Open         float64
Volume         int64
dtype: object

Informações gerais:
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2334 entries, 2016-01-04 to 2025-05-29
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Adj Close  2334 non-null   float64
 1   Close      2334 non-null   float64
 2   High       2334 non-null   float64
 3   Low        2334 non-null   float64
 4   Open       2334 non-null   float64
 5   Volume     2334 non-null   int64  
dtypes: float64(5), int64(1)
memory usage: 127.6 KB
None

Primeiras 5 linhas:
Price       Adj Close    Close     High      Low     Open   Volume
Date                                                              
2016-01-04    42141.0  42141.0  43349.0  4212

In [16]:
# Análise exploratória de dados
print("="*60)
print("ANÁLISE EXPLORATÓRIA DE DADOS (EDA)")
print("="*60)

print("\nINFORMAÇÕES BÁSICAS")
print("-" * 30)
print(f"Linhas: {df.shape[0]}")
print(f"Colunas: {df.shape[1]}")
print(f"Tamanho total: {df.size}")
print(f"Memória utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print("\nVALORES AUSENTES")
print("-" * 30)
missing = df.isnull().sum()
missing_percent = (missing / len(df)) * 100
missing_df = pd.DataFrame({
    'Coluna': missing.index,
    'Valores_Ausentes': missing.values,
    'Porcentagem': missing_percent.values
})
print(missing_df[missing_df['Valores_Ausentes'] > 0])

print("\nDUPLICATAS")
print("-" * 30)
duplicatas = df.duplicated().sum()
print(f"Linhas duplicadas: {duplicatas}")

print("\nESTATÍSTICAS DESCRITIVAS")
print("-" * 30)
print(df.describe())

ANÁLISE EXPLORATÓRIA DE DADOS (EDA)

INFORMAÇÕES BÁSICAS
------------------------------
Linhas: 2334
Colunas: 6
Tamanho total: 14004
Memória utilizada: 0.12 MB

VALORES AUSENTES
------------------------------
Empty DataFrame
Columns: [Coluna, Valores_Ausentes, Porcentagem]
Index: []

DUPLICATAS
------------------------------
Linhas duplicadas: 0

ESTATÍSTICAS DESCRITIVAS
------------------------------
Price      Adj Close          Close           High            Low  \
count    2334.000000    2334.000000    2334.000000    2334.000000   
mean    98243.405092   98243.405092   99075.106021   97371.791693   
std     24693.020264   24693.020264   24772.737986   24617.617975   
min     37497.000000   37497.000000   38031.000000   37046.000000   
25%     78116.750000   78116.750000   78960.750000   77155.000000   
50%    103871.000000  103871.000000  104671.000000  102844.500000   
75%    117866.000000  117866.000000  118737.250000  116899.250000   
max    140110.000000  140110.000000  140382

In [17]:
# Análise estatística por coluna
for col in df.columns:
    print(f"\nAnálise da coluna: {col}")
    print(f"Média: {df[col].mean():.2f}")
    print(f"Mediana: {df[col].median():.2f}")
    print(f"Moda: {df[col].mode().iloc[0] if not df[col].mode().empty else 'N/A'}")
    print(f"Desvio Padrão: {df[col].std():.2f}")
    print(f"Assimetria: {df[col].skew():.2f}")
    print(f"Curtose: {df[col].kurtosis():.2f}")
    print(f"Mín: {df[col].min():.2f} | Máx: {df[col].max():.2f}")


Análise da coluna: Adj Close
Média: 98243.41
Mediana: 103871.00
Moda: 49246.0
Desvio Padrão: 24693.02
Assimetria: -0.52
Curtose: -0.79
Mín: 37497.00 | Máx: 140110.00

Análise da coluna: Close
Média: 98243.41
Mediana: 103871.00
Moda: 49246.0
Desvio Padrão: 24693.02
Assimetria: -0.52
Curtose: -0.79
Mín: 37497.00 | Máx: 140110.00

Análise da coluna: High
Média: 99075.11
Mediana: 104671.00
Moda: 76437.0
Desvio Padrão: 24772.74
Assimetria: -0.53
Curtose: -0.78
Mín: 38031.00 | Máx: 140382.00

Análise da coluna: Low
Média: 97371.79
Mediana: 102844.50
Moda: 124310.0
Desvio Padrão: 24617.62
Assimetria: -0.51
Curtose: -0.80
Mín: 37046.00 | Máx: 138966.00

Análise da coluna: Open
Média: 98204.59
Mediana: 103819.50
Moda: 50556.0
Desvio Padrão: 24706.01
Assimetria: -0.52
Curtose: -0.79
Mín: 37501.00 | Máx: 140109.00

Análise da coluna: Volume
Média: 7817638.22
Mediana: 7858950.00
Moda: 0
Desvio Padrão: 4271613.12
Assimetria: 0.49
Curtose: -0.22
Mín: 0.00 | Máx: 26029300.00


In [18]:
# Cálculo da diferença do preço e da média
df['MM'] = df['Adj Close'].rolling(20).mean()
df['Delta'] = df['Adj Close'] - df['MM']

In [19]:
# Analisar a série Delta
delta_clean = df['Delta'].dropna()

print("="*60)
print("ANÁLISE SÉRIE DELTA")
print("="*60)

# Estatísticas descritivas
print(f"Média: {delta_clean.mean():.4f}")
print(f"Mediana: {delta_clean.median():.4f}")
print(f"Desvio Padrão: {delta_clean.std():.4f}")
print(f"Assimetria (Skewness): {stats.skew(delta_clean):.4f}")
print(f"Curtose (Kurtosis): {stats.kurtosis(delta_clean):.4f}")
 

ANÁLISE SÉRIE DELTA
Média: 408.5660
Mediana: 530.4000
Desvio Padrão: 3426.5558
Assimetria (Skewness): -2.0880
Curtose (Kurtosis): 14.9670


Esses dados estatísticos revelam características importantes da sua distribuição

Tendência Central:

A média (302.27) e mediana (301.93) estão muito próximas, indicando que o centro da distribuição está bem definido em torno de 302.

Dispersão:

O desvio padrão de 3203.48 é extremamente alto em relação à média. Isso significa que há uma variabilidade muito grande nos dados - alguns valores estão muito distantes do centro da distribuição.

Forma da Distribuição:

Assimetria (-2.04): O valor negativo e relativamente alto indica que a distribuição tem uma "cauda" alongada para a esquerda. Isso significa que existem alguns valores muito baixos (outliers inferiores) que "puxam" a distribuição para baixo.
Curtose (16.16): Este valor muito alto indica que a distribuição é "leptocúrtica" - tem picos mais acentuados que uma distribuição normal e caudas mais "pesadas". Isso sugere a presença de muitos outliers ou valores extremos.
Interpretação Geral:
Você tem uma distribuição com centro bem definido, mas com presença significativa de valores extremos, especialmente valores muito baixos. A alta curtose combinada com o alto desvio padrão sugere que a maioria dos dados está concentrada próxima à média, mas existem observações muito distantes que criam essa grande variabilidade.

In [20]:
def calcular_bandas_melhoradas(df, janela=20, percentil=2):
    """
    Calcula bandas usando método baseado na normalidade dos dados
    Usa percentis (robusto para dados não-normais)
    
    Parâmetros:
    - df: Dataframe
    - janela: Tamanho da janela móvel
    - percentil: Percentil referente a quantidade de dados fora das bandas
    
    Retorna:
    - DataFrame com média móvel e bandas
    """
    
    delta = df['Delta']

    # Usando percentis móveis
    media_movel = delta.rolling(window=janela).median()
    banda_sup = delta.rolling(window=janela).quantile(1 - percentil/100)
    banda_inf = delta.rolling(window=janela).quantile(percentil/100)

    return {
        'media_movel': media_movel,
        'banda_superior': banda_sup,
        'banda_inferior': banda_inf
    }

In [21]:
def estrategia_melhorada(df, janela=20, percentil=2, alvo_dias=10):
    """
    Implementa estratégia melhorada baseada na análise de normalidade

    Parâmetros:
    - df: Dataframe
    - janela: Tamanho da janela móvel
    - percentil: Percentil referente a quantidade de dados fora das bandas
    - alvo_dias: Quantidade de dias dentro de uma operação
    
    Retorna:
    - DataFrame com anomalias, regras de entrada e resultado acumulado
    """
    
    # Criar cópia para não modificar original
    df_result = df.copy()
    
    # Calcular bandas
    bandas = calcular_bandas_melhoradas(df_result, janela, percentil)
    
    # Adicionar ao DataFrame
    df_result[f'banda_sup'] = bandas['banda_superior']
    df_result[f'banda_inf'] = bandas['banda_inferior']
    df_result[f'media'] = bandas['media_movel']
    
    # Detectar anomalias
    df_result['anomalia_superior'] = df_result['Delta'] > df_result[f'banda_sup']
    df_result['anomalia_inferior'] = df_result['Delta'] < df_result[f'banda_inf']
    df_result['anomalia_qualquer'] = df_result['anomalia_superior'] | df_result['anomalia_inferior']
    
    # Calcular retornos e alvos
    df_result['Retorno'] = df_result['Close'].pct_change(alvo_dias)
    df_result['Alvo'] = df_result['Retorno'].shift(-alvo_dias)
    
    # Regras de trading
    df_result['Regra'] = np.where((df_result['anomalia_inferior'])&(df['Delta']>-5000), 1, 0)  # Comprar quando muito baixo
    #df_result['Regra'] = np.where(df_result['anomalia_superior'], -1, df_result['Regra'])  # Vender quando muito alto
    
    # Calcular trades e performance
    df_result['Trade'] = df_result['Alvo'] * df_result['Regra']
    df_result['Acumulado'] = df_result['Trade'].cumsum() * 100
    
    # Remover NaN
    df_result = df_result.dropna()
    
    return df_result

In [22]:
def analisar_performance(df):
    """
    Análise detalhada da performance da estratégia

    Parâmetros:
    - df: Dataframe
    
    Procedure que mostra os resultados das operações no console
    """
    
    trades = df[df['Regra'] != 0]['Trade']
    
    if len(trades) == 0:
        print("Nenhum trade executado!")
        return
    
    print("\n" + "="*60)
    print("ANÁLISE DE PERFORMANCE")
    print("="*60)
    
    # Estatísticas gerais
    print(f"Total de trades: {len(trades)}")
    print(f"Trades positivos: {(trades > 0).sum()} ({(trades > 0).mean()*100:.1f}%)")
    print(f"Trades negativos: {(trades < 0).sum()} ({(trades < 0).mean()*100:.1f}%)")
    
    # Performance
    retorno_total = df['Acumulado'].iloc[-1]
    print(f"\nRetorno total: {retorno_total:.2f}%")
    print(f"Retorno médio por trade: {trades.mean()*100:.3f}%")
    print(f"Desvio padrão dos trades: {trades.std()*100:.3f}%")
    
    # Sharpe ratio simplificado
    if trades.std() != 0:
        sharpe = trades.mean() / trades.std()
        print(f"Sharpe ratio: {sharpe:.3f}")
    
    # Drawdown máximo
    df['Running_Max'] = df['Acumulado'].expanding().max()
    df['Drawdown'] = df['Acumulado'] - df['Running_Max']
    max_drawdown = df['Drawdown'].min()
    print(f"Drawdown máximo: {max_drawdown:.2f}%")
    
    # Anomalias detectadas
    anomalias_sup = df['anomalia_superior'].sum()
    anomalias_inf = df['anomalia_inferior'].sum()
    total_anomalias = anomalias_sup + anomalias_inf
    
    print(f"\nAnomalias detectadas:")
    print(f"  Superiores (venda): {anomalias_sup}")
    print(f"  Inferiores (compra): {anomalias_inf}")
    print(f"  Total: {total_anomalias}")
    print(f"  Frequência: {total_anomalias/len(df)*100:.2f}% dos dias")


In [23]:
def plotar_estrategia_comparativa(df):
    """
    Plota gráfico da estratégia

    Parâmetros:
    - df: Dataframe
    
    Procedure que apresenta:
    - Delta com bandas e média móvel
    - Gráfico de preços com os prontos de entrada
    - Gráfico do retorno acumulado
    """
    fig = make_subplots(
        rows=3, cols=1,
        shared_xaxes=True,
        subplot_titles=[
            'Delta com Bandas',
            'Sinais de Trading',
            'Performance Acumulada'
        ],
        row_heights=[0.4, 0.3, 0.3],
        vertical_spacing=0.08
    )
    
    
    # Delta e bandas
    fig.add_trace(
        go.Scatter(x=df.index, y=df['Delta'], name='Delta', line=dict(color='purple')),
        row=1, col=1
    )
    fig.add_trace(
        go.Scatter(x=df.index, y=df[f'banda_sup'], name='Banda Superior', 
                  line=dict(color='red', dash='dash')),
        row=1, col=1
    )
    fig.add_trace(
        go.Scatter(x=df.index, y=df[f'banda_inf'], name='Banda Inferior', 
                  line=dict(color='red', dash='dash')),
        row=1, col=1
    )
    
    # 2. Sinais de trading
    compras = df[df['Regra'] == 1]
    vendas = df[df['Regra'] == -1]
    
    if not compras.empty:
        fig.add_trace(
            go.Scatter(x=compras.index, y=compras['Adj Close'], mode='markers',
                      marker=dict(color='green', size=8, symbol='triangle-up'),
                      name='Compra'),
            row=2, col=1
        )
    
    if not vendas.empty:
        fig.add_trace(
            go.Scatter(x=vendas.index, y=vendas['Adj Close'], mode='markers',
                      marker=dict(color='red', size=8, symbol='triangle-down'),
                      name='Venda'),
            row=2, col=1
        )
    
    fig.add_trace(
        go.Scatter(x=df.index, y=df['Adj Close'], name='Preço (ref)', 
                  line=dict(color='darkblue', width=1)),
        row=2, col=1
    )
    
    # 3. Performance acumulada
    fig.add_trace(
        go.Scatter(x=df.index, y=df['Acumulado'], name='Retorno Acumulado (%)', 
                  line=dict(color='darkgreen', width=2)),
        row=3, col=1
    )
    
    # Layout
    fig.update_layout(
        title='Estratégia de Reversão à Média',
        height=1000,
        showlegend=True
    )
    
    fig.update_xaxes(title_text="Data", row=3, col=1)
    fig.update_yaxes(title_text="Valor", row=1, col=1)
    fig.update_yaxes(title_text="Preço", row=2, col=1)
    fig.update_yaxes(title_text="Retorno %", row=3, col=1)
    
    fig.show()

In [24]:
def executar_analise_completa(df):
    """
    Executa análise completa da estratégia com base na normalidade

    Parâmetros:
    - df: Dataframe
    
    Retorna:
    - DataFrame com análise completa
    """
    
    # Executar estratégia melhorada
    df_resultado = estrategia_melhorada(
        df, 
        janela=10, 
        percentil=5,
        alvo_dias=5
    )
    
    # Analisar performance
    analisar_performance(df_resultado)

    # Plotar resultados
    plotar_estrategia_comparativa(df_resultado)
    

    return df_resultado


df = executar_analise_completa(df)


ANÁLISE DE PERFORMANCE
Total de trades: 368
Trades positivos: 202 (54.9%)
Trades negativos: 166 (45.1%)

Retorno total: 240.18%
Retorno médio por trade: 0.653%
Desvio padrão dos trades: 2.992%
Sharpe ratio: 0.218
Drawdown máximo: -65.42%

Anomalias detectadas:
  Superiores (venda): 420
  Inferiores (compra): 396
  Total: 816
  Frequência: 35.46% dos dias
