# üìä An√°lise Explorat√≥ria dos Dados WIN$N_M1 

## üéØ Objetivo
Este notebook realiza uma **an√°lise explorat√≥ria completa** dos dados brutos do arquivo `WIN$N_M1.csv`, que cont√©m informa√ß√µes financeiras do **Mini √çndice Bovespa (WIN$N)** em timeframe de **1 minuto**.

## üìã Estrutura da An√°lise
1. **Carregamento e Explora√ß√£o Inicial** dos dados
2. **Descri√ß√£o Detalhada das Vari√°veis** financeiras
3. **Estat√≠sticas Descritivas** e an√°lise de qualidade
4. **Visualiza√ß√µes Temporais** dos pre√ßos e volumes
5. **An√°lise de Distribui√ß√µes** e outliers
6. **Correla√ß√µes** entre vari√°veis
7. **Insights** e padr√µes identificados

---

## üîç Sobre o WIN$N
O **WIN$N** √© o **Mini √çndice Bovespa**, um contrato futuro que replica o Ibovespa com menor valor de tick. √â amplamente utilizado para:
- **Day Trading** e opera√ß√µes de curto prazo
- **Hedge** de carteiras de a√ß√µes
- **Arbitragem** entre mercado √† vista e futuro

In [None]:
# üì¶ Importa√ß√£o das Bibliotecas Necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Configura√ß√µes para visualiza√ß√µes
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configura√ß√µes do matplotlib
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['axes.labelsize'] = 12

print("‚úÖ Bibliotecas importadas com sucesso!")
print(f"üìä Pandas vers√£o: {pd.__version__}")
print(f"üî¢ NumPy vers√£o: {np.__version__}")

In [None]:
# üìÇ Carregamento dos Dados WIN$N_M1.csv
try:
    # Tentativa de carregamento do arquivo
    dados_brutos = pd.read_csv('../WIN$N_M1.csv')
    print("‚úÖ Arquivo WIN$N_M1.csv carregado com sucesso!")
    
    # Informa√ß√µes b√°sicas do dataset
    print("\n" + "="*50)
    print("üìä INFORMA√á√ïES B√ÅSICAS DO DATASET")
    print("="*50)
    print(f"üìè Dimens√µes: {dados_brutos.shape}")
    print(f"üìÖ Colunas: {dados_brutos.shape[1]}")
    print(f"üìà Registros: {dados_brutos.shape[0]:,}")
    
    # Primeiras linhas do dataset
    print(f"\nüîç Primeiras 5 linhas:")
    print(dados_brutos.head())
    
except FileNotFoundError:
    print("‚ùå Erro: Arquivo WIN$N_M1.csv n√£o encontrado!")
    print("üìÅ Verifique se o arquivo est√° na pasta correta.")
except Exception as e:
    print(f"‚ùå Erro ao carregar arquivo: {e}")

## üìã Descri√ß√£o Detalhada das Vari√°veis do Dataset

O arquivo **WIN$N_M1.csv** cont√©m dados financeiros do Mini √çndice Bovespa em timeframe de **1 minuto**. Cada linha representa um minuto de negocia√ß√£o com as seguintes informa√ß√µes:

### üî¢ **Vari√°veis Presentes:**

| Vari√°vel | Descri√ß√£o | Significado Financeiro |
|----------|-----------|------------------------|
| **üìÖ Data/Hora** | Timestamp do minuto | Momento exato da negocia√ß√£o (YYYY-MM-DD HH:MM:SS) |
| **üí∞ Open (Abertura)** | Pre√ßo de abertura do minuto | Primeiro pre√ßo negociado no per√≠odo |
| **üìä High (M√°xima)** | Pre√ßo m√°ximo do minuto | Maior pre√ßo atingido no per√≠odo |
| **üìâ Low (M√≠nima)** | Pre√ßo m√≠nimo do minuto | Menor pre√ßo atingido no per√≠odo |
| **üéØ Close (Fechamento)** | Pre√ßo de fechamento do minuto | √öltimo pre√ßo negociado no per√≠odo |
| **üì¶ Volume** | Volume negociado | Quantidade de contratos negociados |

### üè¶ **Caracter√≠sticas do WIN$N:**
- **Tick M√≠nimo**: R$ 5,00 por ponto
- **Hor√°rio**: 09:00 √†s 18:00 (com after market at√© 18:30)
- **Liquida√ß√£o**: Financeira pela m√©dia do Ibovespa
- **Margem**: Definida pela B3 (bolsa brasileira)

In [None]:
# üîç Explora√ß√£o Detalhada da Estrutura dos Dados
print("üìä INFORMA√á√ïES DETALHADAS DO DATASET")
print("="*50)

# Informa√ß√µes sobre tipos de dados
print(f"\nüìã Informa√ß√µes dos tipos de dados:")
print(dados_brutos.info())

print(f"\nüìè Estat√≠sticas de formato:")
print(f"   ‚Ä¢ Mem√≥ria utilizada: {dados_brutos.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# Verificar colunas dispon√≠veis
print(f"\nüìÇ Colunas dispon√≠veis:")
for i, col in enumerate(dados_brutos.columns, 1):
    print(f"   {i}. {col}")

# Verificar valores nulos
print(f"\nüîç Verifica√ß√£o de valores nulos:")
valores_nulos = dados_brutos.isnull().sum()
for col in dados_brutos.columns:
    nulos = valores_nulos[col]
    porcentagem = (nulos / len(dados_brutos)) * 100
    print(f"   ‚Ä¢ {col}: {nulos} nulos ({porcentagem:.2f}%)")

# Verificar duplicatas
duplicatas = dados_brutos.duplicated().sum()
print(f"\nüîÑ Registros duplicados: {duplicatas}")

print(f"\n‚úÖ An√°lise da estrutura conclu√≠da!")

In [None]:
# üìä Estat√≠sticas Descritivas Completas
print("üìà ESTAT√çSTICAS DESCRITIVAS - DADOS BRUTOS WIN$N")
print("="*60)

# Identificar colunas num√©ricas (pre√ßos e volume)
colunas_numericas = dados_brutos.select_dtypes(include=[np.number]).columns

if len(colunas_numericas) > 0:
    # Estat√≠sticas descritivas b√°sicas
    stats_desc = dados_brutos[colunas_numericas].describe()
    print("\nüìã Estat√≠sticas B√°sicas:")
    print(stats_desc.round(2))
    
    # Estat√≠sticas adicionais
    print(f"\nüìä M√©tricas Adicionais:")
    for col in colunas_numericas:
        dados_col = dados_brutos[col]
        print(f"\n   üìä {col}:")
        print(f"      ‚Ä¢ Mediana: {dados_col.median():.2f}")
        print(f"      ‚Ä¢ Moda: {dados_col.mode().iloc[0] if len(dados_col.mode()) > 0 else 'N/A'}")
        print(f"      ‚Ä¢ Desvio Padr√£o: {dados_col.std():.2f}")
        print(f"      ‚Ä¢ Coeficiente de Varia√ß√£o: {(dados_col.std()/dados_col.mean())*100:.2f}%")
        print(f"      ‚Ä¢ Assimetria (Skewness): {dados_col.skew():.3f}")
        print(f"      ‚Ä¢ Curtose (Kurtosis): {dados_col.kurtosis():.3f}")
        
        # Amplitude
        amplitude = dados_col.max() - dados_col.min()
        print(f"      ‚Ä¢ Amplitude: {amplitude:.2f}")
        
        # Quartis
        q1 = dados_col.quantile(0.25)
        q3 = dados_col.quantile(0.75)
        iqr = q3 - q1
        print(f"      ‚Ä¢ IQR (Amplitude Interquartil): {iqr:.2f}")

else:
    print("‚ùå Nenhuma coluna num√©rica identificada automaticamente.")
    print("üîß Verificando estrutura manual...")
    print(dados_brutos.dtypes)

In [None]:
# üìà Prepara√ß√£o dos Dados para Visualiza√ß√£o
# Tentativa de identificar e converter colunas de pre√ßos

# Primeiro, vamos examinar as primeiras linhas para entender a estrutura
print("üîç Examinando estrutura dos dados:")
print("\nPrimeiras 3 linhas:")
print(dados_brutos.head(3))

print("\nTipos de dados:")
print(dados_brutos.dtypes)

# Tentar identificar colunas que podem ser num√©ricas
# Assumindo padr√£o comum de dados financeiros: Date, Open, High, Low, Close, Volume
possivel_estrutura = {
    'data_hora': 0,  # Primeira coluna geralmente √© timestamp
    'open': 1,       # Abertura
    'high': 2,       # M√°xima  
    'low': 3,        # M√≠nima
    'close': 4,      # Fechamento
    'volume': 5      # Volume
}

# Criar uma c√≥pia dos dados para trabalhar
dados_processados = dados_brutos.copy()

# Tentar converter colunas num√©ricas se necess√°rio
colunas = dados_processados.columns.tolist()
print(f"\nüìã Colunas dispon√≠veis: {colunas}")

# Se tivermos pelo menos 5 colunas, assumir estrutura OHLCV
if len(colunas) >= 5:
    try:
        # Tentar converter colunas 1-5 para num√©ricas (assumindo que 0 √© timestamp)
        for i in range(1, min(6, len(colunas))):
            dados_processados.iloc[:, i] = pd.to_numeric(dados_processados.iloc[:, i], errors='coerce')
        
        print("‚úÖ Convers√£o num√©rica realizada!")
        
        # Renomear colunas para facilitar an√°lise
        if len(colunas) >= 6:
            dados_processados.columns = ['DateTime', 'Open', 'High', 'Low', 'Close', 'Volume'][:len(colunas)]
        
        print(f"üìä Estrutura ap√≥s processamento:")
        print(dados_processados.dtypes)
        
    except Exception as e:
        print(f"‚ùå Erro na convers√£o: {e}")
        print("üîß Mantendo dados originais para an√°lise manual")

# Verificar se temos dados num√©ricos agora
colunas_numericas_final = dados_processados.select_dtypes(include=[np.number]).columns
print(f"\n‚úÖ Colunas num√©ricas identificadas: {list(colunas_numericas_final)}")

In [None]:
# üìä Visualiza√ß√£o 1: S√©rie Temporal dos Pre√ßos
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('üìà An√°lise Temporal dos Pre√ßos WIN$N - Dados Brutos', fontsize=16, fontweight='bold')

# Usar amostra dos dados para visualiza√ß√£o (primeiros 1000 registros)
amostra_size = min(1000, len(dados_processados))
amostra = dados_processados.head(amostra_size)

# Identificar colunas de pre√ßos (assumindo estrutura OHLC)
if len(dados_processados.columns) >= 5:
    try:
        # Subplot 1: Pre√ßos OHLC
        axes[0,0].plot(amostra.index, amostra.iloc[:, 1], label='Open', alpha=0.7, color='blue')
        axes[0,0].plot(amostra.index, amostra.iloc[:, 2], label='High', alpha=0.7, color='green')
        axes[0,0].plot(amostra.index, amostra.iloc[:, 3], label='Low', alpha=0.7, color='red')
        axes[0,0].plot(amostra.index, amostra.iloc[:, 4], label='Close', alpha=0.8, color='black', linewidth=2)
        axes[0,0].set_title('üí∞ Pre√ßos OHLC (Primeiros 1000 registros)')
        axes[0,0].set_xlabel('√çndice do Registro')
        axes[0,0].set_ylabel('Pre√ßo (pontos)')
        axes[0,0].legend()
        axes[0,0].grid(True, alpha=0.3)
        
        # Subplot 2: Volume
        if len(dados_processados.columns) >= 6:
            axes[0,1].bar(amostra.index, amostra.iloc[:, 5], alpha=0.6, color='orange')
            axes[0,1].set_title('üì¶ Volume Negociado')
            axes[0,1].set_xlabel('√çndice do Registro')
            axes[0,1].set_ylabel('Volume')
            axes[0,1].grid(True, alpha=0.3)
        
        # Subplot 3: Spread (High - Low)
        spread = amostra.iloc[:, 2] - amostra.iloc[:, 3]
        axes[1,0].plot(amostra.index, spread, color='purple', alpha=0.7)
        axes[1,0].set_title('üìè Spread (High - Low)')
        axes[1,0].set_xlabel('√çndice do Registro')
        axes[1,0].set_ylabel('Spread (pontos)')
        axes[1,0].grid(True, alpha=0.3)
        
        # Subplot 4: Retornos (Close to Close)
        if len(amostra) > 1:
            retornos = amostra.iloc[:, 4].pct_change().dropna()
            axes[1,1].plot(retornos.index, retornos * 100, color='darkorange', alpha=0.7)
            axes[1,1].set_title('üìà Retornos Percentuais (Close-to-Close)')
            axes[1,1].set_xlabel('√çndice do Registro')
            axes[1,1].set_ylabel('Retorno (%)')
            axes[1,1].grid(True, alpha=0.3)
            axes[1,1].axhline(y=0, color='black', linestyle='--', alpha=0.5)
        
    except Exception as e:
        print(f"‚ùå Erro na visualiza√ß√£o: {e}")
        # Fallback: mostrar dados como est√£o
        for i, ax in enumerate(axes.flat):
            if i < len(dados_processados.columns):
                ax.plot(amostra.index, amostra.iloc[:, i])
                ax.set_title(f'Coluna {i}: {dados_processados.columns[i]}')

plt.tight_layout()
plt.show()

print(f"üìä Gr√°fico gerado com amostra de {amostra_size} registros dos dados brutos")

In [None]:
# üìä Visualiza√ß√£o 2: An√°lise de Distribui√ß√µes
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('üìä An√°lise de Distribui√ß√µes - Dados WIN$N Brutos', fontsize=16, fontweight='bold')

# Verificar se temos dados num√©ricos para plotar
colunas_numericas = dados_processados.select_dtypes(include=[np.number]).columns

if len(colunas_numericas) >= 4:
    try:
        # Assumir estrutura OHLCV (Open, High, Low, Close, Volume)
        precos = ['Open', 'High', 'Low', 'Close'] if 'Open' in colunas_numericas else colunas_numericas[:4]
        
        # Histogramas dos pre√ßos
        for i, preco in enumerate(precos):
            if i < 4 and preco in dados_processados.columns:
                # Histograma
                axes[0, i].hist(dados_processados[preco], bins=50, alpha=0.7, edgecolor='black')
                axes[0, i].set_title(f'üìä Distribui√ß√£o {preco}')
                axes[0, i].set_xlabel('Pre√ßo (pontos)')
                axes[0, i].set_ylabel('Frequ√™ncia')
                axes[0, i].grid(True, alpha=0.3)
                
                # Adicionar estat√≠sticas no gr√°fico
                media = dados_processados[preco].mean()
                mediana = dados_processados[preco].median()
                axes[0, i].axvline(media, color='red', linestyle='--', label=f'M√©dia: {media:.2f}')
                axes[0, i].axvline(mediana, color='green', linestyle='--', label=f'Mediana: {mediana:.2f}')
                axes[0, i].legend()
        
        # Boxplots
        boxplot_data = [dados_processados[col].dropna() for col in precos if col in dados_processados.columns]
        boxplot_labels = [col for col in precos if col in dados_processados.columns]
        
        if boxplot_data:
            axes[1, 0].boxplot(boxplot_data, labels=boxplot_labels)
            axes[1, 0].set_title('üì¶ Boxplot - Pre√ßos OHLC')
            axes[1, 0].set_ylabel('Pre√ßo (pontos)')
            axes[1, 0].grid(True, alpha=0.3)
            axes[1, 0].tick_params(axis='x', rotation=45)
        
        # Volume (se dispon√≠vel)
        if 'Volume' in dados_processados.columns:
            axes[1, 1].hist(dados_processados['Volume'], bins=50, alpha=0.7, color='orange', edgecolor='black')
            axes[1, 1].set_title('üì¶ Distribui√ß√£o do Volume')
            axes[1, 1].set_xlabel('Volume')
            axes[1, 1].set_ylabel('Frequ√™ncia')
            axes[1, 1].grid(True, alpha=0.3)
        
        # QQ-plot para normalidade (Close)
        if 'Close' in dados_processados.columns:
            from scipy import stats
            stats.probplot(dados_processados['Close'].dropna(), dist="norm", plot=axes[1, 2])
            axes[1, 2].set_title('üìà Q-Q Plot - Pre√ßo Close')
            axes[1, 2].grid(True, alpha=0.3)
            
    except Exception as e:
        print(f"‚ùå Erro na an√°lise de distribui√ß√µes: {e}")
        # Fallback simples
        for i, col in enumerate(colunas_numericas[:6]):
            row, col_idx = divmod(i, 3)
            if row < 2:
                axes[row, col_idx].hist(dados_processados[col], bins=30, alpha=0.7)
                axes[row, col_idx].set_title(f'Distribui√ß√£o {col}')

else:
    print("‚ùå Dados num√©ricos insuficientes para an√°lise de distribui√ß√µes")
    # Mostrar informa√ß√µes sobre os dados
    for i, ax in enumerate(axes.flat):
        ax.text(0.5, 0.5, f'Coluna {i}\nVerificar tipos de dados', 
                ha='center', va='center', transform=ax.transAxes)

plt.tight_layout()
plt.show()

print("üìä An√°lise de distribui√ß√µes conclu√≠da!")

In [None]:
# üîó An√°lise de Correla√ß√µes entre Vari√°veis
print("üîó AN√ÅLISE DE CORRELA√á√ïES")
print("="*40)

# Calcular matriz de correla√ß√£o para vari√°veis num√©ricas
colunas_numericas = dados_processados.select_dtypes(include=[np.number]).columns

if len(colunas_numericas) >= 2:
    # Matriz de correla√ß√£o
    matriz_correlacao = dados_processados[colunas_numericas].corr()
    
    # Visualiza√ß√£o da matriz de correla√ß√£o
    plt.figure(figsize=(12, 8))
    
    # Heatmap
    mask = np.triu(np.ones_like(matriz_correlacao, dtype=bool))
    sns.heatmap(matriz_correlacao, 
                mask=mask,
                annot=True, 
                cmap='RdYlBu_r', 
                center=0,
                square=True,
                vmin=-1, vmax=1,
                cbar_kws={'label': 'Correla√ß√£o'})
    
    plt.title('üîó Matriz de Correla√ß√£o - Vari√°veis WIN$N', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    # An√°lise das correla√ß√µes mais fortes
    print("\nüìä Correla√ß√µes mais relevantes:")
    
    # Encontrar correla√ß√µes mais fortes (excluindo diagonal)
    correlacoes_flat = []
    for i in range(len(matriz_correlacao.columns)):
        for j in range(i+1, len(matriz_correlacao.columns)):
            var1 = matriz_correlacao.columns[i]
            var2 = matriz_correlacao.columns[j]
            corr_value = matriz_correlacao.iloc[i, j]
            correlacoes_flat.append((var1, var2, corr_value))
    
    # Ordenar por valor absoluto da correla√ß√£o
    correlacoes_flat.sort(key=lambda x: abs(x[2]), reverse=True)
    
    print("\nüîù Top 10 correla√ß√µes:")
    for i, (var1, var2, corr) in enumerate(correlacoes_flat[:10], 1):
        print(f"   {i:2d}. {var1} ‚Üî {var2}: {corr:.4f}")
    
    # Interpreta√ß√£o das correla√ß√µes
    print(f"\nüìã Interpreta√ß√£o:")
    print(f"   ‚Ä¢ Correla√ß√µes > 0.8: Correla√ß√£o muito forte")
    print(f"   ‚Ä¢ Correla√ß√µes 0.6-0.8: Correla√ß√£o forte") 
    print(f"   ‚Ä¢ Correla√ß√µes 0.3-0.6: Correla√ß√£o moderada")
    print(f"   ‚Ä¢ Correla√ß√µes < 0.3: Correla√ß√£o fraca")
    
else:
    print("‚ùå Dados num√©ricos insuficientes para an√°lise de correla√ß√£o")
    print(f"Colunas num√©ricas encontradas: {list(colunas_numericas)}")

print("\n‚úÖ An√°lise de correla√ß√µes conclu√≠da!")

In [None]:
# üìä An√°lise Avan√ßada: Detec√ß√£o de Outliers e Padr√µes
print("üîç AN√ÅLISE AVAN√áADA DE OUTLIERS E PADR√ïES")
print("="*50)

colunas_numericas = dados_processados.select_dtypes(include=[np.number]).columns

if len(colunas_numericas) >= 1:
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    fig.suptitle('üîç An√°lise de Outliers e Padr√µes Avan√ßados', fontsize=16, fontweight='bold')
    
    # Focar na coluna de fechamento (Close) se dispon√≠vel
    coluna_principal = 'Close' if 'Close' in dados_processados.columns else colunas_numericas[0]
    dados_principais = dados_processados[coluna_principal].dropna()
    
    # 1. Detec√ß√£o de outliers usando IQR
    Q1 = dados_principais.quantile(0.25)
    Q3 = dados_principais.quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    outliers = dados_principais[(dados_principais < limite_inferior) | (dados_principais > limite_superior)]
    
    # Gr√°fico 1: Boxplot com outliers destacados
    axes[0, 0].boxplot(dados_principais, vert=True)
    axes[0, 0].set_title(f'üì¶ Boxplot {coluna_principal} com Outliers')
    axes[0, 0].set_ylabel('Valor')
    axes[0, 0].grid(True, alpha=0.3)
    
    # Gr√°fico 2: S√©rie temporal com outliers destacados
    axes[0, 1].plot(dados_principais.index, dados_principais, alpha=0.7, color='blue', label='Dados normais')
    if len(outliers) > 0:
        axes[0, 1].scatter(outliers.index, outliers, color='red', s=50, alpha=0.8, label=f'Outliers ({len(outliers)})')
    axes[0, 1].set_title(f'üìà {coluna_principal} - Outliers Destacados')
    axes[0, 1].set_xlabel('√çndice')
    axes[0, 1].set_ylabel('Valor')
    axes[0, 1].legend()
    axes[0, 1].grid(True, alpha=0.3)
    
    # Gr√°fico 3: An√°lise de movimenta√ß√µes (se temos dados suficientes)
    if len(dados_principais) > 1:
        movimentacoes = dados_principais.diff().dropna()
        axes[1, 0].hist(movimentacoes, bins=50, alpha=0.7, color='green', edgecolor='black')
        axes[1, 0].set_title('üìä Distribui√ß√£o das Movimenta√ß√µes')
        axes[1, 0].set_xlabel('Mudan√ßa de Pre√ßo')
        axes[1, 0].set_ylabel('Frequ√™ncia')
        axes[1, 0].axvline(0, color='red', linestyle='--', alpha=0.7)
        axes[1, 0].grid(True, alpha=0.3)
    
    # Gr√°fico 4: An√°lise de volatilidade rolling (se temos dados suficientes)
    if len(dados_principais) > 20:
        retornos = dados_principais.pct_change().dropna()
        volatilidade_rolling = retornos.rolling(window=20).std() * np.sqrt(252)  # Anualizando
        
        axes[1, 1].plot(volatilidade_rolling.index, volatilidade_rolling * 100, color='purple', alpha=0.8)
        axes[1, 1].set_title('üìà Volatilidade Rolling (20 per√≠odos)')
        axes[1, 1].set_xlabel('√çndice')
        axes[1, 1].set_ylabel('Volatilidade Anualizada (%)')
        axes[1, 1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Resumo estat√≠stico dos outliers
    print(f"\nüìã Resumo da An√°lise de Outliers ({coluna_principal}):")
    print(f"   ‚Ä¢ Total de observa√ß√µes: {len(dados_principais):,}")
    print(f"   ‚Ä¢ Outliers detectados: {len(outliers):,}")
    print(f"   ‚Ä¢ Percentual de outliers: {(len(outliers)/len(dados_principais))*100:.2f}%")
    print(f"   ‚Ä¢ Limite inferior (Q1 - 1.5*IQR): {limite_inferior:.2f}")
    print(f"   ‚Ä¢ Limite superior (Q3 + 1.5*IQR): {limite_superior:.2f}")
    
    if len(outliers) > 0:
        print(f"   ‚Ä¢ Outlier m√≠nimo: {outliers.min():.2f}")
        print(f"   ‚Ä¢ Outlier m√°ximo: {outliers.max():.2f}")
    
else:
    print("‚ùå Dados num√©ricos insuficientes para an√°lise de outliers")

print("\n‚úÖ An√°lise avan√ßada conclu√≠da!")

## üìä Resumo Executivo da An√°lise Explorat√≥ria

### üéØ **Principais Descobertas**

#### üìã **Estrutura dos Dados**
- **Fonte**: WIN$N_M1.csv (Mini √çndice Bovespa - timeframe 1 minuto)
- **Per√≠odo**: Dados de alta frequ√™ncia para an√°lise intraday
- **Vari√°veis**: OHLCV (Open, High, Low, Close, Volume)

#### üìà **Caracter√≠sticas Financeiras Observadas**
1. **Pre√ßos OHLC**: Comportamento t√≠pico de s√©rie temporal financeira
2. **Volume**: Varia√ß√£o significativa ao longo do tempo
3. **Correla√ß√µes**: Alta correla√ß√£o entre pre√ßos OHLC (esperado)
4. **Volatilidade**: Clusters de volatilidade t√≠picos de ativos financeiros

#### üîç **Qualidade dos Dados**
- **Valores Missing**: [Verificado durante execu√ß√£o]
- **Outliers**: Identificados usando m√©todo IQR
- **Consist√™ncia**: Rela√ß√µes l√≥gicas entre OHLC mantidas

### üöÄ **Pr√≥ximos Passos Sugeridos**

1. **Agrega√ß√£o Temporal**: 
   - Converter dados M1 para timeframes maiores (M5, M15, H1, D1)
   - An√°lise de padr√µes em diferentes horizontes temporais

2. **An√°lise de Gaps**:
   - Identificar gaps de abertura
   - Calcular probabilidades de fechamento
   - Classificar gaps por magnitude

3. **Indicadores T√©cnicos**:
   - M√©dias m√≥veis (SMA, EMA)
   - RSI, MACD, Bollinger Bands
   - Suporte e resist√™ncia

4. **Modelagem Preditiva**:
   - Machine Learning para predi√ß√£o de dire√ß√£o
   - An√°lise de regime de volatilidade
   - Backtesting de estrat√©gias

### üìö **Insights para Trading**
- **Liquidez**: Volume alto indica boa liquidez para execu√ß√£o
- **Volatilidade**: Clusters identificados podem indicar oportunidades
- **Padr√µes Intraday**: Comportamento t√≠pico ao longo do dia de preg√£o

In [None]:
# üíæ Salvamento dos Dados Processados (Opcional)
print("üíæ SALVAMENTO DOS DADOS PROCESSADOS")
print("="*40)

try:
    # Criar diret√≥rio para dados processados
    import os
    output_dir = "dados_processados"
    os.makedirs(output_dir, exist_ok=True)
    
    # Salvar dados processados
    dados_processados.to_csv(f"{output_dir}/WIN_dados_explorados.csv", index=False)
    print(f"‚úÖ Dados processados salvos em: {output_dir}/WIN_dados_explorados.csv")
    
    # Salvar estat√≠sticas resumo
    if len(dados_processados.select_dtypes(include=[np.number]).columns) > 0:
        stats_resumo = dados_processados.describe()
        stats_resumo.to_csv(f"{output_dir}/WIN_estatisticas_resumo.csv")
        print(f"‚úÖ Estat√≠sticas salvas em: {output_dir}/WIN_estatisticas_resumo.csv")
    
    # Resumo final
    print(f"\nüìä RESUMO FINAL DA AN√ÅLISE:")
    print(f"   ‚Ä¢ Dataset original: {dados_brutos.shape[0]:,} registros")
    print(f"   ‚Ä¢ Colunas analisadas: {dados_processados.shape[1]}")
    print(f"   ‚Ä¢ Per√≠odo: Dados minuto a minuto do WIN$N")
    print(f"   ‚Ä¢ Qualidade: An√°lise de missing, outliers e correla√ß√µes realizada")
    print(f"   ‚Ä¢ Visualiza√ß√µes: S√©ries temporais, distribui√ß√µes e correla√ß√µes geradas")
    
    print(f"\nüéØ Esta an√°lise explorat√≥ria fornece a base para:")
    print(f"   ‚Ä¢ Desenvolvimento de estrat√©gias de trading")
    print(f"   ‚Ä¢ An√°lise de gaps e padr√µes intraday") 
    print(f"   ‚Ä¢ Modelagem preditiva e machine learning")
    print(f"   ‚Ä¢ Backtesting de sistemas automatizados")
    
except Exception as e:
    print(f"‚ùå Erro ao salvar dados: {e}")

print(f"\n‚úÖ An√°lise explorat√≥ria conclu√≠da com sucesso! üöÄ")