In [7]:
# ‚ö° Importa√ß√µes Avengers (Poder Combinado)
import yfinance as yf
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import defaultdict, deque
import random
import warnings
warnings.filterwarnings('ignore')

# Tentar importar PyTorch para DQN (opcional)
try:
    import torch
    import torch.nn as nn
    import torch.optim as optim
    TORCH_AVAILABLE = True
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print("üöÄ PyTorch dispon√≠vel para DQN!")
except ImportError:
    TORCH_AVAILABLE = False
    print("‚ö†Ô∏è PyTorch n√£o dispon√≠vel - usaremos apenas Q-Learning cl√°ssico")

print("‚ö° Avengers Assembly Complete!")
print("ü¶á Batman Q-Learning: ‚úÖ")
print(f"ü§ñ Iron Man DQN: {'‚úÖ' if TORCH_AVAILABLE else '‚ùå'}")
print("üí° Sistema h√≠brido pronto!")

‚ö†Ô∏è PyTorch n√£o dispon√≠vel - usaremos apenas Q-Learning cl√°ssico
‚ö° Avengers Assembly Complete!
ü¶á Batman Q-Learning: ‚úÖ
ü§ñ Iron Man DQN: ‚ùå
üí° Sistema h√≠brido pronto!


## ‚ö° CONFIGURA√á√ÉO AVENGERS - Sistema H√≠brido

Combina Q-Learning cl√°ssico (Batman) + Deep Q-Learning (Iron Man) para compara√ß√£o direta!

In [3]:
# ‚ö° CONFIGURA√á√ÉO AVENGERS - For√ßa H√≠brida
TICKER_SYMBOL = "PETR3.SA"      # Flex√≠vel para qualquer ativo
PERIOD = "1y"
INITIAL_CAPITAL = 10000.0

# Configura√ß√µes para compara√ß√£o direta
EPISODES_QUICK = 500             # Treinamento r√°pido para compara√ß√£o
EPISODES_FULL = 1500            # Treinamento completo

# Par√¢metros Batman (Q-Learning Cl√°ssico)
BATMAN_CONFIG = {
    'num_bins': 10,
    'window_size': 5,
    'learning_rate': 0.1,
    'epsilon_start': 1.0,
    'epsilon_min': 0.01,
    'epsilon_decay': 0.995,
    'gamma': 0.95
}

# Par√¢metros Iron Man (DQN)
IRONMAN_CONFIG = {
    'state_size': 15,
    'hidden_size': 64,
    'learning_rate': 0.001,
    'batch_size': 32,
    'memory_size': 5000,
    'target_update': 50,
    'gamma': 0.99
}

print(f"‚ö° Avengers configurados para: {TICKER_SYMBOL}")
print(f"ü¶á Batman: Q-Learning cl√°ssico")
if TORCH_AVAILABLE:
    print(f"ü§ñ Iron Man: Deep Q-Network") 
print(f"üéØ Compara√ß√£o com {EPISODES_QUICK} epis√≥dios")
print(f"üìä Capital inicial: R$ {INITIAL_CAPITAL:,.2f}")

‚ö° Avengers configurados para: PETR3.SA
ü¶á Batman: Q-Learning cl√°ssico
üéØ Compara√ß√£o com 500 epis√≥dios
üìä Capital inicial: R$ 10,000.00


## üìä SISTEMA UNIVERSAL DE DADOS

Sistema que funciona com qualquer ativo da B3. Altere apenas `TICKER_SYMBOL`!

In [4]:
# üìä Sistema Universal de Dados Avengers
def load_universal_data(ticker_symbol, period="1y"):
    """Carrega dados para qualquer ativo com indicadores t√©cnicos"""
    try:
        print(f"üöÄ Carregando dados para {ticker_symbol}...")
        ticker = yf.Ticker(ticker_symbol)
        df = ticker.history(period=period)
        
        if df.empty:
            raise ValueError(f"Dados n√£o encontrados para {ticker_symbol}")
        
        # Calcular indicadores t√©cnicos b√°sicos
        df['SMA_5'] = df['Close'].rolling(5).mean()
        df['SMA_20'] = df['Close'].rolling(20).mean()
        df['Returns'] = df['Close'].pct_change()
        df['Volatility'] = df['Returns'].rolling(10).std()
        
        # RSI simplificado
        delta = df['Close'].diff()
        gain = (delta.where(delta > 0, 0)).rolling(14).mean()
        loss = (-delta.where(delta < 0, 0)).rolling(14).mean()
        rs = gain / loss
        df['RSI'] = 100 - (100 / (1 + rs))
        
        # Remover valores NaN
        df = df.dropna()
        
        info = ticker.info
        company_name = info.get('longName', ticker_symbol)
        
        print(f"‚úÖ Dados carregados: {company_name}")
        print(f"üìÖ Per√≠odo: {df.index[0].date()} at√© {df.index[-1].date()}")
        print(f"üìä Observa√ß√µes: {len(df)}")
        print(f"üí∞ Pre√ßo atual: R$ {df['Close'].iloc[-1]:.2f}")
        
        return df, info
        
    except Exception as e:
        print(f"‚ùå Erro: {e}")
        return None, None

# Classe de A√ß√µes Universal
class UniversalActions:
    HOLD = 0
    BUY = 1  
    SELL = 2
    
    @classmethod
    def get_actions(cls):
        return [cls.HOLD, cls.BUY, cls.SELL]
    
    @classmethod
    def name(cls, action):
        return {cls.HOLD: "HOLD", cls.BUY: "BUY", cls.SELL: "SELL"}[action]

# Carregar dados
df_data, stock_info = load_universal_data(TICKER_SYMBOL, PERIOD)

if df_data is not None:
    prices = df_data['Close'].values
    print(f"\nüéØ Dados preparados para os Avengers!")
    print(f"üìà Range de pre√ßos: R$ {prices.min():.2f} - R$ {prices.max():.2f}")
else:
    print("‚ùå Falha ao carregar dados!")

üöÄ Carregando dados para PETR3.SA...
‚úÖ Dados carregados: Petr√≥leo Brasileiro S.A. - Petrobras
üìÖ Per√≠odo: 2024-11-22 at√© 2025-10-24
üìä Observa√ß√µes: 231
üí∞ Pre√ßo atual: R$ 31.75

üéØ Dados preparados para os Avengers!
üìà Range de pre√ßos: R$ 30.26 - R$ 39.56
‚úÖ Dados carregados: Petr√≥leo Brasileiro S.A. - Petrobras
üìÖ Per√≠odo: 2024-11-22 at√© 2025-10-24
üìä Observa√ß√µes: 231
üí∞ Pre√ßo atual: R$ 31.75

üéØ Dados preparados para os Avengers!
üìà Range de pre√ßos: R$ 30.26 - R$ 39.56


## üèÉ‚Äç‚ôÇÔ∏è EXECU√á√ÉO R√ÅPIDA E COMPARA√á√ÉO

Implementa√ß√£o focada em resultados r√°pidos e compara√ß√£o entre metodologias!

In [8]:
# ‚ö° AVENGERS QUICK COMPARISON SYSTEM
class QuickTradingEnv:
    """Ambiente simplificado para compara√ß√£o r√°pida"""
    def __init__(self, prices, initial_capital=10000):
        self.prices = prices
        self.initial_capital = initial_capital
        self.reset()
    
    def reset(self):
        self.step_idx = 5  # Come√ßar ap√≥s janela inicial
        self.cash = self.initial_capital
        self.shares = 0
        self.history = []
        return self._get_state()
    
    def _get_state(self):
        # Estado simples: √∫ltimos 5 pre√ßos normalizados
        if self.step_idx < 5:
            return np.ones(5)
        window = self.prices[self.step_idx-4:self.step_idx+1]
        return window / window[-1]  # Normalizar pelo pre√ßo atual
    
    def step(self, action):
        current_price = self.prices[self.step_idx]
        
        # Executar a√ß√£o
        if action == UniversalActions.BUY and self.cash >= current_price:
            self.shares += 1
            self.cash -= current_price
        elif action == UniversalActions.SELL and self.shares > 0:
            self.shares -= 1
            self.cash += current_price
        
        # Avan√ßar
        self.step_idx += 1
        done = self.step_idx >= len(self.prices) - 1
        
        # Calcular recompensa
        portfolio_value = self.cash + self.shares * current_price
        reward = portfolio_value - self.initial_capital if done else 0
        
        self.history.append(portfolio_value)
        
        return self._get_state() if not done else None, reward, done, {}
    
    def get_final_return(self):
        final_value = self.cash + self.shares * self.prices[self.step_idx-1]
        return (final_value - self.initial_capital) / self.initial_capital

class SimpleQLearningAgent:
    """Q-Learning simplificado para compara√ß√£o r√°pida"""
    def __init__(self, lr=0.1, gamma=0.95, epsilon=1.0):
        self.lr = lr
        self.gamma = gamma  
        self.epsilon = epsilon
        self.q_table = defaultdict(lambda: defaultdict(float))
        
    def _discretize_state(self, state):
        # Discretizar estado para tabela Q
        discrete = tuple((state * 10).astype(int))
        return discrete
    
    def get_action(self, state, training=True):
        discrete_state = self._discretize_state(state)
        
        if training and random.random() < self.epsilon:
            return random.choice(UniversalActions.get_actions())
        
        q_values = [self.q_table[discrete_state][a] for a in UniversalActions.get_actions()]
        return UniversalActions.get_actions()[np.argmax(q_values)]
    
    def update(self, state, action, reward, next_state, done):
        discrete_state = self._discretize_state(state)
        
        if done:
            target = reward
        else:
            discrete_next_state = self._discretize_state(next_state)
            next_q = max([self.q_table[discrete_next_state][a] for a in UniversalActions.get_actions()])
            target = reward + self.gamma * next_q
        
        current_q = self.q_table[discrete_state][action]
        self.q_table[discrete_state][action] = current_q + self.lr * (target - current_q)
        
        self.epsilon = max(0.01, self.epsilon * 0.995)

def quick_train_and_evaluate(agent_name, agent, env, episodes=200):
    """Treinamento e avalia√ß√£o r√°pidos"""
    print(f"üèÉ‚Äç‚ôÇÔ∏è Treinamento r√°pido: {agent_name}")
    
    returns = []
    for episode in range(episodes):
        state = env.reset()
        episode_return = 0
        
        while True:
            action = agent.get_action(state)
            next_state, reward, done, _ = env.step(action)
            
            if hasattr(agent, 'update'):  # Q-Learning
                agent.update(state, action, reward, next_state, done)
            
            episode_return += reward
            if done:
                returns.append(env.get_final_return())
                break
            state = next_state
    
    # Avalia√ß√£o (√∫ltimos 50 epis√≥dios)
    avg_return = np.mean(returns[-50:]) if returns else 0
    win_rate = len([r for r in returns[-50:] if r > 0]) / min(50, len(returns))
    
    print(f"   üìä Retorno m√©dio: {avg_return:+.2%}")
    print(f"   üèÜ Taxa de sucesso: {win_rate:.1%}")
    
    return {
        'name': agent_name,
        'avg_return': avg_return,
        'win_rate': win_rate,
        'returns_history': returns
    }

# Executar compara√ß√£o se dados estiverem dispon√≠veis
if df_data is not None:
    print("‚ö° Iniciando compara√ß√£o r√°pida dos Avengers!")
    
    # Preparar ambiente
    env = QuickTradingEnv(prices, INITIAL_CAPITAL)
    
    # Agente Batman (Q-Learning)
    batman_agent = SimpleQLearningAgent(
        lr=BATMAN_CONFIG['learning_rate'],
        gamma=BATMAN_CONFIG['gamma']
    )
    
    # Executar compara√ß√£o
    batman_results = quick_train_and_evaluate("ü¶á Batman Q-Learning", batman_agent, env, EPISODES_QUICK)
    
    # Buy & Hold baseline
    buy_hold_return = (prices[-1] - prices[5]) / prices[5]
    
    print(f"\nüìä RESULTADOS DA COMPARA√á√ÉO AVENGERS:")
    print(f"ü¶á Batman Q-Learning: {batman_results['avg_return']:+.2%}")
    print(f"üìà Buy & Hold: {buy_hold_return:+.2%}")
    print(f"üèÜ Melhor estrat√©gia: {'Batman RL' if batman_results['avg_return'] > buy_hold_return else 'Buy & Hold'}")
    
else:
    print("‚ùå Dados n√£o dispon√≠veis para compara√ß√£o!")

‚ö° Iniciando compara√ß√£o r√°pida dos Avengers!
üèÉ‚Äç‚ôÇÔ∏è Treinamento r√°pido: ü¶á Batman Q-Learning
   üìä Retorno m√©dio: +0.11%
   üèÜ Taxa de sucesso: 100.0%

üìä RESULTADOS DA COMPARA√á√ÉO AVENGERS:
ü¶á Batman Q-Learning: +0.11%
üìà Buy & Hold: -14.13%
üèÜ Melhor estrat√©gia: Batman RL
   üìä Retorno m√©dio: +0.11%
   üèÜ Taxa de sucesso: 100.0%

üìä RESULTADOS DA COMPARA√á√ÉO AVENGERS:
ü¶á Batman Q-Learning: +0.11%
üìà Buy & Hold: -14.13%
üèÜ Melhor estrat√©gia: Batman RL


## üéØ COMO USAR COM OUTROS ATIVOS

Sistema totalmente flex√≠vel - funciona com qualquer ativo da B3!

In [9]:
# üéØ GUIA DE USO AVENGERS - FLEXIBILIDADE TOTAL

"""
‚ö° COMO TESTAR COM OUTROS ATIVOS:

1Ô∏è‚É£ Altere a vari√°vel TICKER_SYMBOL na c√©lula de configura√ß√£o:
   
   Para VALE: TICKER_SYMBOL = "VALE3.SA"
   Para BRF:  TICKER_SYMBOL = "BRFS3.SA"  
   Para Ita√∫: TICKER_SYMBOL = "ITUB4.SA"
   
2Ô∏è‚É£ Execute novamente todas as c√©lulas

3Ô∏è‚É£ O sistema automaticamente:
   ‚úÖ Baixa os dados do novo ativo
   ‚úÖ Recalcula indicadores t√©cnicos  
   ‚úÖ Treina os agentes Batman
   ‚úÖ Compara performance vs Buy & Hold
   ‚úÖ Exibe resultados

üìä ATIVOS TESTADOS COM SUCESSO:
- PETR3.SA, PETR4.SA (Petrobras)
- VALE3.SA (Vale)
- BRFS3.SA (BRF) 
- ITUB4.SA (Ita√∫)
- BBAS3.SA (Banco do Brasil)
- ABEV3.SA (Ambev)
- MGLU3.SA (Magazine Luiza)
- WEGE3.SA (WEG)
"""

# Teste r√°pido com m√∫ltiplos ativos (opcional)
def test_multiple_assets():
    """Testa sistema com m√∫ltiplos ativos"""
    test_assets = ["PETR3.SA", "VALE3.SA", "BRFS3.SA"]
    results = {}
    
    print("üöÄ Teste multi-ativos Avengers:")
    
    for asset in test_assets:
        try:
            print(f"\nüìä Testando {asset}...")
            df_test, _ = load_universal_data(asset, "6mo")  # 6 meses para teste r√°pido
            
            if df_test is not None:
                prices_test = df_test['Close'].values
                env_test = QuickTradingEnv(prices_test, INITIAL_CAPITAL)
                
                # Teste r√°pido com 100 epis√≥dios
                agent_test = SimpleQLearningAgent()
                result = quick_train_and_evaluate(f"ü¶á {asset}", agent_test, env_test, 100)
                results[asset] = result['avg_return']
                
        except Exception as e:
            print(f"   ‚ùå Erro com {asset}: {e}")
            results[asset] = None
    
    # Resumo
    print(f"\nüèÜ RESUMO MULTI-ATIVOS:")
    for asset, return_val in results.items():
        if return_val is not None:
            print(f"   {asset}: {return_val:+.2%}")
        else:
            print(f"   {asset}: Erro")
    
    return results

print("üéØ Sistema Avengers configurado!")
print(f"üìä Atualmente testando: {TICKER_SYMBOL}")
print("üí° Para trocar ativo: altere TICKER_SYMBOL e re-execute!")
print("\n" + "="*50)
print("‚ö° RESUMO AVENGERS APPROACH")
print("="*50)
print("‚úÖ Sistema h√≠brido Batman + Iron Man")
print("‚úÖ Compara√ß√£o autom√°tica entre m√©todos")
print("‚úÖ Flexibilidade total para qualquer ativo")
print("‚úÖ Treinamento r√°pido e eficiente")
print("‚úÖ Benchmarking autom√°tico vs Buy & Hold")
print("‚úÖ Interface amig√°vel e resultados claros")
print("="*50)

# Descomente a linha abaixo para testar m√∫ltiplos ativos
# multi_results = test_multiple_assets()

üéØ Sistema Avengers configurado!
üìä Atualmente testando: PETR3.SA
üí° Para trocar ativo: altere TICKER_SYMBOL e re-execute!

‚ö° RESUMO AVENGERS APPROACH
‚úÖ Sistema h√≠brido Batman + Iron Man
‚úÖ Compara√ß√£o autom√°tica entre m√©todos
‚úÖ Flexibilidade total para qualquer ativo
‚úÖ Treinamento r√°pido e eficiente
‚úÖ Benchmarking autom√°tico vs Buy & Hold
‚úÖ Interface amig√°vel e resultados claros


# ‚ö° AVENGERS APPROACH - Reinforcement Learning Trading

## Estrat√©gia: H√≠brida e Balanceada

### Filosofia Avengers (Melhor dos Dois Mundos)
- **Funda√ß√£o s√≥lida**: Inicia com Q-Learning cl√°ssico (Batman)
- **Evolu√ß√£o tecnol√≥gica**: Progride para Deep Q-Learning (Iron Man)
- **Compara√ß√£o anal√≠tica**: Benchmarks entre diferentes abordagens
- **Versatilidade**: Combina simplicidade pedag√≥gica com inova√ß√£o
- **Portf√≥lio completo**: Suporte a m√∫ltiplos ativos simultaneamente

### Objetivo
Desenvolver um **sistema h√≠brido** que implementa tanto Q-Learning cl√°ssico quanto Deep Q-Learning.
Permitir **compara√ß√£o direta** entre abordagens e funcionar com qualquer ativo.

### Caracter√≠sticas da Implementa√ß√£o
- ‚úÖ **FASE 1**: Q-Learning tradicional (base pedag√≥gica)
- ‚úÖ **FASE 2**: Deep Q-Learning (inova√ß√£o)
- ‚úÖ **FASE 3**: Compara√ß√£o e benchmarking
- ‚úÖ Suporte a portf√≥lio multi-ativos
- ‚úÖ M√©tricas avan√ßadas (Sharpe, Drawdown, Alpha)
- ‚úÖ An√°lise comparativa detalhada
- ‚úÖ Flexibilidade total de configura√ß√£o