## Inicialização do ambiente e agente

In [None]:
# 1. Inicialização
# Inicializar o ambiente de treinamento com operações de compra e venda, curva de DI e rentabilidade desejada.
ambiente_treinamento = InicializarAmbiente()

# 2. Inicialização do Agente
# Inicializar a política inicial do agente (pode ser aleatória ou baseada em heurística).
agente = InicializarAgente()

## Treinamento agente


In [None]:
# 3. Treinamento do Agente
for episodio in range(numero_de_episodios):
    # 3.1 Preparação Inicial
    estado = ambiente_treinamento.reset()

    # 3.2 Iteração com o Ambiente
    while not convergiu:
        # 3.2.1 Processamento de cada venda
        venda_atual = ambiente_treinamento.obter_proxima_venda()

        # 3.2.2 Preparação dos Inputs
        dados_inputs = preparar_inputs(estado, venda_atual)

        # 3.2.3 Inferência pela Rede Neural
        acoes_preditas = agente.inferir(dados_inputs)

        # 3.2.4 Atualização das Quantidades de Compra
        estado = atualizar_quantidades_compra(estado, venda_atual, acoes_preditas)

    # 3.3 Atualização da Política do Agente
    agente.atualizar_politica(recompensa_episodio, recompensa_cumulativa)


## Teste do agente

In [None]:
# 4. Teste do Agente
# Testar o agente em um ambiente ainda não visto para avaliar a generalização.
ambiente_teste = InicializarAmbienteTeste()
estado_teste = ambiente_teste.reset()

while not convergiu_teste:
    venda_teste = ambiente_teste.obter_proxima_venda()
    dados_inputs_teste = preparar_inputs(estado_teste, venda_teste)
    acoes_preditas_teste = agente.inferir(dados_inputs_teste)
    estado_teste = atualizar_quantidades_compra(estado_teste, venda_teste, acoes_preditas_teste)

# Funções Auxiliares
def preparar_inputs(estado, venda):
    # Extrair informações relevantes do estado e da venda
    compras_disponiveis = estado['compras_disponiveis']
    data_venda, ativo_venda, corretora_venda, cliente_venda = venda['data'], venda['ativo'], venda['corretora'], venda['cliente']

    # Filtrar compras disponíveis que correspondem à venda específica
    compras_correspondentes = [
        compra for compra in compras_disponiveis
        if compra['data'] == data_venda and compra['ativo'] == ativo_venda and compra['corretora'] == corretora_venda and compra['cliente'] == cliente_venda
    ]

    # Criar inputs para a rede neural com base nas compras correspondentes
    inputs = {
        'dados_compras': extrair_dados_compras(compras_correspondentes),
        'dados_venda': extrair_dados_venda(venda),
        'curva_di': estado['curva_di'],
        'rentabilidade_desejada': estado['rentabilidade_desejada']
    }

    return inputs

def extrair_dados_compras(compras):
    # Função auxiliar para extrair os dados relevantes das compras
    return [{'quantidade': compra['quantidade'], 'preco_medio': compra['preco_medio']} for compra in compras]

def extrair_dados_venda(venda):
    # Função auxiliar para extrair os dados relevantes da venda
    return {'quantidade': venda['quantidade'], 'preco_medio': venda['preco_medio']}

def atualizar_quantidades_compra(estado, venda, acoes_preditas):
    # Inicialize um novo estado com base no estado atual
    novo_estado = estado.copy()

    # Extrair informações relevantes da venda
    data_venda, ativo_venda, corretora_venda, cliente_venda = venda['data'], venda['ativo'], venda['corretora'], venda['cliente']

    # Inicializar ou obter a estrutura para armazenar as combinações
    if 'combinações_realizadas' not in novo_estado:
        novo_estado['combinações_realizadas'] = []

    # Iterar sobre as ações preditas e atualizar as quantidades disponíveis de compra
    for acao, quantidade_predita in enumerate(acoes_preditas):
        compra = estado['compras_disponiveis'][acao]

        # Garantir que a quantidade predita não exceda a quantidade disponível
        quantidade_predita = min(quantidade_predita, compra['quantidade'])

        # Reduzir a quantidade disponível com base na ação predita
        nova_quantidade_disponivel = compra['quantidade'] - quantidade_predita

        # Atualizar a quantidade disponível na cópia do estado
        novo_estado['compras_disponiveis'][acao]['quantidade'] = nova_quantidade_disponivel

        # Registrar a combinação realizada
        combinação = {
            'data_venda': data_venda,
            'ativo_venda': ativo_venda,
            'corretora_venda': corretora_venda,
            'cliente_venda': cliente_venda,
            'quantidade_compra': quantidade_predita,
            'preco_medio_compra': compra['preco_medio']
            # Adicionar outras informações relevantes da compra e venda
        }

        novo_estado['combinações_realizadas'].append(combinação)

    return novo_estado
