In [None]:
![image](figuras/batalha-quantum.png)

# Batalha de dados {Quantum} Itaú 2023

## Desafio: Otimização de portfólio

### Grupo 04

* Adriano de Araújo Borges
* Gabriel Pires Aquino de Carvalho
* Yara Rodrigues Inácio
* André Alves de Aguiar
* Bárbara Abigail Ferreira Ribeiro

# Entregáveis

Ao final da batalha, a entrega do grupo deverá contemplar os seguintes pontos:

1. Solução clássica do problema.
    * Construção dos vínculos.
    * Tempo de execução.
    * Valor da função objetiva.
    * Não violação das restrições.
2. Solução quântica do problema.
    * Profundidade do circuito.
    * Quantidade de parâmetros.
    * Potencial de escabilidade da solução (como o algoritmo escala com o aumento do número de produtos).
    * Poderão ser exploradas técnicas de mitigação de erro.
    * Justificativa da escolha do hardware.
    * Resultados em hardware real apontando a resposta correta com a maior probabilidade possível.
    * Comparação entre os algoritmos explorados (`QAOA`, `VQE` ou outros).
    * Os grupos que resolverem os 3 cenários do problema quântico (fácil, médio e difícil), terão um diferencial na pontuação.
3. Os três finalistas, deverão preparar uma apresentação justificando a solução apresentada (com duração máxima de 10 minutos).
    * Explicação do resultado clássico (Valor da função objetiva, tempo de execução, estratégias utilizadas, solver e etc).
    * Algoritmos utilizados na solução quântica.
    * Resultados obtidos (comparação entre diferentes algoritmos).
    * Resultados obtidos em hardwares quânticos (comentar sobre os desafios).
    * Escalabilidade da solução e possíveis próximos passos.
    * Se o grupo tivesse mais tempo, o que mais poderia ter sido explorado?

Observação: A criatividade e qualidade da solução terão um impacto positivo na classificação final.

## Regras

1. As soluções clássicas e quânticas são independentes e possuem pontuações diferentes.
2. A solução quântica, poderá ser implementada utilizando um dos algoritmos abaixo:
    * `VQE`
        * É permitida a utilização do módulo `VQE` do Qiskit.
        * Haverá pontuação diferenciada para grupos que decidirem não utilizar o `VQE` caixa preta e construir toda a solução open box.
        * Independente do método escolhido, a solução com maior impacto para o case será levada em consideração.
        * A construção do ansatz poderá ser feita usando os métodos `TwoLocal`, `NLocal` ou customizada a partir de um circuito quântico construído pelo grupo.
        * Haverá pontuação diferenciada para grupos que decidirem não utilizar os módulos prontos (`TwoLocal` e `NLocal`).
    * `QAOA`
        * É permitida a utilização do módulo `QAOA` ou `QAOAAnsatz` do Qiskit, se o estado inicial e o mixer forem customizados pelo grupo.
        * Haverá pontuação diferenciada para grupos que decidirem não utilizar o `QAOA` caixa preta e construir toda a solução open box.
        * Independente do método escolhido, a solução com maior impacto para o case será levada em consideração.
        * A construção do ansatz deverá ser feita a partir de um circuito quântico construído pelo grupo.
        * A construção do mixer deverá ser feita a partir de um circuito quântico construído pelo grupo.
        * Haverá pontuação diferenciada para grupos que construírem o circuito que implementa a Hamiltoniana do problema.
    * Outros algoritmos
        * O grupo poderá apresentar como solução um algoritmo diferente do `QAOA`/`VQE`.
        * O grupo deverá justificar os benefícios da nova solução comparando com os algoritmos base (`QAOA` e `VQE`).
        * Haverá pontuação diferenciada para os grupos que escolherem essa abordagem.

Em caso de dúvidas, pergunte aos mentores.

# Materiais de apoio

## Workshops
* Workshop dia 1
    * Video: https://www.youtube.com/watch?v=8OmpEYCVsCw&t=6s
    * Notebook: https://github.com/taleslimaf/Itau-Data-Meetup-25-Otimizacao/blob/main/Introdu%C3%A7%C3%A3o_%C3%A0_Otimiza%C3%A7%C3%A3o.ipynb
* Workshop dia 2
    * Video: https://www.youtube.com/watch?v=csAtWEDwlV8&t=2s
    * Notebook: https://github.com/marcelogarcia82/Itau-Data-Meetup-25-IntroducaoComputacaoQuantica/blob/main/Dia_02_Marcelo_Workshop_Quantum.ipynb
* Workshop dia 3
    * Video: https://www.youtube.com/watch?v=lCFWGzFeNUM&t=49s
    * Notebook: https://github.com/jvscursulim/itau_data_meetup27_algoritmos_quanticos_hibridos
* Workshop dia 4
    * Video: https://www.youtube.com/watch?v=AB50b3lJXms&t=2s
    * Notebook: https://github.com/andre-juan/itau_data_meetup_28_hardwares_quanticos/blob/main/Dia_04_Andr%C3%A9_Juan_workshop_quantum_hardware.ipynb

## Outros materiais:
* Qiskit Textbook: https://qiskit.org/textbook/content/ch-ex/
* Documentação Qiskit: https://docs.quantum.ibm.com/
* Documentação Scipy Optimize Minimize: https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.minimize.html
* Documentação CVXPY: https://www.cvxpy.org/

# Orientações

As funções `prepara_amostra_problema`, `carrega_problema_qubo` e `gera_relatorio` são funções criadas para auxiliar vocês no desenvolvimento. A função `prepara_amostra_problema` prepara uma amostra a partir da base de produtos dado uma seed, já a função `carrega_problema_qubo` prepara a formulação qubo do problema de acordo com a amostra gerada pela seed de input e por fim, a função `gera_relatório` espera uma seed e um `np.ndarray` binário que representa a resposta obtida após o processo de otimização, portanto ela deve ser usada para que vocês verifiquem suas respostas.

## Exemplos de uso:

* `prepara_amostra_problema`
```python
sample, cov_sample = prepara_amostra_problema(seed=42)
```

* `carrega_problema_qubo`
```python
qubo = carrega_problema_qubo(seed=42)
```

* `gera_relatorio`
```python
variaveis_resposta = np.array([0, 1, 1, 1, 0, 0])
gera_relatorio(seed=42, variaveis_resposta=variaveis_resposta)
```
Observação: As variáveis resposta acima não refletem a solução para a seed 42, ela foi escolhida aleatóriamente apenas ser usada como no exemplo de como usar a função.

Observação 2: O ordenamento das variáveis resposta (binária) deve ser mantido da seguinte maneira: `[produto1_classe1, produto2_classe1, produto1_classe2, produto2_classe2, produto1_classe3, produto2_classe3]` (seguindo a sequência apresentada no `DataFrame` dos dados fornecidos, como apresentado na célula de código abaixo)

from utils import prepara_amostra_problema

sample, _ = prepara_amostra_problema(seed=42)
sample

## Comentários sobre a versão quântica

* Através da função `carrega_problema_qubo`, vocês conseguem obter o problema formulado acima no formalismo para os cenários das seeds, para usar nos algoritmos quânticos vocês só precisarão converter para Ising.
* É permitido usar as versões caixa preta do `VQE` e `QAOA` presentes no Qiskit apenas para testes. A solução final não poderá conter os módulos caixa preta `VQE`, `QAOA` e o `QAOAAnsatz` (em caso de dúvidas consulte as regras ou pergunte aos mentores)
* Se forem usar o `QAOA`, vocês tem a liberdade de alterar o estado inicial ($\phi_0$) e a Hamiltoniana do mixer, abaixo segue uma figura que exemplifica as camadas do circuito. Obs: É importante ressaltar que seu circuito pode ter várias aplicações da Hamiltoniana do problema e da Hamiltoniana do mixer, sendo assim a figura abaixo com apenas 1 aplicações de ambos serve apenas como ilustração do formato do circuito.
![image](figuras/exemplo_circuito_qaoa.png)

# Bibliotecas

# imports das bibliotecas

import cvxpy as cp
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
import scipy
import seaborn as sns

from qiskit import execute
from qiskit.circuit import ClassicalRegister, QuantumCircuit, QuantumRegister, ParameterVector
from qiskit.circuit.library import TwoLocal, NLocal, QAOAAnsatz
from qiskit.primitives import BackendSampler, BackendEstimator
from qiskit.providers.fake_provider import FakeCairoV2
from qiskit.visualization import plot_histogram, plot_distribution, plot_gate_map
from qiskit.quantum_info import SparsePauliOp
from qiskit_aer import Aer, AerSimulator
from qiskit_aer.noise import NoiseModel
from qiskit_algorithms.minimum_eigensolvers import NumPyMinimumEigensolver, VQE, QAOA
from qiskit_algorithms.optimizers import (ADAM,
                                          AQGD,
                                          BOBYQA,
                                          CG, 
                                          COBYLA,
                                          GradientDescent,
                                          L_BFGS_B,
                                          P_BFGS,
                                          POWELL,
                                          TNC,
                                          SPSA,
                                          QNSPSA,
                                          SLSQP,
                                          UMDA,
                                          ESCH,
                                          DIRECT_L,
                                          DIRECT_L_RAND,
                                          GSLS,
                                          NELDER_MEAD,
                                          CRS,
                                          NFT,
                                          SNOBFIT,
                                          ISRES,
                                          IMFIL
                                          )
from qiskit_ibm_provider import IBMProvider, least_busy
from qiskit_ibm_runtime import QiskitRuntimeService, Session, Estimator, Options

from utils import carrega_problema_qubo, gera_relatorio, prepara_amostra_problema

Na célula de código abaixo vocês irão inserir o token de acesso a API da IBM Quantum que será fornecido pela organização

token = "b82277513746196098b949d472c9becd9b7202c237030050780eaafa0e27cc592d8b0a93da322976dfb126267fa818e8bc98a7d2590ec2c7f9c9ae451e2b8163"

IBMProvider.save_account(token=token, overwrite=True)

Para escolher o hardware que o grupo vai usar para realizar inferência, vocês vão precisar preencher as informações de `hub`, `group`, `project` e `name`. As informações de `hub`, `group` e `project` devem ser preenchidas com os dados fornecidos pela organização, enquanto que o `name` vocês terão a liberdade para escolher entre os seguintes hardwares e simuladores:

Hardwares quânticos
* `ibm_algiers`
* `ibm_cairo`
* `ibm_hanoi`
* `ibmq_kolkata`
* `ibmq_mumbai`

Simuladores
* `ibmq_qasm_simulator`
* `simulator_mps`

numero_do_grupo = "04"
project = "quantum"+numero_do_grupo
name = ""

provider = IBMProvider(instance=f"itau-unibanco/batalha-de-quant/{project}")
hardware = provider.get_backend(name=name)
service = QiskitRuntimeService()

# Problema de otimização

## Formulação quadrática

$$\begin{aligned}
\min_{x \in \{0, 1\}^n}  x^T \Sigma x - \mu^T x\\
\text{subject to: } A x = L \\
                    R^T x \leq c
\end{aligned}$$



- $x \in \{0, 1\}^n$ vetor binário que indica se o ativo foi escolhido ($x[i] = 1$) ou não ($x[i] = 0$),
- $\mu \in \mathbb{R}^n$ retorno médio dos ativos (`lista_produto.ret_med`),
- $\Sigma \in \mathbb{R}^{n \times n}$ matriz de coravariância (`matriz_de_covariancia`),
- $A$ Matriz do vínculo que define quantidade de produtos por classe,
- $L$ vetor com quantidade de produtos que devem ser selecionados de cada classe (`dict_quantidade_produtos`).
- $R$ matriz que representa a avaliação de risco dos produtos (`lista_produto.aval`).
- $c$ máximo risco permitido

# Cenário clássico

## Configurações

### Observação: Favor não alterar nada na célula de código abaixo!

lista_produtos = pd.read_csv(filepath_or_buffer="dados_batalha_classico.csv", index_col=0)
matriz_de_covariancia = pd.read_csv(filepath_or_buffer="covariancia_classico.csv", index_col=0)

dict_quantidade_produtos = {'classe_0': 5,
                            'classe_1': 2,
                            'classe_2': 3,
                            'classe_3': 1,
                            'classe_4': 1,
                            'classe_5': 4,
                            'classe_6': 2,
                            'classe_7': 2,
                            'classe_8': 1,
                            'classe_9': 1}

c = 50

O problema de otimização que você está resolvendo é uma formulação quadrática com restrições que envolve a seleção de ativos para otimizar o retorno, levando em consideração o risco associado a esses ativos. Vamos analisar os componentes do problema. O código implementado utiliza a biblioteca cvxpy para formular e resolver este problema de otimização, considerando as restrições mencionadas. O resultado final fornece informações sobre o tempo de execução, o valor ótimo da função objetiva (risco total) e os produtos escolhidos por classe. Este tipo de problema é comumente abordado em finanças para a construção de carteiras otimizadas, buscando equilibrar retorno e risco.

lista_produtos

import time

Parte 1: Criação de dict_lista_produtos_classe

dict_lista_produtos_classe = {}
for classe in dict_quantidade_produtos.keys():
    dict_lista_produtos_classe[classe] = lista_produtos.loc[lista_produtos['classe'] == classe]

Nesta parte, você está criando um dicionário dict_lista_produtos_classe que mapeia cada classe para um subconjunto dos produtos da lista de produtos. Você está utilizando o Pandas para filtrar os produtos com base na classe.

Parte 2: Criação de dict_x

dict_x = {classe: cp.Variable(shape=len(produtos), boolean=True) for classe, produtos in dict_lista_produtos_classe.items()}

Aqui, você está criando um dicionário dict_x que mapeia cada classe para uma variável de decisão binária (cp.Variable). Cada variável de decisão representa se um determinado produto da classe foi escolhido (1) ou não (0).

Parte 3: Formulação do Objetivo

objective = cp.Minimize(sum(
    dict_x[classe] @ matriz_de_covariancia.loc[produtos['produto'].values][produtos['produto'].values].values @ dict_x[classe] - 
    produtos['retorno'].values.T @ dict_x[classe] +
    cp.sum(produtos['aval'].values @ dict_x[classe]) - c # Condição: Somatório dos fatores da última coluna <= c
    for classe, produtos in dict_lista_produtos_classe.items()
))

Aqui, você está formulando a função objetivo do seu problema de otimização linear. A função objetivo é uma combinação linear dos seguintes termos:

    Covariância: Produto matricial das variáveis de decisão ponderadas pela matriz de covariância.
    Retorno: Produto interno entre os retornos dos produtos e as variáveis de decisão.
    Avaliação de Risco: Soma ponderada da avaliação de risco dos produtos multiplicada pelas variáveis de decisão.
    Restrição de Risco: Garante que a soma ponderada da avaliação de risco seja menor ou igual a cc.

Parte 4: Formulação das Restrições

constraints = [cp.sum(dict_x[classe]) == quantidade for classe, quantidade in dict_quantidade_produtos.items()]

constraints += [produtos['aval'].values @ dict_x[classe] <= c for classe, produtos in dict_lista_produtos_classe.items()]  

Aqui, você está formulando as restrições do seu problema. As restrições garantem que a quantidade de produtos escolhidos de cada classe seja igual à quantidade desejada (cp.sum(dict_x[classe]) == quantidade). Além disso, há uma restrição adicional que limita a avaliação de risco total para cada classe.

Em resumo, seu código está criando um problema de otimização linear que visa maximizar o retorno considerando a covariância dos ativos, enquanto sujeito a restrições específicas de quantidade e avaliação de risco. Este é um exemplo de formulação matemática para um problema de otimização, utilizando a biblioteca cvxpy.

print(dict_lista_produtos_classe)

Parte 5: Resolvendo o Problema de Otimização

problem = cp.Problem(objective=objective, constraints=constraints)

start_time = time.time()
resultado = problem.solve(solver="CPLEX", verbose=False)
end_time = time.time()
execution_time = end_time - start_time

Nesta linha, você está criando uma instância do problema de otimização linear utilizando a biblioteca cvxpy. Isso envolve a especificação da função objetivo (objective) e das restrições (constraints) que foram formuladas anteriormente.

Este trecho de código é útil para medir o desempenho do solver CPLEX e para obter a solução ótima do problema de otimização linear que você formulou. Certifique-se de ter o CPLEX instalado e configurado corretamente para que o solver possa ser utilizado.


Parte 6: Execução

print(f"Tempo de execução: {execution_time:.2f} segundos")

print("Valor da função objetiva (risco total):", resultado)

print("Produtos escolhidos por classe:")

somatorio = 0
for classe, produtos in dict_lista_produtos_classe.items():

    if 'aval' in produtos.columns:
        indices_escolhidos = [i for i in range(len(produtos)) if dict_x[classe].value[i] > 0.5]
        
        produtos_escolhidos = [produtos['aval'].iloc[i] for i in indices_escolhidos]
        produtos_selecionados = [(produtos['produto'].iloc[i]) for i in indices_escolhidos]
#         print(f"Produtos escolhidos {classe}: {produtos_selecionados, produtos_escolhidos}")
                
        print(f"{classe}:")
        display(dict_lista_produtos_classe[classe][dict_x[classe].value.astype(bool)])
        semi_somatorio =0
        for i in indices_escolhidos: 
            semi_somatorio += produtos['aval'].iloc[i]
        somatorio += semi_somatorio
 
    else:
        print(f"Classe {classe}: Coluna 'aval' não encontrada no DataFrame.")
        
print(f"Somatorio aval = {somatorio}")

Este trecho de código realiza as seguintes operações:

    Tempo de Execução:
        Imprime o tempo total de execução da otimização com duas casas decimais.

    Valor da Função Objetiva (Risco Total):
        Imprime o valor da função objetiva após a resolução do problema de otimização linear.

    Produtos Escolhidos por Classe:
        Itera sobre cada classe de produtos e seus respectivos DataFrames.
        Verifica se a coluna 'aval' está presente no DataFrame.
        Identifica os índices dos produtos escolhidos com base nas variáveis de decisão.
        Imprime os produtos escolhidos para cada classe.
        Calcula o somatório da avaliação de risco (aval) para os produtos escolhidos em cada classe.
        Imprime o somatório total da avaliação de risco para todos os produtos escolhidos.

Resumidamente, o código fornece informações sobre o tempo de execução da otimização, o valor ótimo da função objetiva (risco total) e os produtos escolhidos por classe, incluindo a avaliação de risco associada a esses produtos. O somatório final representa o risco total considerando todos os produtos escolhidos.

# Cenário quântico

## Identificação dos jobs do grupo para recuperação dos resultados

A linha de código abaixo, dá um exemplo de como colocar uma tag para identificar o seu job.
```python
job = backend.run(mapped_circuit, shots=1024, job_tags=["hackaXX"])
```

O argumento "job_tags" do método `run` (seja circuito, ou runtime) é uma lista com as tags desejadas sempre passe a tag do seu grupo (exemplo: `"hacka01"`), e fique à vontade pra passar tags adicionais, caso deseje. Importante é que a tag do time seja passada, pra ser possível identificar os seus jobs!!!!

## Configurações

### Observação: Favor não alterar nada na célula de código abaixo!

# Não altere nada nas linhas de código dessa célula!

seed_list = [21, 71, 120]
shots = 10**4
backend = AerSimulator(method="matrix_product_state")
estimator = BackendEstimator(backend=backend)
sampler = BackendSampler(backend=backend)
dict_alocacao = {"classe_1": 0.3,
                 "classe_2": 0.3,
                 "classe_3": 0.4}
dict_quantidade_produtos = {"classe_1": 1,
                            "classe_2": 1,
                            "classe_3": 1}
aval_limite_dict = {21: 4,
                    71: 4}

## Seed: 120 (Fácil)

# desenvolva seu código abaixo

## Seed: 21 (Médio)

# desenvolva seu código abaixo

## Seed: 71 (Difícil)

# desenvolva seu código abaixo

![image](figuras/itau-quantum-logo.png)