# Анализ результатов работы модели QAOA

## Структура данных

|budget|risk|weights|n_layers|n_iterations|result_over_time|samples|qa_weights|
|---|---|---|---|---|---|---|---|
|numeric, ограничение по бюджету, входная величина|float(0-1], величина риска, входная величина|бинарные веса{0, 1}, результат решения классической модели, для сравнения|(int>0)параметр, задающий глубину квантовой схемы, входная величина|(int>~1000)количество итерации при оптимизации модели, входная величина|(float)значение функции оптимизации в процессе итераций, выходная величина, ожидается убывание по индексу|list({0, 1})сэмплы решений, выдаваемые в результате работы квантовой модели, выходная величина, ожидается, что наиболее часто встречающийся сэмпл отражает оптимальное решение|float[0-1], вещественные значения, отражающие ожидаемые значения весов оптимального решения|

## Базис для анализа (для сравнения weights, оптимальных samples, и qa_weights)

### Доходность

$d = \mathbf{mu} \cdot \mathbf{weights}$ 

### Риск

$r = \mathbf{weights} \cdot \mathbf{sigma} \cdot \mathbf{weights}$

### Коэффициент шарпа

$s = (d - r_0) / r$

$r_0$ - доходность при нулевом риске, для нашего случая (S&P), это 0.035

$s = (d - 0.035) / r$


### Hamming distance (для сравнения weights и оптимальных samples)
см. `from scipy.spatial import distance.hamming`

### ROC (разобраться)

## Ожидаемые результаты

- Графики зависимостей метрик от входных параметров
- 3-4 примера кривых result_over_time на одном графике
- Статистический анализ расхождения метрик результатов классической и qaoa моделей
- Базовое стравнение метрик моделей на тестовых данных
- Можно провести анализ распределения samples для моделей

In [97]:
import pandas as pd


data_train = pd.read_csv('datasets/output_qaoa/train_data.csv')
data_test = pd.read_csv('datasets/output_qaoa/test_data.csv')
data_out = pd.read_csv('datasets/output_qaoa/po_results2.csv')

In [98]:
mu_train = data_train.mean()*252
mu_test = data_test.mean()*252
sigma_train = data_train.cov()*252
sigma_test = data_test.cov()*252

In [99]:
data_out.infer_objects()

Unnamed: 0,budget,risk,weights,n_layers,n_iterations,result_over_time,samples,qa_weights
0,3,0.3,[1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.],1,100,"[np.float64(-24.6561630985358), np.float64(-24...",[[0 0 0 ... 0 0 1]\n [0 0 0 ... 0 0 0]\n [0 0 ...,[0.74084164 0.77994444 0.51284688 0.32307975 0...
1,3,0.3,[1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.],1,200,"[np.float64(0.33358986933421586), np.float64(0...",[[1 1 1 ... 0 0 0]\n [0 1 0 ... 0 0 0]\n [0 0 ...,[ 0.0426299 0.04756588 0.01300453 -0.007823...
2,3,0.3,[1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.],1,300,"[np.float64(0.5780834692871849), np.float64(0....",[[1 0 1 ... 0 0 0]\n [0 1 0 ... 0 1 0]\n [0 0 ...,[ 1.97135060e-16 1.62711641e-16 -5.06864516e-...
3,3,0.3,[1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.],2,100,"[np.float64(20.816389363165776), np.float64(20...",[[0 1 0 ... 0 1 0]\n [0 0 0 ... 1 1 1]\n [0 0 ...,[-3.43401804e-09 -3.36790761e-09 -4.37237628e-...
4,3,0.3,[1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.],2,200,"[np.float64(16.64174207567648), np.float64(16....",[[1 1 0 ... 1 0 0]\n [1 0 0 ... 0 0 0]\n [0 0 ...,[0.4904841 0.50669719 0.45696551 0.44682303 0...
...,...,...,...,...,...,...,...,...
103,5,0.7,[1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0.],3,200,"[np.float64(19.19070184383374), np.float64(19....",[[1 0 0 ... 1 0 0]\n [0 0 1 ... 1 0 0]\n [0 1 ...,[-0.09001197 -0.12500129 0.03340016 0.170207...
104,5,0.7,[1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0.],3,300,"[np.float64(22.538233806664337), np.float64(22...",[[0 1 1 ... 1 0 0]\n [1 1 0 ... 0 1 1]\n [0 1 ...,[-0.10738697 -0.25114071 0.0846075 0.261580...
105,5,0.7,[1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0.],4,100,"[np.float64(26.890281547727202), np.float64(26...",[[1 1 1 ... 1 0 0]\n [1 0 0 ... 0 0 0]\n [0 0 ...,[-0.15040123 -0.18821265 0.00387576 0.181565...
106,5,0.7,[1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0.],4,200,"[np.float64(9.471854526612544), np.float64(9.4...",[[0 1 1 ... 0 1 1]\n [1 1 1 ... 0 0 0]\n [0 0 ...,[ 0.0070132 -0.03408294 0.11244629 0.238247...


In [100]:
data_out.info()

<class 'pandas.DataFrame'>
RangeIndex: 108 entries, 0 to 107
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   budget            108 non-null    int64  
 1   risk              108 non-null    float64
 2   weights           108 non-null    str    
 3   n_layers          108 non-null    int64  
 4   n_iterations      108 non-null    int64  
 5   result_over_time  108 non-null    str    
 6   samples           108 non-null    str    
 7   qa_weights        108 non-null    str    
dtypes: float64(1), int64(3), str(4)
memory usage: 6.9 KB


In [101]:
import numpy as np


data_out['qa_weights'] = data_out['qa_weights'].apply(lambda x: (1 - np.array(x.strip('[]').split(), dtype=np.float64))/2)
data_out['weights'] = data_out['weights'].apply(lambda x: np.array(x.strip('[]').split(), dtype=np.float64))

In [102]:
data_out['result_over_time'] = data_out['result_over_time'].apply(lambda x: x.strip('[]').split(', ')).\
apply(lambda x: np.array([x_i.lstrip('np.float64(').rstrip(')') for x_i in x], dtype=np.float64))

In [103]:
data_out['samples'] = data_out['samples'].apply(lambda x: x.strip('[]').split())