# AR_ARCC: Dual Accuracy-quality-driven Prediction Intervals

We created a synthetic dataset with varying PI widths that consists of a sinusoid with Gaussian noise.
Specifically, the dataset contains 1000 points which were generated using the equation $y = 5 \, \text{cos}(x) + 10 + \epsilon$, where $x \in [-5, 5]$ and $\epsilon$ is a Gaussian noise whose amplitude depends on $x$: $\epsilon = (2 \, \text{cos}(1.2 \, x) + 2) \, g$ and $g \sim \mathcal{N}(0, 1)$.  

For these experiments, we used a feed-forward neural network (FNN) with two hidden layers with 100 nodes each.
$5\times2$-fold cross-validation was used to train and evaluate all networks.

In [1]:
import utils
import pandas as pd
from scipy import stats
from PIGenerator import PIGenerator
import matplotlib.pyplot as plt

**Method 1: AR_ARCC**

The target-estimation network $f$ is trained to generate accurate estimates, so that its parameteres $\theta_f$ are obtained as:

$\boldsymbol{\theta}_f = \; \underset{\boldsymbol{\theta_f}}{\text{argmin}} \ MSE_{est}.$

The PI-generation NN is trained using our AR_ARCC loss function:

$Loss_{AR_ARCC} = MPIW_{penalty} + \lambda \, C$

where:
* $MPIW_{penalty} = \frac{1}{N} \sum_{i=1}^{N} (|\hat{y}^u_i - \hat{y}_i| + |\hat{y}_i - \hat{y}^\ell_i|)$ is a penalty 
term that quantifies the width of the PI as the sum of the distance between the upper bound and the target estimate and 
the distance between the lower bound and the target estimate,
* $C = e^{\xi - d_u} + e^{\xi - d_\ell} + e^{-\sum_{i=1}^N(\hat{y}^u_i - \hat{y}^\ell_i) / N}$ is a constraint that assures
  PI interity. Here, $d_u = \sum_{i=1}^N(\hat{y}^u_i - \hat{y}_i) / N$ and $d_\ell = \sum_{i=1}^N(\hat{y}_i - \hat{y}^\ell_i) / N$
  are the mean differences between the PI bounds and the target estimates, and 
$\xi = \text{max}(| \hat{\textbf{Y}}^b - \textbf{Y}^b|)$ ($\hat{\textbf{Y}}^b = \{ \hat{y}_1, \dots , \hat{y}_N \}$) is
the maximum distance between a target estimate and its corresponding target value within the batch
* $\lambda$ is a self-adaptive coefficient that controls the relative importance of both objectives.

Note that $\lambda$ is adapted throughout the learning process automatically as follows:

$\lambda^{(t)} = \lambda^{(t - 1)} + \alpha \cdot \mathcal{C},$

where $\lambda^{(t)}$ denotes the value of the coefficient $\lambda$ at the $t$-th iteration (we consider that $\lambda^{(0)}=1$), and $\alpha$ is a tunable learning rate.

In this experiment, we use $\alpha=0.01$.

In [7]:
predictor = PIGenerator(dataset='Yacht', method='AR_ARCC')
cvmse1, cvmpiw1, cvpicp1 = predictor.train(crossval='10x1', batch_size=512, epochs=4500, alpha_=0.005, printProcess=False)

Loading model...
Using 10x1 cross-validation for this dataset


TypeError: Singleton array array(series_decomp(
  (moving_avg): moving_avg(
    (avg): AvgPool1d(kernel_size=(24,), stride=(1,), padding=(0,))
  )
), dtype=object) cannot be considered a valid collection.

**Method 2: QD+**

Train an ensemble of 5 FNNs using the [QD+](https://arxiv.org/abs/2007.09670) loss function:

$Loss_{QD+} = (1 - \lambda_1) (1 - \lambda_2) MPIW_{capt}  + \lambda_1 (1 - \lambda_2) \max(0, (1 - \alpha) - PICP) ^ 2 + \lambda_2 \, MSE_{est} + \frac{\xi}{N} \sum_{i=1}^N \left[ \max(0, (\hat{y}^u_i - \hat{y}_i) + \max(0, (\hat{y}_i - \hat{y}^\ell_i) \right]$

The PIs generated by the ensemble are aggregated using a split normal mixture.

In this experiment, we use $\lambda_1=0.6$ and $\lambda_2=0.2$.

In [3]:
predictor = PIGenerator(dataset='Power', method='QD+')
cvmse2, cvmpiw2, cvpicp2 = predictor.train(crossval='10x1', batch_size=16, epochs=3000, alpha_=[0.6, 0.2], 
                                           printProcess=False)

Loading model...
Using 10x1 cross-validation for this dataset

******************************
Training fold: 1
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [01:59<00:00, 25.20it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [01:57<00:00, 25.50it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [01:57<00:00, 25.60it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [01:54<00:00, 26.20it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [01:55<00:00, 25.97it/s]


IndexError: too many indices for array: array is 2-dimensional, but 3 were indexed

**Method 3: QD-Ens**  

Train an ensemble of 5 FNNs using the [QD-Ens](https://arxiv.org/abs/1802.07167) loss function:

$Loss_{QD} = MPIW_{capt}  + \delta \, \frac{N}{\alpha (1 - \alpha)} \max(0, (1 - \alpha) - PICP) ^ 2$

In this experiment, we use $\delta=0.055$.

In [5]:
predictor = PIGenerator(dataset='Concrete', method='QD')
cvmse3, cvmpiw3, cvpicp3 = predictor.train(crossval='10x1', batch_size=16, epochs=3000, alpha_=0.055, printProcess=False)

Loading model...
Using 10x1 cross-validation for this dataset

******************************
Training fold: 1
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:45<00:00,  7.40it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:39<00:00,  7.51it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:47<00:00,  7.37it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:42<00:00,  7.44it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:42<00:00,  7.46it/s]


It took 0.04098677635192871 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 29.666295260058302 Val PICP: 0.9902912974357605 Val MPIW: 47.51245880126953

******************************
Training fold: 2
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:42<00:00,  7.45it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:42<00:00,  7.46it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:43<00:00,  7.44it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:38<00:00,  7.53it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:45<00:00,  7.41it/s]


It took 0.04411935806274414 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 19.841788635727173 Val PICP: 1.0 Val MPIW: 47.795265197753906

******************************
Training fold: 3
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.41it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:59<00:00,  7.14it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:51<00:00,  7.28it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:43<00:00,  7.43it/s]


It took 0.0382232666015625 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 19.551333145969732 Val PICP: 1.0 Val MPIW: 48.29792022705078

******************************
Training fold: 4
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:38<00:00,  7.52it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.41it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:43<00:00,  7.43it/s]


It took 0.03940701484680176 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 19.415222942019675 Val PICP: 1.0 Val MPIW: 47.68773651123047

******************************
Training fold: 5
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:39<00:00,  7.51it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:45<00:00,  7.40it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:43<00:00,  7.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:38<00:00,  7.52it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]


It took 0.03873300552368164 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 10.407694560717403 Val PICP: 1.0 Val MPIW: 48.01000213623047

******************************
Training fold: 6
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:43<00:00,  7.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:38<00:00,  7.53it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:40<00:00,  7.49it/s]


It took 0.04590415954589844 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 28.622245154466942 Val PICP: 1.0 Val MPIW: 47.73273849487305

******************************
Training fold: 7
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:42<00:00,  7.45it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:42<00:00,  7.46it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:41<00:00,  7.47it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]


It took 0.03846907615661621 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 12.739223369302888 Val PICP: 1.0 Val MPIW: 47.523433685302734

******************************
Training fold: 8
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:43<00:00,  7.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:40<00:00,  7.50it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:38<00:00,  7.54it/s]


It took 0.04590630531311035 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 16.275405030984874 Val PICP: 1.0 Val MPIW: 47.39982223510742

******************************
Training fold: 9
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.41it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:38<00:00,  7.52it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.41it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]


It took 0.0392916202545166 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 9.85717111577794 Val PICP: 1.0 Val MPIW: 47.935420989990234

******************************
Training fold: 10
******************************


100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:38<00:00,  7.52it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:45<00:00,  7.40it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:39<00:00,  7.51it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 3000/3000 [06:44<00:00,  7.42it/s]


It took 0.03696155548095703 seconds to execute this batch
PERFORMANCE AFTER AGGREGATION:
Val MSE: 20.080042798857296 Val PICP: 1.0 Val MPIW: 47.748939514160156


**Method 4: MC-Dropout-PI**  

Train a FNN using the MSE loss function. PIs are obtained by quantifying the model uncertainty through 
[MC-Dropout](https://arxiv.org/abs/1709.01907), coupled with estimating the data noise variance through an independent 
held-out validation set.

In [20]:
predictor = PIGenerator(dataset=name, method='MCDropout')
cvmse4, cvmpiw4, cvpicp4 = predictor.train(crossval='5x2', batch_size=8, epochs=1000, printProcess=False)

Loading model...
Using 5x2 cross-validation for this dataset

******************************
Training fold: 1
******************************


  0%|                                                                                         | 0/1000 [00:00<?, ?it/s]


AxisError: axis 2 is out of bounds for array of dimension 2

**Method Comparison**

We perform a paired *t*-test at the 0.05 significance level and plot box plots for each metric (MPIW, MSE, and PICP).  

In [6]:
for metric in ['mpiw', 'mse', 'picp']:
    cvAQD = globals()['cv' + metric + '1']
    cvQDp = globals()['cv' + metric + '2']
    cvQD = globals()['cv' + metric + '3']
    cvMC = globals()['cv' + metric + '4']
    df = pd.DataFrame({'AQD': cvAQD, 'QD+': cvQDp, 'QD': cvQD, 'MC-Dropout-PI': cvMC})
    ax = df[['AQD', 'QD+', 'QD', 'MC-Dropout-PI']].plot(kind='box', showmeans=True)
    ax.tick_params(labelsize=9)
    plt.xticks(fontsize=13)
    plt.yticks(fontsize=13)
    # Perform t-test
    print('Metric: ' + metric)
    compqdp = stats.ttest_rel(df['AQD'], df['QD+'])
    print('AQD vs. QD+. p-value = ' + str(compqdp.pvalue))
    compqd = stats.ttest_rel(df['AQD'], df['QD'])
    print('AQD vs. QD. p-value = ' + str(compqd.pvalue))
    compmc = stats.ttest_rel(df['AQD'], df['MC-Dropout-PI'])
    print('AQD vs. MC-Dropout-PI. p-value = ' + str(compmc.pvalue))

KeyError: 'cvmpiw2'