In [None]:
import numpy as np
import pandas as pd

### Inter-rater reliability

<u>Percent agreement</u> was used to assess inter-rater reliability for index metastasis date (used in timing classification). Percent agreement was calculated using the following formula:

$$
\text{Percent Agreement} = \left( \frac{\text{Total number of labels} - \text{Number of mismatched labels}}{\text{Total number of labels}} \right) \times 100
$$

<u>Cohen's kappa</u> was used to assess inter-rater reliability for volume classification.

In [None]:
from sklearn.metrics import cohen_kappa_score

### Arrays of volume classification labels for reference

In [None]:
# Arrays of volume labels for reference
none_pd_pred = np.array(['L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H'])
low_pd_pred = np.array(['L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L'])
high_pd_pred = np.array(['L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L'])
high_rbp_pd_pred = np.array(['L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L'])
gold_labels = np.array(['L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'L', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'L', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'L', 'H', 'H', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'L', 'L', 'H', 'L', 'L', 'L', 'L', 'H', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H', 'H', 'L', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'H', 'L', 'H', 'H', 'H', 'L', 'L', 'L', 'H'])

### Accuracy evaluation

__Accuracy value and 95% confidence interval__

In [None]:
# accuracy_score() was used to calculate accuracy, with parameters gold_labels, pred_labels
# gold_labels is an array containing the gold standard labels
# pred_labels is an array containing the experimental labels, in the same order as gold_labels
from sklearn.metrics import accuracy_score

# Function for 10,000 bootstrap iterations to generate 95% confidence intervals
def bootstrap_accuracy(gold_labels, pred_labels):

    n_iterations = 10000  # Number of bootstrap resamples
    n_samples = len(gold_labels)
    bootstrapped_accuracies = []

    for _ in range(n_iterations):
        indices = np.random.choice(n_samples, n_samples, replace=True)  # Resample indices
        bootstrapped_accuracy = compute_accuracy(gold_labels[indices], pred_labels[indices])
        bootstrapped_accuracies.append(bootstrapped_accuracy)

    # Compute 95% confidence interval
    lower = np.percentile(bootstrapped_accuracies, 2.5)
    upper = np.percentile(bootstrapped_accuracies, 97.5)
    
    return(round(lower, 4), round(upper, 4))

__Testing statistical significance:__

We evaluated for statistically significant differences in accuracy between experiments of four prompt decomposition levels: none, low, high, and high with RBP.

To adjust for multiple pairwise comparisons and control the risk of Type I error, we applied both the Holm-Bonferroni correction and the more conservative Bonferroni correction.

We used alpha = 0.05.

In [None]:
# Replace with your actual gold labels and predicted labels
predictions = { 
 "None": none_pd_pred,  
 "Low": low_pd_pred,
 "High": high_pd_pred,
 "High with RBP": high_rbp_pd_pred
}

# Generate all possible pairs of prompts for comparison
import itertools
prompt_names = list(predictions.keys())
pairwise_comparisons = list(itertools.combinations(prompt_names, 2))

alpha = 0.05
bonferroni_corrected_alpha = alpha / len(pairwise_comparisons)

print(pairwise_comparisons)

__McNemar's test__

In [None]:
from statsmodels.stats.contingency_tables import mcnemar

p_values = []
comparisons = []

for p1, p2 in pairwise_comparisons:
    pred1 = predictions[p1]
    pred2 = predictions[p2]

    # Construct contingency table
    a = np.sum((pred1 == gold_labels) & (pred2 == gold_labels))
    b = np.sum((pred1 == gold_labels) & (pred2 != gold_labels))
    c = np.sum((pred1 != gold_labels) & (pred2 == gold_labels))
    d = np.sum((pred1 != gold_labels) & (pred2 != gold_labels))

    table = [[a, b], [c, d]]

    # Perform McNemar's test
    result = mcnemar(table, exact = True if (b < 5 or c < 5) else False)
        
    # Store results
    p_values.append(result.pvalue)
    comparisons.append((p1, p2))

__Holm-Bonferroni Correction__

In [None]:
# Sorting p value and pairwise comparisons for Holm-Bonferroni correction
m = len(p_values)  # Number of tests
sorted_indices = np.argsort(p_values)  # Sort indices by p-value
sorted_p_values = (np.array(p_values)[sorted_indices]).tolist()
sorted_comparisons = (np.array(comparisons)[sorted_indices]).tolist()

# Holm-Bonferroni stepwise correction
significant = []
alphas = []
for i, (p, comp) in enumerate(zip(sorted_p_values, sorted_comparisons)):
    alpha_adjusted = alpha / (m - i)  # Adjusted significance level
    if p < alpha_adjusted:
        significant.append(comp)
        alphas.append(alpha_adjusted)
    else:
        break  # Stop if one test fails (all larger p-values are non-significant)

# Print results
for (p1, p2), p in zip(comparisons, p_values):
    print(f"Comparison: {p1} vs {p2}")
    print(f"p-value: {p:.5f}")

    if list((p1, p2)) in significant:
        print("Significant difference after Holm-Bonferroni correction.\n")
        
    else:
        print("No significant difference after Holm-Bonferroni correction.\n") 

__Bonferroni Correction__

In [None]:
for p1, p2 in pairwise_comparisons:
    pred1 = predictions[p1]
    pred2 = predictions[p2]

    # Construct contingency table
    a = np.sum((pred1 == gold_labels) & (pred2 == gold_labels))
    b = np.sum((pred1 == gold_labels) & (pred2 != gold_labels))
    c = np.sum((pred1 != gold_labels) & (pred2 == gold_labels))
    d = np.sum((pred1 != gold_labels) & (pred2 != gold_labels))

    table = [[a, b], [c, d]]
    print(table)

    # Perform McNemar's test
    result = mcnemar(table, exact = True if (b < 5 or c < 5) else False)

    # Print results
    print(f"Comparison: {p1} vs {p2}")
    print(f"Contingency Table: {table}")
    print(f"p-value: {result.pvalue:.5f}")

    # Check significance after Bonferroni correction
    if result.pvalue < bonferroni_corrected_alpha:
         print("Significant difference after Bonferroni correction.\n")
    else:
         print("No significant difference after Bonferroni correction.\n")

### Weighted precision, recall, f1-score evaluations

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix

In [None]:
def weighted_performance_eval(pred_labels, exp_name):
    columns = ['Degree of PD', 'Weighted Precision', 'Weighted Recall', 'Weighted F1-Score']
    df = pd.DataFrame(columns=columns)
    df.loc[0, 'Degree of PD'] = exp_name
    df.loc[0, 'Weighted Precision'] = precision_score(gold_labels, pred_labels, average = 'weighted')
    df.loc[0, 'Weighted Recall'] = recall_score(gold_labels, pred_labels, average = 'weighted')
    df.loc[0, 'Weighted F1-Score'] = f1_score(gold_labels, pred_labels, average = 'weighted')
    return df

In [None]:
none_w_perf_eval = weighted_performance_eval(none_pd_pred, 'None')
low_w_perf_eval = weighted_performance_eval(low_pd_pred, 'Low')
high_w_perf_eval = weighted_performance_eval(high_pd_pred, 'High')
high_RBP_w_perf_eval = weighted_performance_eval(high_rbp_pd_pred, 'High with RBP')
w_perf_eval = pd.concat([none_w_perf_eval, low_w_perf_eval, high_w_perf_eval, high_RBP_w_perf_eval])
w_perf_eval

In [None]:
# Functions for 10,000 bootstrap iterations to generate 95% confidence intervals
# (for weighted precision, weighted recall, weighted f1-scores)

def bootstrap_precision(gold_labels, pred_labels):

    n_iterations = 10000  # Number of bootstrap resamples
    n_samples = len(gold_labels)
    bootstrapped_precisions = []

    for _ in range(n_iterations):
        indices = np.random.choice(n_samples, n_samples, replace=True)  # Resample indices
        bootstrapped_precision = precision_score(gold_labels[indices], pred_labels[indices], average = 'weighted')
        bootstrapped_precisions.append(bootstrapped_precision)

    # Compute 95% confidence interval
    lower = np.percentile(bootstrapped_precisions, 2.5)
    upper = np.percentile(bootstrapped_precisions, 97.5)
    
    return(round(lower, 4), round(upper, 4))

def bootstrap_recall(gold_labels, pred_labels):

    n_iterations = 10000  # Number of bootstrap resamples
    n_samples = len(gold_labels)
    bootstrapped_recalls = []

    for _ in range(n_iterations):
        indices = np.random.choice(n_samples, n_samples, replace=True)  # Resample indices
        bootstrapped_recall = recall_score(gold_labels[indices], pred_labels[indices], average = 'weighted')
        bootstrapped_recalls.append(bootstrapped_recall)

    # Compute 95% confidence interval
    lower = np.percentile(bootstrapped_recalls, 2.5)
    upper = np.percentile(bootstrapped_recalls, 97.5)
    
    return(round(lower, 4), round(upper, 4))

def bootstrap_f1(gold_labels, pred_labels):

    n_iterations = 10000  # Number of bootstrap resamples
    n_samples = len(gold_labels)
    bootstrapped_f1s = []

    for _ in range(n_iterations):
        indices = np.random.choice(n_samples, n_samples, replace=True)  # Resample indices
        bootstrapped_f1 = f1_score(gold_labels[indices], pred_labels[indices], average = 'weighted')
        bootstrapped_f1s.append(bootstrapped_f1)

    # Compute 95% confidence interval
    lower = np.percentile(bootstrapped_f1s, 2.5)
    upper = np.percentile(bootstrapped_f1s, 97.5)
    
    return(round(lower, 4), round(upper, 4))

### Individual precision, recall, f1-score evaluations

Example is provided with respect to volume classification experiments - high volume (HV) and low volume (LV) individual scores.

In [None]:
def performance_eval(pred_labels, exp_name):
    
    columns = ['Degree of PD', 'HV precision', 'LV precision', 'HV recall', 'LV recall', 'HV F1', 'LV F1', ]
    
    df = pd.DataFrame(columns=columns)

    df.loc[0, 'Degree of PD'] = exp_name
    
    df.loc[0, 'HV precision'] = round(precision_score(gold_labels, pred_labels, pos_label = 'H'), 3)
    df.loc[0, 'LV precision'] = round(precision_score(gold_labels, pred_labels, pos_label = 'L'), 3)
    
    df.loc[0, 'HV recall'] = round(recall_score(gold_labels, pred_labels, pos_label = 'H'), 3)
    df.loc[0, 'LV recall'] = round(recall_score(gold_labels, pred_labels, pos_label = 'L'), 3)
    
    df.loc[0, 'HV F1'] = round(f1_score(gold_labels, pred_labels, pos_label = 'H'), 3)
    df.loc[0, 'LV F1'] = round(f1_score(gold_labels, pred_labels, pos_label = 'L'), 3)

    return df

In [None]:
none_perf_eval = performance_eval(none_pd_pred, 'None')
low_perf_eval = performance_eval(low_pd_pred, 'Low')
high_perf_eval = performance_eval(high_pd_pred, 'High')
high_rbp_perf_eval = performance_eval(high_rbp_pd_pred, 'High with RBP')
individual_perf_eval = pd.concat([none_perf_eval, low_perf_eval, high_perf_eval, high_rbp_perf_eval])
individual_perf_eval