From 94269aa23a797797726bc252c5d9a34db34737c4 Mon Sep 17 00:00:00 2001
From: Chandan Singh <chandan_singh@berkeley.edu>
Date: Mon, 12 Feb 2024 20:30:28 -0800
Subject: [PATCH] update expt params

---
 augdistill/experiments/01_eval.py           |   9 +-
 augdistill/notebooks/01_model_results.ipynb | 591 ++++++++++++++++----
 augdistill/scripts/01_eval_basic.py         |  37 +-
 3 files changed, 488 insertions(+), 149 deletions(-)

diff --git a/augdistill/experiments/01_eval.py b/augdistill/experiments/01_eval.py
index 3165af9..b673452 100644
--- a/augdistill/experiments/01_eval.py
+++ b/augdistill/experiments/01_eval.py
@@ -11,6 +11,7 @@
 import joblib
 import imodels
 import inspect
+import torch
 import os.path
 import imodelsx.cache_save_utils
 from imodelsx import AugLinearClassifier
@@ -49,7 +50,9 @@ def add_main_args(parser):
     parser.add_argument(
         "--embedding_string_prompt", type=str, default="synonym", choices=set(list(EMBEDDING_STRING_SETTINGS.keys()) + ['None']), help="key for embedding string"
     )
-
+    parser.add_argument(
+        '--zeroshot_strategy', type=str, default='pos_class', choices=['pos_class', 'difference'], help='strategy for zeroshot'
+    )
     # training misc args
     parser.add_argument("--seed", type=int, default=1, help="random seed")
     parser.add_argument(
@@ -107,7 +110,7 @@ def add_computational_args(parser):
     # set seed
     np.random.seed(args.seed)
     random.seed(args.seed)
-    # torch.manual_seed(args.seed)
+    torch.manual_seed(args.seed)
 
     # load text data
     dset_val = datasets.load_dataset(args.dataset_name)['validation']
@@ -157,5 +160,5 @@ def add_computational_args(parser):
         r, join(save_dir_unique, "results.pkl")
     )  # caching requires that this is called results.pkl
     # joblib.dump(model, join(save_dir_unique, "model.pkl"))
-    print(r)
+    # print(r)
     logging.info("Succesfully completed :)\n\n")
diff --git a/augdistill/notebooks/01_model_results.ipynb b/augdistill/notebooks/01_model_results.ipynb
index 236aa54..c336e2c 100644
--- a/augdistill/notebooks/01_model_results.ipynb
+++ b/augdistill/notebooks/01_model_results.ipynb
@@ -2,15 +2,24 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 1,
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "The autoreload extension is already loaded. To reload it, use:\n",
-      "  %reload_ext autoreload\n"
+      "[2024-02-12 20:29:10,546] [INFO] [real_accelerator.py:158:get_accelerator] Setting ds_accelerator to cuda (auto detect)\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/chansingh/imodelsx/.venv/lib/python3.11/site-packages/thinc/compat.py:36: UserWarning: 'has_mps' is deprecated, please use 'torch.backends.mps.is_built()'\n",
+      "  hasattr(torch, \"has_mps\")\n",
+      "/home/chansingh/imodelsx/.venv/lib/python3.11/site-packages/thinc/compat.py:37: UserWarning: 'has_mps' is deprecated, please use 'torch.backends.mps.is_built()'\n",
+      "  and torch.has_mps  # type: ignore[attr-defined]\n"
      ]
     }
    ],
@@ -40,14 +49,14 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 2,
    "metadata": {},
    "outputs": [
     {
      "name": "stderr",
      "output_type": "stream",
      "text": [
-      "100%|██████████| 3/3 [00:00<00:00, 2117.27it/s]\n"
+      "100%|██████████| 19/19 [00:00<00:00, 3859.91it/s]\n"
      ]
     }
    ],
@@ -55,150 +64,486 @@
     "r = imodelsx.process_results.get_results_df(results_dir)\n",
     "experiment_filename = '../experiments/01_eval.py'\n",
     "r = imodelsx.process_results.fill_missing_args_with_default(\n",
-    "    r, experiment_filename)"
+    "    r, experiment_filename)\n",
+    "\n",
+    "r = r[['acc_val'] + [c for c in r.columns if not c == 'acc_val']]\n",
+    "r = r.sort_values('acc_val', ascending=False)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": 3,
    "metadata": {},
    "outputs": [
     {
      "data": {
       "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
+       "<style type=\"text/css\">\n",
+       "#T_7d7fa_row0_col0 {\n",
+       "  background-color: #fde725;\n",
+       "  color: #000000;\n",
+       "}\n",
+       "#T_7d7fa_row1_col0 {\n",
+       "  background-color: #98d83e;\n",
+       "  color: #000000;\n",
+       "}\n",
+       "#T_7d7fa_row2_col0, #T_7d7fa_row3_col0 {\n",
+       "  background-color: #27ad81;\n",
+       "  color: #f1f1f1;\n",
+       "}\n",
+       "#T_7d7fa_row4_col0, #T_7d7fa_row5_col0 {\n",
+       "  background-color: #23888e;\n",
+       "  color: #f1f1f1;\n",
+       "}\n",
+       "#T_7d7fa_row6_col0 {\n",
+       "  background-color: #26828e;\n",
+       "  color: #f1f1f1;\n",
+       "}\n",
+       "#T_7d7fa_row7_col0, #T_7d7fa_row8_col0 {\n",
+       "  background-color: #2c728e;\n",
+       "  color: #f1f1f1;\n",
+       "}\n",
+       "#T_7d7fa_row9_col0, #T_7d7fa_row10_col0 {\n",
+       "  background-color: #33628d;\n",
+       "  color: #f1f1f1;\n",
+       "}\n",
+       "#T_7d7fa_row11_col0, #T_7d7fa_row12_col0 {\n",
+       "  background-color: #375a8c;\n",
+       "  color: #f1f1f1;\n",
+       "}\n",
+       "#T_7d7fa_row13_col0, #T_7d7fa_row14_col0 {\n",
+       "  background-color: #3b528b;\n",
+       "  color: #f1f1f1;\n",
+       "}\n",
+       "#T_7d7fa_row15_col0, #T_7d7fa_row16_col0 {\n",
+       "  background-color: #423f85;\n",
+       "  color: #f1f1f1;\n",
+       "}\n",
+       "#T_7d7fa_row17_col0, #T_7d7fa_row18_col0 {\n",
+       "  background-color: #440154;\n",
+       "  color: #f1f1f1;\n",
+       "}\n",
        "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
+       "<table id=\"T_7d7fa\">\n",
        "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>dataset_name</th>\n",
-       "      <th>checkpoint</th>\n",
-       "      <th>ngrams</th>\n",
-       "      <th>use_all_ngrams</th>\n",
-       "      <th>use_next_token_distr_embedding</th>\n",
-       "      <th>embedding_string_prompt</th>\n",
-       "      <th>seed</th>\n",
-       "      <th>save_dir</th>\n",
-       "      <th>model_name</th>\n",
-       "      <th>use_cache</th>\n",
-       "      <th>batch_size</th>\n",
-       "      <th>save_dir_unique</th>\n",
-       "      <th>roc_val</th>\n",
-       "      <th>acc_val</th>\n",
-       "      <th>acc_baseline</th>\n",
-       "      <th>mean_pred</th>\n",
+       "    <tr>\n",
+       "      <th class=\"blank level0\" >&nbsp;</th>\n",
+       "      <th id=\"T_7d7fa_level0_col0\" class=\"col_heading level0 col0\" >acc_val</th>\n",
+       "      <th id=\"T_7d7fa_level0_col1\" class=\"col_heading level0 col1\" >dataset_name</th>\n",
+       "      <th id=\"T_7d7fa_level0_col2\" class=\"col_heading level0 col2\" >checkpoint</th>\n",
+       "      <th id=\"T_7d7fa_level0_col3\" class=\"col_heading level0 col3\" >ngrams</th>\n",
+       "      <th id=\"T_7d7fa_level0_col4\" class=\"col_heading level0 col4\" >use_all_ngrams</th>\n",
+       "      <th id=\"T_7d7fa_level0_col5\" class=\"col_heading level0 col5\" >use_next_token_distr_embedding</th>\n",
+       "      <th id=\"T_7d7fa_level0_col6\" class=\"col_heading level0 col6\" >embedding_string_prompt</th>\n",
+       "      <th id=\"T_7d7fa_level0_col7\" class=\"col_heading level0 col7\" >zeroshot_strategy</th>\n",
+       "      <th id=\"T_7d7fa_level0_col8\" class=\"col_heading level0 col8\" >seed</th>\n",
+       "      <th id=\"T_7d7fa_level0_col9\" class=\"col_heading level0 col9\" >save_dir</th>\n",
+       "      <th id=\"T_7d7fa_level0_col10\" class=\"col_heading level0 col10\" >use_cache</th>\n",
+       "      <th id=\"T_7d7fa_level0_col11\" class=\"col_heading level0 col11\" >batch_size</th>\n",
+       "      <th id=\"T_7d7fa_level0_col12\" class=\"col_heading level0 col12\" >save_dir_unique</th>\n",
+       "      <th id=\"T_7d7fa_level0_col13\" class=\"col_heading level0 col13\" >roc_val</th>\n",
+       "      <th id=\"T_7d7fa_level0_col14\" class=\"col_heading level0 col14\" >acc_baseline</th>\n",
+       "      <th id=\"T_7d7fa_level0_col15\" class=\"col_heading level0 col15\" >mean_pred</th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>rotten_tomatoes</td>\n",
-       "      <td>textattack/distilbert-base-uncased-rotten-toma...</td>\n",
-       "      <td>2</td>\n",
-       "      <td>1</td>\n",
-       "      <td>0</td>\n",
-       "      <td>None</td>\n",
-       "      <td>1</td>\n",
-       "      <td>/home/chansingh/augmented-interpretable-models...</td>\n",
-       "      <td>decision_tree</td>\n",
-       "      <td>1</td>\n",
-       "      <td>8</td>\n",
-       "      <td>/home/chansingh/augmented-interpretable-models...</td>\n",
-       "      <td>0.62</td>\n",
-       "      <td>0.593333</td>\n",
-       "      <td>0.486667</td>\n",
-       "      <td>0.56</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>rotten_tomatoes</td>\n",
-       "      <td>bert-base-uncased</td>\n",
-       "      <td>2</td>\n",
-       "      <td>1</td>\n",
-       "      <td>0</td>\n",
-       "      <td>None</td>\n",
-       "      <td>1</td>\n",
-       "      <td>/home/chansingh/augmented-interpretable-models...</td>\n",
-       "      <td>decision_tree</td>\n",
-       "      <td>1</td>\n",
-       "      <td>8</td>\n",
-       "      <td>/home/chansingh/augmented-interpretable-models...</td>\n",
-       "      <td>0.49</td>\n",
-       "      <td>0.506667</td>\n",
-       "      <td>0.486667</td>\n",
-       "      <td>0.70</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>rotten_tomatoes</td>\n",
-       "      <td>hkunlp/instructor-xl</td>\n",
-       "      <td>2</td>\n",
-       "      <td>1</td>\n",
-       "      <td>0</td>\n",
-       "      <td>instructor_sentiment</td>\n",
-       "      <td>1</td>\n",
-       "      <td>/home/chansingh/augmented-interpretable-models...</td>\n",
-       "      <td>decision_tree</td>\n",
-       "      <td>1</td>\n",
-       "      <td>8</td>\n",
-       "      <td>/home/chansingh/augmented-interpretable-models...</td>\n",
-       "      <td>0.62</td>\n",
-       "      <td>0.626667</td>\n",
-       "      <td>0.486667</td>\n",
-       "      <td>0.50</td>\n",
+       "      <th id=\"T_7d7fa_level0_row0\" class=\"row_heading level0 row0\" >15</th>\n",
+       "      <td id=\"T_7d7fa_row0_col0\" class=\"data row0 col0\" >0.63</td>\n",
+       "      <td id=\"T_7d7fa_row0_col1\" class=\"data row0 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row0_col2\" class=\"data row0 col2\" >hkunlp/instructor-xl</td>\n",
+       "      <td id=\"T_7d7fa_row0_col3\" class=\"data row0 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row0_col4\" class=\"data row0 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row0_col5\" class=\"data row0 col5\" >0</td>\n",
+       "      <td id=\"T_7d7fa_row0_col6\" class=\"data row0 col6\" >instructor_sentiment</td>\n",
+       "      <td id=\"T_7d7fa_row0_col7\" class=\"data row0 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row0_col8\" class=\"data row0 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row0_col9\" class=\"data row0 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row0_col10\" class=\"data row0 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row0_col11\" class=\"data row0 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row0_col12\" class=\"data row0 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/bd5ac3875c805a0e67a5b648fcc59e0a0b5e9abff5d469fc5f2b244c3496c6db</td>\n",
+       "      <td id=\"T_7d7fa_row0_col13\" class=\"data row0 col13\" >0.62</td>\n",
+       "      <td id=\"T_7d7fa_row0_col14\" class=\"data row0 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row0_col15\" class=\"data row0 col15\" >0.50</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row1\" class=\"row_heading level0 row1\" >4</th>\n",
+       "      <td id=\"T_7d7fa_row1_col0\" class=\"data row1 col0\" >0.59</td>\n",
+       "      <td id=\"T_7d7fa_row1_col1\" class=\"data row1 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row1_col2\" class=\"data row1 col2\" >textattack/distilbert-base-uncased-rotten-tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row1_col3\" class=\"data row1 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row1_col4\" class=\"data row1 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row1_col5\" class=\"data row1 col5\" >0</td>\n",
+       "      <td id=\"T_7d7fa_row1_col6\" class=\"data row1 col6\" >None</td>\n",
+       "      <td id=\"T_7d7fa_row1_col7\" class=\"data row1 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row1_col8\" class=\"data row1 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row1_col9\" class=\"data row1 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row1_col10\" class=\"data row1 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row1_col11\" class=\"data row1 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row1_col12\" class=\"data row1 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/1a41b8dab1b5bfe4b08cfa3ba9d1ed0736b56e39780cda131d231d1af44afc64</td>\n",
+       "      <td id=\"T_7d7fa_row1_col13\" class=\"data row1 col13\" >0.62</td>\n",
+       "      <td id=\"T_7d7fa_row1_col14\" class=\"data row1 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row1_col15\" class=\"data row1 col15\" >0.56</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row2\" class=\"row_heading level0 row2\" >2</th>\n",
+       "      <td id=\"T_7d7fa_row2_col0\" class=\"data row2 col0\" >0.55</td>\n",
+       "      <td id=\"T_7d7fa_row2_col1\" class=\"data row2 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row2_col2\" class=\"data row2 col2\" >meta-llama/Llama-2-7b-hf</td>\n",
+       "      <td id=\"T_7d7fa_row2_col3\" class=\"data row2 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row2_col4\" class=\"data row2 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row2_col5\" class=\"data row2 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row2_col6\" class=\"data row2 col6\" >synonym</td>\n",
+       "      <td id=\"T_7d7fa_row2_col7\" class=\"data row2 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row2_col8\" class=\"data row2 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row2_col9\" class=\"data row2 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row2_col10\" class=\"data row2 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row2_col11\" class=\"data row2 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row2_col12\" class=\"data row2 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/0f62167b4ec16d0a661a7ca02177350ac82d1743cfe92c39ef9fdd82bda804dd</td>\n",
+       "      <td id=\"T_7d7fa_row2_col13\" class=\"data row2 col13\" >0.53</td>\n",
+       "      <td id=\"T_7d7fa_row2_col14\" class=\"data row2 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row2_col15\" class=\"data row2 col15\" >0.39</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row3\" class=\"row_heading level0 row3\" >17</th>\n",
+       "      <td id=\"T_7d7fa_row3_col0\" class=\"data row3 col0\" >0.55</td>\n",
+       "      <td id=\"T_7d7fa_row3_col1\" class=\"data row3 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row3_col2\" class=\"data row3 col2\" >meta-llama/Llama-2-7b-hf</td>\n",
+       "      <td id=\"T_7d7fa_row3_col3\" class=\"data row3 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row3_col4\" class=\"data row3 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row3_col5\" class=\"data row3 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row3_col6\" class=\"data row3 col6\" >synonym</td>\n",
+       "      <td id=\"T_7d7fa_row3_col7\" class=\"data row3 col7\" >difference</td>\n",
+       "      <td id=\"T_7d7fa_row3_col8\" class=\"data row3 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row3_col9\" class=\"data row3 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row3_col10\" class=\"data row3 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row3_col11\" class=\"data row3 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row3_col12\" class=\"data row3 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/d7868bedeea734468190e50a82a9e25e6c3c55ac2bb1fdc5abc2a51dfd069e53</td>\n",
+       "      <td id=\"T_7d7fa_row3_col13\" class=\"data row3 col13\" >0.53</td>\n",
+       "      <td id=\"T_7d7fa_row3_col14\" class=\"data row3 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row3_col15\" class=\"data row3 col15\" >0.39</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row4\" class=\"row_heading level0 row4\" >3</th>\n",
+       "      <td id=\"T_7d7fa_row4_col0\" class=\"data row4 col0\" >0.51</td>\n",
+       "      <td id=\"T_7d7fa_row4_col1\" class=\"data row4 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row4_col2\" class=\"data row4 col2\" >mistralai/Mistral-7B-v0.1</td>\n",
+       "      <td id=\"T_7d7fa_row4_col3\" class=\"data row4 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row4_col4\" class=\"data row4 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row4_col5\" class=\"data row4 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row4_col6\" class=\"data row4 col6\" >movie_sentiment</td>\n",
+       "      <td id=\"T_7d7fa_row4_col7\" class=\"data row4 col7\" >difference</td>\n",
+       "      <td id=\"T_7d7fa_row4_col8\" class=\"data row4 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row4_col9\" class=\"data row4 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row4_col10\" class=\"data row4 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row4_col11\" class=\"data row4 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row4_col12\" class=\"data row4 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/0fbf0437785d09339cfc969a7035719bee6815edd3e4ab7bafbe0a2b637719e2</td>\n",
+       "      <td id=\"T_7d7fa_row4_col13\" class=\"data row4 col13\" >0.51</td>\n",
+       "      <td id=\"T_7d7fa_row4_col14\" class=\"data row4 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row4_col15\" class=\"data row4 col15\" >0.64</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row5\" class=\"row_heading level0 row5\" >7</th>\n",
+       "      <td id=\"T_7d7fa_row5_col0\" class=\"data row5 col0\" >0.51</td>\n",
+       "      <td id=\"T_7d7fa_row5_col1\" class=\"data row5 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row5_col2\" class=\"data row5 col2\" >mistralai/Mistral-7B-v0.1</td>\n",
+       "      <td id=\"T_7d7fa_row5_col3\" class=\"data row5 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row5_col4\" class=\"data row5 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row5_col5\" class=\"data row5 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row5_col6\" class=\"data row5 col6\" >movie_sentiment</td>\n",
+       "      <td id=\"T_7d7fa_row5_col7\" class=\"data row5 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row5_col8\" class=\"data row5 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row5_col9\" class=\"data row5 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row5_col10\" class=\"data row5 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row5_col11\" class=\"data row5 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row5_col12\" class=\"data row5 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/3ec7890e8e37b6ee89ecbe9c723f8bb53bc11b459641c469188b2c3341895173</td>\n",
+       "      <td id=\"T_7d7fa_row5_col13\" class=\"data row5 col13\" >0.51</td>\n",
+       "      <td id=\"T_7d7fa_row5_col14\" class=\"data row5 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row5_col15\" class=\"data row5 col15\" >0.64</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row6\" class=\"row_heading level0 row6\" >12</th>\n",
+       "      <td id=\"T_7d7fa_row6_col0\" class=\"data row6 col0\" >0.51</td>\n",
+       "      <td id=\"T_7d7fa_row6_col1\" class=\"data row6 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row6_col2\" class=\"data row6 col2\" >bert-base-uncased</td>\n",
+       "      <td id=\"T_7d7fa_row6_col3\" class=\"data row6 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row6_col4\" class=\"data row6 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row6_col5\" class=\"data row6 col5\" >0</td>\n",
+       "      <td id=\"T_7d7fa_row6_col6\" class=\"data row6 col6\" >None</td>\n",
+       "      <td id=\"T_7d7fa_row6_col7\" class=\"data row6 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row6_col8\" class=\"data row6 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row6_col9\" class=\"data row6 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row6_col10\" class=\"data row6 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row6_col11\" class=\"data row6 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row6_col12\" class=\"data row6 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/89d804ff462734dded1c8d121761efe6a8b882396c1a38f463e5e4096050a63e</td>\n",
+       "      <td id=\"T_7d7fa_row6_col13\" class=\"data row6 col13\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row6_col14\" class=\"data row6 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row6_col15\" class=\"data row6 col15\" >0.70</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row7\" class=\"row_heading level0 row7\" >14</th>\n",
+       "      <td id=\"T_7d7fa_row7_col0\" class=\"data row7 col0\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row7_col1\" class=\"data row7 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row7_col2\" class=\"data row7 col2\" >gpt2-xl</td>\n",
+       "      <td id=\"T_7d7fa_row7_col3\" class=\"data row7 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row7_col4\" class=\"data row7 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row7_col5\" class=\"data row7 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row7_col6\" class=\"data row7 col6\" >movie_sentiment</td>\n",
+       "      <td id=\"T_7d7fa_row7_col7\" class=\"data row7 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row7_col8\" class=\"data row7 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row7_col9\" class=\"data row7 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row7_col10\" class=\"data row7 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row7_col11\" class=\"data row7 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row7_col12\" class=\"data row7 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/9f080515fba8ef69a7f7e0322c514985ef701d3181e37f07de9f1e72108584d9</td>\n",
+       "      <td id=\"T_7d7fa_row7_col13\" class=\"data row7 col13\" >0.47</td>\n",
+       "      <td id=\"T_7d7fa_row7_col14\" class=\"data row7 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row7_col15\" class=\"data row7 col15\" >0.58</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row8\" class=\"row_heading level0 row8\" >11</th>\n",
+       "      <td id=\"T_7d7fa_row8_col0\" class=\"data row8 col0\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row8_col1\" class=\"data row8 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row8_col2\" class=\"data row8 col2\" >gpt2-xl</td>\n",
+       "      <td id=\"T_7d7fa_row8_col3\" class=\"data row8 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row8_col4\" class=\"data row8 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row8_col5\" class=\"data row8 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row8_col6\" class=\"data row8 col6\" >movie_sentiment</td>\n",
+       "      <td id=\"T_7d7fa_row8_col7\" class=\"data row8 col7\" >difference</td>\n",
+       "      <td id=\"T_7d7fa_row8_col8\" class=\"data row8 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row8_col9\" class=\"data row8 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row8_col10\" class=\"data row8 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row8_col11\" class=\"data row8 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row8_col12\" class=\"data row8 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/81a91f52e82394957676e66cd65dfd9dcb377592104e7c52e512649529191e83</td>\n",
+       "      <td id=\"T_7d7fa_row8_col13\" class=\"data row8 col13\" >0.47</td>\n",
+       "      <td id=\"T_7d7fa_row8_col14\" class=\"data row8 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row8_col15\" class=\"data row8 col15\" >0.58</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row9\" class=\"row_heading level0 row9\" >16</th>\n",
+       "      <td id=\"T_7d7fa_row9_col0\" class=\"data row9 col0\" >0.48</td>\n",
+       "      <td id=\"T_7d7fa_row9_col1\" class=\"data row9 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row9_col2\" class=\"data row9 col2\" >mistralai/Mistral-7B-v0.1</td>\n",
+       "      <td id=\"T_7d7fa_row9_col3\" class=\"data row9 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row9_col4\" class=\"data row9 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row9_col5\" class=\"data row9 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row9_col6\" class=\"data row9 col6\" >synonym</td>\n",
+       "      <td id=\"T_7d7fa_row9_col7\" class=\"data row9 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row9_col8\" class=\"data row9 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row9_col9\" class=\"data row9 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row9_col10\" class=\"data row9 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row9_col11\" class=\"data row9 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row9_col12\" class=\"data row9 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/d4737ff416b5fe2dde57987451785b2fa2107252a8888ee6eef29f517f8a0984</td>\n",
+       "      <td id=\"T_7d7fa_row9_col13\" class=\"data row9 col13\" >0.53</td>\n",
+       "      <td id=\"T_7d7fa_row9_col14\" class=\"data row9 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row9_col15\" class=\"data row9 col15\" >0.35</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row10\" class=\"row_heading level0 row10\" >1</th>\n",
+       "      <td id=\"T_7d7fa_row10_col0\" class=\"data row10 col0\" >0.48</td>\n",
+       "      <td id=\"T_7d7fa_row10_col1\" class=\"data row10 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row10_col2\" class=\"data row10 col2\" >mistralai/Mistral-7B-v0.1</td>\n",
+       "      <td id=\"T_7d7fa_row10_col3\" class=\"data row10 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row10_col4\" class=\"data row10 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row10_col5\" class=\"data row10 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row10_col6\" class=\"data row10 col6\" >synonym</td>\n",
+       "      <td id=\"T_7d7fa_row10_col7\" class=\"data row10 col7\" >difference</td>\n",
+       "      <td id=\"T_7d7fa_row10_col8\" class=\"data row10 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row10_col9\" class=\"data row10 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row10_col10\" class=\"data row10 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row10_col11\" class=\"data row10 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row10_col12\" class=\"data row10 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/0c89e0508fbf4d9b35eedc15206d2283478f76239e5a457458b1c5368d9ba3df</td>\n",
+       "      <td id=\"T_7d7fa_row10_col13\" class=\"data row10 col13\" >0.53</td>\n",
+       "      <td id=\"T_7d7fa_row10_col14\" class=\"data row10 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row10_col15\" class=\"data row10 col15\" >0.35</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row11\" class=\"row_heading level0 row11\" >9</th>\n",
+       "      <td id=\"T_7d7fa_row11_col0\" class=\"data row11 col0\" >0.47</td>\n",
+       "      <td id=\"T_7d7fa_row11_col1\" class=\"data row11 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row11_col2\" class=\"data row11 col2\" >gpt2-xl</td>\n",
+       "      <td id=\"T_7d7fa_row11_col3\" class=\"data row11 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row11_col4\" class=\"data row11 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row11_col5\" class=\"data row11 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row11_col6\" class=\"data row11 col6\" >synonym</td>\n",
+       "      <td id=\"T_7d7fa_row11_col7\" class=\"data row11 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row11_col8\" class=\"data row11 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row11_col9\" class=\"data row11 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row11_col10\" class=\"data row11 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row11_col11\" class=\"data row11 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row11_col12\" class=\"data row11 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/645fb3ab6709f9bf6e2b9e9bacbf115bb07c39c6ad7f3638f73f1a8169634945</td>\n",
+       "      <td id=\"T_7d7fa_row11_col13\" class=\"data row11 col13\" >0.44</td>\n",
+       "      <td id=\"T_7d7fa_row11_col14\" class=\"data row11 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row11_col15\" class=\"data row11 col15\" >0.53</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row12\" class=\"row_heading level0 row12\" >8</th>\n",
+       "      <td id=\"T_7d7fa_row12_col0\" class=\"data row12 col0\" >0.47</td>\n",
+       "      <td id=\"T_7d7fa_row12_col1\" class=\"data row12 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row12_col2\" class=\"data row12 col2\" >gpt2-xl</td>\n",
+       "      <td id=\"T_7d7fa_row12_col3\" class=\"data row12 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row12_col4\" class=\"data row12 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row12_col5\" class=\"data row12 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row12_col6\" class=\"data row12 col6\" >synonym</td>\n",
+       "      <td id=\"T_7d7fa_row12_col7\" class=\"data row12 col7\" >difference</td>\n",
+       "      <td id=\"T_7d7fa_row12_col8\" class=\"data row12 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row12_col9\" class=\"data row12 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row12_col10\" class=\"data row12 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row12_col11\" class=\"data row12 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row12_col12\" class=\"data row12 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/4cfb28799569489386f1dda7062f3313e80d735195557d5c42495ed4d65d169f</td>\n",
+       "      <td id=\"T_7d7fa_row12_col13\" class=\"data row12 col13\" >0.44</td>\n",
+       "      <td id=\"T_7d7fa_row12_col14\" class=\"data row12 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row12_col15\" class=\"data row12 col15\" >0.53</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row13\" class=\"row_heading level0 row13\" >0</th>\n",
+       "      <td id=\"T_7d7fa_row13_col0\" class=\"data row13 col0\" >0.47</td>\n",
+       "      <td id=\"T_7d7fa_row13_col1\" class=\"data row13 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row13_col2\" class=\"data row13 col2\" >gpt2</td>\n",
+       "      <td id=\"T_7d7fa_row13_col3\" class=\"data row13 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row13_col4\" class=\"data row13 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row13_col5\" class=\"data row13 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row13_col6\" class=\"data row13 col6\" >synonym</td>\n",
+       "      <td id=\"T_7d7fa_row13_col7\" class=\"data row13 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row13_col8\" class=\"data row13 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row13_col9\" class=\"data row13 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row13_col10\" class=\"data row13 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row13_col11\" class=\"data row13 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row13_col12\" class=\"data row13 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/05a0ea0b6832a65d1f5e01a496f4aaaeae8fa031edc6bd42f4fc40a988dcad87</td>\n",
+       "      <td id=\"T_7d7fa_row13_col13\" class=\"data row13 col13\" >0.47</td>\n",
+       "      <td id=\"T_7d7fa_row13_col14\" class=\"data row13 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row13_col15\" class=\"data row13 col15\" >0.45</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row14\" class=\"row_heading level0 row14\" >13</th>\n",
+       "      <td id=\"T_7d7fa_row14_col0\" class=\"data row14 col0\" >0.47</td>\n",
+       "      <td id=\"T_7d7fa_row14_col1\" class=\"data row14 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row14_col2\" class=\"data row14 col2\" >gpt2</td>\n",
+       "      <td id=\"T_7d7fa_row14_col3\" class=\"data row14 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row14_col4\" class=\"data row14 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row14_col5\" class=\"data row14 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row14_col6\" class=\"data row14 col6\" >synonym</td>\n",
+       "      <td id=\"T_7d7fa_row14_col7\" class=\"data row14 col7\" >difference</td>\n",
+       "      <td id=\"T_7d7fa_row14_col8\" class=\"data row14 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row14_col9\" class=\"data row14 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row14_col10\" class=\"data row14 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row14_col11\" class=\"data row14 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row14_col12\" class=\"data row14 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/9129bc24fc4b7bbc3ac5d00e5a95bd5dbd4dfd63990d896ebd68476047a79e6b</td>\n",
+       "      <td id=\"T_7d7fa_row14_col13\" class=\"data row14 col13\" >0.47</td>\n",
+       "      <td id=\"T_7d7fa_row14_col14\" class=\"data row14 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row14_col15\" class=\"data row14 col15\" >0.45</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row15\" class=\"row_heading level0 row15\" >6</th>\n",
+       "      <td id=\"T_7d7fa_row15_col0\" class=\"data row15 col0\" >0.45</td>\n",
+       "      <td id=\"T_7d7fa_row15_col1\" class=\"data row15 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row15_col2\" class=\"data row15 col2\" >gpt2</td>\n",
+       "      <td id=\"T_7d7fa_row15_col3\" class=\"data row15 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row15_col4\" class=\"data row15 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row15_col5\" class=\"data row15 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row15_col6\" class=\"data row15 col6\" >movie_sentiment</td>\n",
+       "      <td id=\"T_7d7fa_row15_col7\" class=\"data row15 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row15_col8\" class=\"data row15 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row15_col9\" class=\"data row15 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row15_col10\" class=\"data row15 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row15_col11\" class=\"data row15 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row15_col12\" class=\"data row15 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/30d5fbec069b556534642cdbded906dbc0b74494da45e716d153bc3737f2771c</td>\n",
+       "      <td id=\"T_7d7fa_row15_col13\" class=\"data row15 col13\" >0.46</td>\n",
+       "      <td id=\"T_7d7fa_row15_col14\" class=\"data row15 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row15_col15\" class=\"data row15 col15\" >0.50</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row16\" class=\"row_heading level0 row16\" >5</th>\n",
+       "      <td id=\"T_7d7fa_row16_col0\" class=\"data row16 col0\" >0.45</td>\n",
+       "      <td id=\"T_7d7fa_row16_col1\" class=\"data row16 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row16_col2\" class=\"data row16 col2\" >gpt2</td>\n",
+       "      <td id=\"T_7d7fa_row16_col3\" class=\"data row16 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row16_col4\" class=\"data row16 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row16_col5\" class=\"data row16 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row16_col6\" class=\"data row16 col6\" >movie_sentiment</td>\n",
+       "      <td id=\"T_7d7fa_row16_col7\" class=\"data row16 col7\" >difference</td>\n",
+       "      <td id=\"T_7d7fa_row16_col8\" class=\"data row16 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row16_col9\" class=\"data row16 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row16_col10\" class=\"data row16 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row16_col11\" class=\"data row16 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row16_col12\" class=\"data row16 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/27fd34241cdd2fdb243a8ab5bceb88b877cbce78e6ef9dc57ba6c02c26f54c22</td>\n",
+       "      <td id=\"T_7d7fa_row16_col13\" class=\"data row16 col13\" >0.46</td>\n",
+       "      <td id=\"T_7d7fa_row16_col14\" class=\"data row16 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row16_col15\" class=\"data row16 col15\" >0.50</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row17\" class=\"row_heading level0 row17\" >10</th>\n",
+       "      <td id=\"T_7d7fa_row17_col0\" class=\"data row17 col0\" >0.41</td>\n",
+       "      <td id=\"T_7d7fa_row17_col1\" class=\"data row17 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row17_col2\" class=\"data row17 col2\" >meta-llama/Llama-2-7b-hf</td>\n",
+       "      <td id=\"T_7d7fa_row17_col3\" class=\"data row17 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row17_col4\" class=\"data row17 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row17_col5\" class=\"data row17 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row17_col6\" class=\"data row17 col6\" >movie_sentiment</td>\n",
+       "      <td id=\"T_7d7fa_row17_col7\" class=\"data row17 col7\" >pos_class</td>\n",
+       "      <td id=\"T_7d7fa_row17_col8\" class=\"data row17 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row17_col9\" class=\"data row17 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row17_col10\" class=\"data row17 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row17_col11\" class=\"data row17 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row17_col12\" class=\"data row17 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/8100aad2235cf37c339436d647581b621aa473f1b135061e49670c52b5eef7c6</td>\n",
+       "      <td id=\"T_7d7fa_row17_col13\" class=\"data row17 col13\" >0.35</td>\n",
+       "      <td id=\"T_7d7fa_row17_col14\" class=\"data row17 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row17_col15\" class=\"data row17 col15\" >0.45</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th id=\"T_7d7fa_level0_row18\" class=\"row_heading level0 row18\" >18</th>\n",
+       "      <td id=\"T_7d7fa_row18_col0\" class=\"data row18 col0\" >0.41</td>\n",
+       "      <td id=\"T_7d7fa_row18_col1\" class=\"data row18 col1\" >rotten_tomatoes</td>\n",
+       "      <td id=\"T_7d7fa_row18_col2\" class=\"data row18 col2\" >meta-llama/Llama-2-7b-hf</td>\n",
+       "      <td id=\"T_7d7fa_row18_col3\" class=\"data row18 col3\" >2</td>\n",
+       "      <td id=\"T_7d7fa_row18_col4\" class=\"data row18 col4\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row18_col5\" class=\"data row18 col5\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row18_col6\" class=\"data row18 col6\" >movie_sentiment</td>\n",
+       "      <td id=\"T_7d7fa_row18_col7\" class=\"data row18 col7\" >difference</td>\n",
+       "      <td id=\"T_7d7fa_row18_col8\" class=\"data row18 col8\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row18_col9\" class=\"data row18 col9\" >/home/chansingh/augmented-interpretable-models/augdistill/results</td>\n",
+       "      <td id=\"T_7d7fa_row18_col10\" class=\"data row18 col10\" >1</td>\n",
+       "      <td id=\"T_7d7fa_row18_col11\" class=\"data row18 col11\" >8</td>\n",
+       "      <td id=\"T_7d7fa_row18_col12\" class=\"data row18 col12\" >/home/chansingh/augmented-interpretable-models/augdistill/results/e6b16955710de162534e262a330de205516f38df150f57ce2adf8a01cbdd302c</td>\n",
+       "      <td id=\"T_7d7fa_row18_col13\" class=\"data row18 col13\" >0.35</td>\n",
+       "      <td id=\"T_7d7fa_row18_col14\" class=\"data row18 col14\" >0.49</td>\n",
+       "      <td id=\"T_7d7fa_row18_col15\" class=\"data row18 col15\" >0.45</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
-       "</table>\n",
-       "</div>"
+       "</table>\n"
       ],
       "text/plain": [
-       "      dataset_name                                         checkpoint  ngrams  \\\n",
-       "0  rotten_tomatoes  textattack/distilbert-base-uncased-rotten-toma...       2   \n",
-       "1  rotten_tomatoes                                  bert-base-uncased       2   \n",
-       "2  rotten_tomatoes                               hkunlp/instructor-xl       2   \n",
-       "\n",
-       "   use_all_ngrams  use_next_token_distr_embedding embedding_string_prompt  \\\n",
-       "0               1                               0                    None   \n",
-       "1               1                               0                    None   \n",
-       "2               1                               0    instructor_sentiment   \n",
-       "\n",
-       "   seed                                           save_dir     model_name  \\\n",
-       "0     1  /home/chansingh/augmented-interpretable-models...  decision_tree   \n",
-       "1     1  /home/chansingh/augmented-interpretable-models...  decision_tree   \n",
-       "2     1  /home/chansingh/augmented-interpretable-models...  decision_tree   \n",
-       "\n",
-       "   use_cache  batch_size                                    save_dir_unique  \\\n",
-       "0          1           8  /home/chansingh/augmented-interpretable-models...   \n",
-       "1          1           8  /home/chansingh/augmented-interpretable-models...   \n",
-       "2          1           8  /home/chansingh/augmented-interpretable-models...   \n",
-       "\n",
-       "   roc_val   acc_val  acc_baseline  mean_pred  \n",
-       "0     0.62  0.593333      0.486667       0.56  \n",
-       "1     0.49  0.506667      0.486667       0.70  \n",
-       "2     0.62  0.626667      0.486667       0.50  "
+       "<pandas.io.formats.style.Styler at 0x7f6a4809c0d0>"
       ]
      },
-     "execution_count": 5,
      "metadata": {},
-     "output_type": "execute_result"
+     "output_type": "display_data"
     }
    ],
    "source": [
-    "r"
+    "# color the acc_val column\n",
+    "display(\n",
+    "    r\n",
+    "    .style\n",
+    "    .background_gradient(\n",
+    "        cmap='viridis', subset=['acc_val']\n",
+    "    )\n",
+    "    .format(precision=2)\n",
+    ")"
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
   }
  ],
  "metadata": {
diff --git a/augdistill/scripts/01_eval_basic.py b/augdistill/scripts/01_eval_basic.py
index 7b1dff0..fb5e49e 100644
--- a/augdistill/scripts/01_eval_basic.py
+++ b/augdistill/scripts/01_eval_basic.py
@@ -3,39 +3,28 @@
 import os.path
 repo_dir = dirname(dirname(os.path.abspath(__file__)))
 
-# Showcasing different ways to sweep over arguments
-# Can pass any empty dict for any of these to avoid sweeping
-
-# List of values to sweep over (sweeps over all combinations of these)
 params_shared_dict = {
     'seed': [1],
     'save_dir': [join(repo_dir, 'results')],
-    # pass binary values with 0/1 instead of the ambiguous strings True/False
     'use_cache': [1],
 }
 
-# List of tuples to sweep over (these values are coupled, and swept over together)
-# Note: this is a dictionary so you shouldn't have repeated keys
 params_coupled_dict = {
-    ('checkpoint', 'embedding_string_prompt', 'use_next_token_distr_embedding'): [
-        ('bert-base-uncased', None, 0),
-        ('textattack/distilbert-base-uncased-rotten-tomatoes', None, 0),
-        ('hkunlp/instructor-xl', 'instructor_sentiment', 0),
-
-        ('gpt2', 'synonym', 1),
-        ('gpt2-xl', 'synonym', 1),
-        ('meta-llama/Llama-2-7b-hf', 'synonym', 1),
-        ('mistralai/Mistral-7B-v0.1', 'synonym', 1),
+    # ('checkpoint', 'embedding_string_prompt', 'use_next_token_distr_embedding'): [
+    #     ('bert-base-uncased', None, 0),
+    #     ('textattack/distilbert-base-uncased-rotten-tomatoes', None, 0),
+    #     ('hkunlp/instructor-xl', 'instructor_sentiment', 0),
+    # ],
+    ('checkpoint', 'embedding_string_prompt', 'use_next_token_distr_embedding', 'zeroshot_strategy'): [
 
-        ('gpt2', 'movie_sentiment', 1),
-        ('gpt2-xl', 'movie_sentiment', 1),
-        ('meta-llama/Llama-2-7b-hf', 'movie_sentiment', 1),
-        ('mistralai/Mistral-7B-v0.1', 'movie_sentiment', 1),
+        (checkpoint, string_prompt, 1, zeroshot_strategy)
+        # for checkpoint in ['gpt2', 'gpt2-xl', 'meta-llama/Llama-2-7b-hf', 'mistralai/Mistral-7B-v0.1']
+        for checkpoint in ['mistralai/Mixtral-8x7B-v0.1', 'meta-llama/Llama-2-13b-hf']
+        for string_prompt in ['synonym', 'movie_sentiment']
+        for zeroshot_strategy in ['pos_class', 'difference']
     ],
 }
 
-# Args list is a list of dictionaries
-# If you want to do something special to remove some of these runs, can remove them before calling run_args_list
 args_list = submit_utils.get_args_list(
     params_shared_dict=params_shared_dict,
     params_coupled_dict=params_coupled_dict,
@@ -44,5 +33,7 @@
     args_list,
     script_name=join(repo_dir, 'experiments', '01_eval.py'),
     actually_run=True,
-    gpu_ids=[0, 1, 2, 3],
+    # gpu_ids=[0, 1, 2, 3],
+    gpu_ids=[[0, 1], [2, 3]],
+    # debug_mode=True,
 )