In [11]:
import t5_encoder
import transformers
from transformers import AutoModelForSequenceClassification, AutoTokenizer, Trainer
import torch
from accelerate.utils import convert_outputs_to_fp32

from alpaca_farm import data_utils
from argparse import Namespace
import pathlib

import numpy as np
from datasets import load_metric
metric = load_metric('accuracy')

data_args = Namespace()
data_args.prompt_dict_path = pathlib.Path('./prompts/v0_inputs_noinputs.json')
data_args.dataset_path = '../seahorse_data/'
data_args.classification_label_key = 'question4'

training_args = Namespace()
training_args.end_sequence_with_eos = False

In [12]:
def cast_with_native_amp(func, mixed_precision):
    """Almost like how huggingface accelerate cast `model.forward`."""
    if mixed_precision not in ("fp16", "bf16"):
        logger.warning(f"Unknown mixed precision mode: {mixed_precision}, falling back to fp32.")
        return func

    if mixed_precision == "fp16":
        output_func = torch.cuda.amp.autocast(dtype=torch.float16)(func)
    else:
        device_type = "cuda" if torch.cuda.is_available() else "cpu"
        output_func = torch.autocast(device_type=device_type, dtype=torch.bfloat16)(func)
    output_func = convert_outputs_to_fp32(output_func)
    return output_func
    


In [13]:
# Load the model and tokenizer
model = AutoModelForSequenceClassification.from_pretrained('/mnt/nfs_csail/models/swhan/alpaca_farm/q_four_flant5/')
model.forward = cast_with_native_amp(model.forward, 'bf16')
tokenizer = AutoTokenizer.from_pretrained('google/flan-t5-large', model_max_length=1024)

In [14]:
from typing import Optional

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    metrics = metric.compute(predictions=predictions, references=labels)
    if np.all(predictions==0) or np.all(predictions==1):
        metrics['pearson'] = 0
    else:
        metrics['pearson'] = np.corrcoef(labels.squeeze(), predictions)[0,1]
    print(metrics)
    return metrics

def format_prompt(example: dict, prompt_dict: dict) -> str:
    """Formats a prompt with a prompt_dict formatter.

    Args:
        example: A dict-like object with required keys "instruction" and "input"
        prompt_dict: Dictionary containing the keys "prompt_noinputs" and "prompt_inputs" which have
            placeholders corresponding to the keys from `example`. E.g. "{instruction}".

    Returns:
        A formatted prompt string.

    Examples
    --------
    >>> format_prompt(dict(instruction="test", input=""), prompt_dict=dict(prompt_noinputs="prompt {instruction} "))
    "prompt test"
    """
    assert "instruction" in example and "input" in example, "Internal error: example missing required keys."

    if example["input"] is None or len(example["input"]) == 0:
        formatted_prompt = prompt_dict["prompt_noinputs"].format_map(example)
    else:
        formatted_prompt = prompt_dict["prompt_inputs"].format_map(example)

    return formatted_prompt


def format_output_word_by_word(example: dict, eos_token: Optional[str] = None, output_key="output") -> str:
    if eos_token is None:
        eos_token = ""
    output = f"{example[output_key]}{eos_token}"
    return output.split()

def format_output(example: dict, eos_token: Optional[str] = None, output_key="output") -> str:
    if eos_token is None:
        eos_token = ""
    output = f"{example[output_key]}{eos_token}"
    return output

def _get_text(example: dict, output_key: str):
    example['instruction'] = INSTRUCTIONS['seahorse_data']
    example['input'] = example['text']
    source = format_prompt(example, prompt_dict=prompt_dict)
    target = format_output(
        example,
        eos_token=tokenizer.eos_token if training_args.end_sequence_with_eos else None,
        output_key=output_key,
    )
    return source + ' ' + target

def _get_text_target_word_by_word(example: dict, output_key: str):
    example['instruction'] = INSTRUCTIONS['seahorse_data']
    example['input'] = example['text']
    source = format_prompt(example, prompt_dict=prompt_dict)
    target = format_output_word_by_word(
        example,
        eos_token=tokenizer.eos_token if training_args.end_sequence_with_eos else None,
        output_key=output_key,
    )
    return [source + ' ' + ' '.join(target[:t]) for t in range(len(target))], target

In [15]:
# data_module = data_utils.make_classification_reward_modeling_data_module(
#         tokenizer=tokenizer,
#         data_args=data_args,
#         training_args=training_args,
#     )
import datasets
from alpaca_farm import utils

prompt_dict = utils.jload(data_args.prompt_dict_path)
data_files = {"train": "train.json", "validation": "validation.json"}
dataset_json = datasets.load_dataset(data_args.dataset_path, data_files=data_files)
dataset_json = dataset_json.filter(lambda example: example['worker_lang'] == 'en-US')
train_dataset = dataset_json['train']
eval_dataset = dataset_json['validation']

In [16]:
import pandas as pd
INSTRUCTIONS = {
    'seahorse_data': "Generate a one-sentence summary of this post.",
}
eval_dict_data = pd.DataFrame(eval_dataset).to_dict(orient="records")

indices_to_remove = []
for i, dict_data in enumerate(eval_dict_data):
    if dict_data['text'] is None:
        indices_to_remove.append(i)
for index in sorted(indices_to_remove, reverse=True):
    del eval_dict_data[index]

print(len(indices_to_remove))

train_dict_data = pd.DataFrame(train_dataset).to_dict(orient="records")

indices_to_remove = []
for i, dict_data in enumerate(train_dict_data):
    if dict_data['text'] is None:
        indices_to_remove.append(i)
for index in sorted(indices_to_remove, reverse=True):
    del train_dict_data[index]

print(len(indices_to_remove))

0
0


In [7]:
eval_dict_data[i]['question4']

IndexError: list index out of range

In [22]:
import torch
from tqdm import trange
num_correct = 0.
num_total = 0.
model = model.cuda()
model.eval()
with torch.no_grad():
    for i in trange(len(train_dataset)):
        sequences = _get_text(train_dict_data[i], 'summary')
        input_ids = tokenizer(sequences, truncation=True, return_tensors='pt')['input_ids']
        # with torch.cuda.amp.autocast(enabled=True, dtype=torch.bfloat16):        
        outputs = model(input_ids.cuda())
        label = train_dict_data[i]['question4']
        pred = torch.argmax(outputs.logits, dim=-1)
        if pred == label:
            num_correct +=1
        num_total +=1

        if i % 100 == 0:
            print(num_correct/num_total)
        rewards = outputs.logits[:, 1] - outputs.logits[:, 0]
        if torch.isnan(rewards).any() or torch.isinf(rewards).any():
            print(rewards)

  0%|                                                                                              | 3/14755 [00:00<17:33, 14.00it/s]

1.0


  1%|▋                                                                                           | 105/14755 [00:03<07:24, 32.93it/s]

0.8118811881188119


  1%|█▎                                                                                          | 208/14755 [00:05<06:28, 37.44it/s]

0.8009950248756219


  2%|█▉                                                                                          | 307/14755 [00:08<05:42, 42.15it/s]

0.7973421926910299


  3%|██▌                                                                                         | 406/14755 [00:11<06:24, 37.32it/s]

0.7955112219451371


  3%|███▏                                                                                        | 508/14755 [00:13<05:14, 45.32it/s]

0.8083832335329342


  4%|███▊                                                                                        | 608/14755 [00:15<05:22, 43.87it/s]

0.8036605657237936


  5%|████▍                                                                                       | 705/14755 [00:18<05:47, 40.37it/s]

0.8131241084165478


  5%|█████                                                                                       | 806/14755 [00:20<05:43, 40.66it/s]

0.8064918851435705


  6%|█████▋                                                                                      | 907/14755 [00:23<06:42, 34.42it/s]

0.8079911209766926


  7%|██████▏                                                                                    | 1007/14755 [00:26<06:11, 37.05it/s]

0.8041958041958042


  7%|██████▊                                                                                    | 1106/14755 [00:28<05:36, 40.55it/s]

0.8074477747502271


  8%|███████▍                                                                                   | 1204/14755 [00:31<05:41, 39.73it/s]

0.8076602830974188


  9%|████████                                                                                   | 1306/14755 [00:34<05:21, 41.87it/s]

0.808608762490392


 10%|████████▋                                                                                  | 1407/14755 [00:36<05:38, 39.44it/s]

0.8094218415417559


 10%|█████████▎                                                                                 | 1505/14755 [00:39<05:07, 43.08it/s]

0.8107928047968022


 11%|█████████▉                                                                                 | 1609/14755 [00:41<04:57, 44.26it/s]

0.8107432854465959


 12%|██████████▌                                                                                | 1708/14755 [00:44<05:21, 40.62it/s]

0.8112874779541446


 12%|███████████▏                                                                               | 1806/14755 [00:47<05:39, 38.14it/s]

0.8145474736257635


 13%|███████████▊                                                                               | 1907/14755 [00:49<06:01, 35.55it/s]

0.8148342977380326


 14%|████████████▎                                                                              | 2005/14755 [00:52<06:11, 34.33it/s]

0.816591704147926


 14%|████████████▉                                                                              | 2107/14755 [00:55<05:42, 36.97it/s]

0.8134221799143265


 15%|█████████████▌                                                                             | 2206/14755 [00:57<04:34, 45.70it/s]

0.8091776465243071


 16%|██████████████▏                                                                            | 2306/14755 [01:00<05:42, 36.38it/s]

0.8087787918296393


 16%|██████████████▊                                                                            | 2408/14755 [01:03<05:34, 36.87it/s]

0.8075801749271136


 17%|███████████████▍                                                                           | 2507/14755 [01:05<04:52, 41.83it/s]

0.8104758096761295


 18%|████████████████                                                                           | 2605/14755 [01:08<05:03, 39.98it/s]

0.8116109188773548


 18%|████████████████▋                                                                          | 2706/14755 [01:10<04:47, 41.86it/s]

0.8145131432802666


 19%|█████████████████▎                                                                         | 2809/14755 [01:13<05:26, 36.55it/s]

0.8164941092466976


 20%|█████████████████▉                                                                         | 2906/14755 [01:16<06:10, 31.94it/s]

0.8169596690796277


 20%|██████████████████▌                                                                        | 3006/14755 [01:18<04:59, 39.28it/s]

0.8173942019326891


 21%|███████████████████▏                                                                       | 3107/14755 [01:21<04:32, 42.72it/s]

0.8184456626894551


 22%|███████████████████▊                                                                       | 3208/14755 [01:23<04:40, 41.14it/s]

0.8175570134333021


 22%|████████████████████▍                                                                      | 3305/14755 [01:26<05:18, 36.00it/s]

0.8179339594062406


 23%|█████████████████████                                                                      | 3406/14755 [01:29<04:53, 38.68it/s]

0.8182887386062923


 24%|█████████████████████▌                                                                     | 3506/14755 [01:31<05:35, 33.49it/s]

0.8191945158526135


 24%|██████████████████████▎                                                                    | 3608/14755 [01:34<04:27, 41.75it/s]

0.8189391835601222


 25%|██████████████████████▊                                                                    | 3707/14755 [01:36<03:59, 46.05it/s]

0.8189678465279654


 26%|███████████████████████▍                                                                   | 3808/14755 [01:38<04:03, 44.95it/s]

0.8200473559589582


 26%|████████████████████████                                                                   | 3910/14755 [01:41<04:05, 44.14it/s]

0.8174826967444245


 27%|████████████████████████▋                                                                  | 4007/14755 [01:43<03:59, 44.90it/s]

0.8160459885028742


 28%|█████████████████████████▎                                                                 | 4104/14755 [01:45<04:03, 43.69it/s]

0.8154108753962448


 29%|█████████████████████████▉                                                                 | 4210/14755 [01:48<03:57, 44.43it/s]

0.8157581528207569


 29%|██████████████████████████▌                                                                | 4308/14755 [01:50<03:34, 48.62it/s]

0.8153917693559637


 30%|███████████████████████████▏                                                               | 4407/14755 [01:53<04:22, 39.47it/s]

0.8164053624176324


 31%|███████████████████████████▊                                                               | 4508/14755 [01:55<04:13, 40.47it/s]

0.8175960897578316


 31%|████████████████████████████▍                                                              | 4607/14755 [01:57<04:11, 40.28it/s]

0.8187350575961747


 32%|█████████████████████████████                                                              | 4707/14755 [02:00<03:49, 43.70it/s]

0.818549244841523


 33%|█████████████████████████████▋                                                             | 4805/14755 [02:02<04:06, 40.43it/s]

0.8198292022495314


 33%|██████████████████████████████▎                                                            | 4907/14755 [02:04<03:58, 41.22it/s]

0.8202407671903693


 34%|██████████████████████████████▉                                                            | 5007/14755 [02:07<03:46, 42.97it/s]

0.8198360327934413


 35%|███████████████████████████████▍                                                           | 5104/14755 [02:09<03:47, 42.47it/s]

0.8190550872377965


 35%|████████████████████████████████                                                           | 5208/14755 [02:12<03:48, 41.85it/s]

0.8173428186887137


 36%|████████████████████████████████▋                                                          | 5310/14755 [02:14<03:23, 46.50it/s]

0.8166383701188455


 37%|█████████████████████████████████▎                                                         | 5403/14755 [02:16<03:40, 42.47it/s]

0.8161451583040178


 37%|█████████████████████████████████▉                                                         | 5509/14755 [02:19<03:37, 42.47it/s]

0.8163970187238684


 38%|██████████████████████████████████▌                                                        | 5607/14755 [02:21<04:29, 33.97it/s]

0.815925727548652


 39%|███████████████████████████████████▏                                                       | 5705/14755 [02:23<03:42, 40.66it/s]

0.815997193474829


 39%|███████████████████████████████████▊                                                       | 5806/14755 [02:26<03:21, 44.43it/s]

0.8157214273401138


 40%|████████████████████████████████████▍                                                      | 5907/14755 [02:28<03:26, 42.80it/s]

0.8149466192170819


 41%|█████████████████████████████████████                                                      | 6008/14755 [02:31<03:30, 41.64it/s]

0.8148641893017831


 41%|█████████████████████████████████████▋                                                     | 6103/14755 [02:33<04:40, 30.80it/s]

0.8147844615636781


 42%|██████████████████████████████████████▎                                                    | 6207/14755 [02:36<04:26, 32.12it/s]

0.8153523625221738


 43%|██████████████████████████████████████▉                                                    | 6306/14755 [02:40<04:48, 29.25it/s]

0.8151087129027138


 43%|███████████████████████████████████████▍                                                   | 6404/14755 [02:43<03:51, 36.09it/s]

0.8156538040931105


 44%|████████████████████████████████████████▏                                                  | 6507/14755 [02:46<03:58, 34.56it/s]

0.8151053684048608


 45%|████████████████████████████████████████▋                                                  | 6606/14755 [02:49<04:28, 30.31it/s]

0.815785487047417


 45%|█████████████████████████████████████████▎                                                 | 6704/14755 [02:52<04:44, 28.32it/s]

0.8159976122966721


 46%|█████████████████████████████████████████▉                                                 | 6806/14755 [02:56<04:12, 31.46it/s]

0.8160564622849581


 47%|██████████████████████████████████████████▌                                                | 6907/14755 [02:59<03:52, 33.74it/s]

0.8165483263295175


 47%|███████████████████████████████████████████▏                                               | 7008/14755 [03:02<03:26, 37.55it/s]

0.8168833023853735


 48%|███████████████████████████████████████████▊                                               | 7105/14755 [03:04<02:47, 45.80it/s]

0.8170680185889312


 49%|████████████████████████████████████████████▍                                              | 7207/14755 [03:07<02:57, 42.63it/s]

0.8154422996805999


 50%|█████████████████████████████████████████████                                              | 7306/14755 [03:09<02:53, 42.94it/s]

0.8124914395288316


 50%|█████████████████████████████████████████████▋                                             | 7408/14755 [03:11<02:24, 50.89it/s]

0.8134035941089042


 51%|██████████████████████████████████████████████▎                                            | 7505/14755 [03:13<03:07, 38.66it/s]

0.8142914278096254


 52%|██████████████████████████████████████████████▉                                            | 7609/14755 [03:16<02:49, 42.28it/s]

0.8137087225365084


 52%|███████████████████████████████████████████████▌                                           | 7707/14755 [03:18<02:49, 41.48it/s]

0.8140501233606026


 53%|████████████████████████████████████████████████▏                                          | 7807/14755 [03:21<03:09, 36.75it/s]

0.8138700166645302


 54%|████████████████████████████████████████████████▊                                          | 7905/14755 [03:23<02:44, 41.75it/s]

0.8135679027971143


 54%|█████████████████████████████████████████████████▍                                         | 8008/14755 [03:26<02:33, 44.09it/s]

0.813273340832396


 55%|██████████████████████████████████████████████████                                         | 8110/14755 [03:28<02:19, 47.69it/s]

0.8133563757560794


 56%|██████████████████████████████████████████████████▌                                        | 8208/14755 [03:30<02:15, 48.18it/s]

0.813681258383124


 56%|███████████████████████████████████████████████████▏                                       | 8306/14755 [03:32<02:40, 40.19it/s]

0.8139983134562101


 57%|███████████████████████████████████████████████████▊                                       | 8405/14755 [03:35<02:50, 37.24it/s]

0.8139507201523628


 58%|████████████████████████████████████████████████████▍                                      | 8507/14755 [03:37<02:30, 41.47it/s]

0.8141395129984708


 58%|█████████████████████████████████████████████████████                                      | 8603/14755 [03:40<02:54, 35.33it/s]

0.8138588536216719


 59%|█████████████████████████████████████████████████████▋                                     | 8704/14755 [03:43<02:52, 35.08it/s]

0.8146190093092748


 60%|██████████████████████████████████████████████████████▎                                    | 8805/14755 [03:45<02:30, 39.64it/s]

0.8135439154641518


 60%|██████████████████████████████████████████████████████▉                                    | 8906/14755 [03:48<02:17, 42.61it/s]

0.8129423660262892


 61%|███████████████████████████████████████████████████████▌                                   | 9006/14755 [03:50<02:24, 39.83it/s]

0.8119097878013554


 62%|████████████████████████████████████████████████████████▏                                  | 9108/14755 [03:53<02:29, 37.72it/s]

0.8126579496758598


 62%|████████████████████████████████████████████████████████▊                                  | 9206/14755 [03:55<02:37, 35.29it/s]

0.8121943267036191


 63%|█████████████████████████████████████████████████████████▍                                 | 9308/14755 [03:58<02:12, 41.13it/s]

0.8118481883668422


 64%|██████████████████████████████████████████████████████████                                 | 9408/14755 [04:01<02:21, 37.92it/s]

0.811296670566961


 64%|██████████████████████████████████████████████████████████▋                                | 9507/14755 [04:03<02:16, 38.57it/s]

0.8107567624460583


 65%|███████████████████████████████████████████████████████████▏                               | 9604/14755 [04:06<02:34, 33.28it/s]

0.8106447245078637


 66%|███████████████████████████████████████████████████████████▊                               | 9705/14755 [04:08<02:13, 37.73it/s]

0.8109473250180393


 66%|████████████████████████████████████████████████████████████▍                              | 9808/14755 [04:11<02:09, 38.24it/s]

0.8108356290174472


 67%|█████████████████████████████████████████████████████████████                              | 9903/14755 [04:14<02:12, 36.50it/s]

0.8102211897788102


 68%|█████████████████████████████████████████████████████████████                             | 10008/14755 [04:17<02:08, 36.96it/s]

0.8095190480951905


 69%|█████████████████████████████████████████████████████████████▋                            | 10108/14755 [04:19<01:58, 39.11it/s]

0.8079398079398079


 69%|██████████████████████████████████████████████████████████████▎                           | 10206/14755 [04:22<02:09, 35.04it/s]

0.8079600039211842


 70%|██████████████████████████████████████████████████████████████▊                           | 10306/14755 [04:25<01:57, 37.78it/s]

0.8080768857392486


 71%|███████████████████████████████████████████████████████████████▍                          | 10405/14755 [04:27<02:01, 35.93it/s]

0.8072300740313432


 71%|████████████████████████████████████████████████████████████████                          | 10509/14755 [04:30<01:52, 37.67it/s]

0.8074469098181125


 72%|████████████████████████████████████████████████████████████████▋                         | 10605/14755 [04:33<02:08, 32.30it/s]

0.8071880011319686


 73%|█████████████████████████████████████████████████████████████████▎                        | 10704/14755 [04:36<01:56, 34.89it/s]

0.8074011774600505


 73%|█████████████████████████████████████████████████████████████████▉                        | 10806/14755 [04:39<01:50, 35.86it/s]

0.8069623183038608


 74%|██████████████████████████████████████████████████████████████████▌                       | 10908/14755 [04:41<01:34, 40.68it/s]

0.8074488579029447


 75%|███████████████████████████████████████████████████████████████████▏                      | 11007/14755 [04:44<01:45, 35.56it/s]

0.808199254613217


 75%|███████████████████████████████████████████████████████████████████▋                      | 11107/14755 [04:47<01:42, 35.64it/s]

0.807314656337267


 76%|████████████████████████████████████████████████████████████████████▎                     | 11205/14755 [04:50<01:35, 37.37it/s]

0.8075171859655388


 77%|████████████████████████████████████████████████████████████████████▉                     | 11305/14755 [04:52<01:34, 36.65it/s]

0.8073621803380232


 77%|█████████████████████████████████████████████████████████████████████▌                    | 11406/14755 [04:55<01:27, 38.14it/s]

0.8073853170774493


 78%|██████████████████████████████████████████████████████████████████████▏                   | 11509/14755 [04:57<01:21, 39.65it/s]

0.8075819493957047


 79%|██████████████████████████████████████████████████████████████████████▊                   | 11609/14755 [05:00<01:17, 40.51it/s]

0.8079475907249375


 79%|███████████████████████████████████████████████████████████████████████▍                  | 11709/14755 [05:02<01:11, 42.59it/s]

0.8087342962139988


 80%|████████████████████████████████████████████████████████████████████████                  | 11804/14755 [05:04<01:04, 46.08it/s]

0.8080671129565291


 81%|████████████████████████████████████████████████████████████████████████▋                 | 11909/14755 [05:07<01:04, 44.21it/s]

0.8080833543399715


 81%|█████████████████████████████████████████████████████████████████████████▏                | 12005/14755 [05:09<01:08, 40.30it/s]

0.808515957003583


 82%|█████████████████████████████████████████████████████████████████████████▊                | 12106/14755 [05:12<01:06, 39.74it/s]

0.8094372365920172


 83%|██████████████████████████████████████████████████████████████████████████▍               | 12207/14755 [05:14<01:00, 42.46it/s]

0.809195967543644


 83%|███████████████████████████████████████████████████████████████████████████               | 12307/14755 [05:17<00:57, 42.58it/s]

0.8087960328428583


 84%|███████████████████████████████████████████████████████████████████████████▋              | 12406/14755 [05:19<01:00, 39.06it/s]

0.809370212079671


 85%|████████████████████████████████████████████████████████████████████████████▎             | 12508/14755 [05:22<01:00, 37.12it/s]

0.8098552115830734


 85%|████████████████████████████████████████████████████████████████████████████▉             | 12606/14755 [05:25<01:00, 35.52it/s]

0.8095389254821046


 86%|█████████████████████████████████████████████████████████████████████████████▌            | 12706/14755 [05:28<01:01, 33.12it/s]

0.8094638217463191


 87%|██████████████████████████████████████████████████████████████████████████████            | 12806/14755 [05:30<00:56, 34.22it/s]

0.8090774158268885


 87%|██████████████████████████████████████████████████████████████████████████████▋           | 12906/14755 [05:33<00:57, 32.03it/s]

0.8088520269746531


 88%|███████████████████████████████████████████████████████████████████████████████▎          | 13006/14755 [05:36<00:52, 33.26it/s]

0.8094761941389124


 89%|███████████████████████████████████████████████████████████████████████████████▉          | 13108/14755 [05:39<00:44, 36.62it/s]

0.8102434928631402


 89%|████████████████████████████████████████████████████████████████████████████████▌         | 13204/14755 [05:42<00:43, 35.96it/s]

0.8105446557079009


 90%|█████████████████████████████████████████████████████████████████████████████████▏        | 13308/14755 [05:45<00:36, 39.95it/s]

0.8110668370799188


 91%|█████████████████████████████████████████████████████████████████████████████████▊        | 13408/14755 [05:48<00:34, 39.49it/s]

0.8115066039847773


 92%|██████████████████████████████████████████████████████████████████████████████████▍       | 13505/14755 [05:50<00:35, 34.83it/s]

0.8120879934819643


 92%|██████████████████████████████████████████████████████████████████████████████████▉       | 13605/14755 [05:53<00:30, 37.80it/s]

0.8122196897286964


 93%|███████████████████████████████████████████████████████████████████████████████████▌      | 13706/14755 [05:56<00:28, 36.93it/s]

0.8124954382891759


 94%|████████████████████████████████████████████████████████████████████████████████████▏     | 13806/14755 [05:59<00:27, 35.03it/s]

0.8127671907832765


 94%|████████████████████████████████████████████████████████████████████████████████████▊     | 13906/14755 [06:02<00:25, 33.79it/s]

0.8124595352852313


 95%|█████████████████████████████████████████████████████████████████████████████████████▍    | 14006/14755 [06:04<00:22, 33.34it/s]

0.811799157203057


 96%|██████████████████████████████████████████████████████████████████████████████████████    | 14104/14755 [06:07<00:17, 37.49it/s]

0.8117863981277924


 96%|██████████████████████████████████████████████████████████████████████████████████████▋   | 14208/14755 [06:10<00:15, 35.64it/s]

0.8118442363213858


 97%|███████████████████████████████████████████████████████████████████████████████████████▏  | 14304/14755 [06:13<00:12, 35.23it/s]

0.8119711908258164


 98%|███████████████████████████████████████████████████████████████████████████████████████▊  | 14406/14755 [06:15<00:09, 37.59it/s]

0.8117491840844386


 98%|████████████████████████████████████████████████████████████████████████████████████████▍ | 14507/14755 [06:18<00:06, 36.24it/s]

0.8122888076684367


 99%|█████████████████████████████████████████████████████████████████████████████████████████ | 14607/14755 [06:21<00:04, 36.76it/s]

0.8122731319772618


100%|█████████████████████████████████████████████████████████████████████████████████████████▋| 14707/14755 [06:24<00:01, 35.62it/s]

0.8123256921297871


100%|██████████████████████████████████████████████████████████████████████████████████████████| 14755/14755 [06:25<00:00, 38.24it/s]


In [19]:
input_ids

tensor([[ 7255,    19,    46,  8033,    24,  8788,     3,     9,  2491,     6,
             3, 13804,    28,    46,  3785,    24,   795,   856,  2625,     5,
          8733,     3,     9,  1773,    24, 18056,   743,     7,     8,  1690,
             5,  1713, 30345, 21035,    10,  6939,  2206,     3,     9,    80,
            18,  5277,  1433,  9251,    13,    48,   442,     5,  1713, 30345,
            86,  2562,    10,   938, 13197,    71,  3972, 31385, 25688,     6,
          9938,  3529,    37,  7605,    56,   810,     8,  1075, 15328,    11,
         22923, 14219,   577,    16,     3,     9,  2839,  3298,     5,   299,
             8,  8565,    16,  2342,     3,     9,   161,   179,   408,    21,
             8,   628,  6696,    31,     7, 12533,   291,  5009,   598,   165,
           792,  1487,    56,   230,   420,   305,  2394,    51, 10186,    41,
         19853,  2560,    51,   137,  8541,  2315,    13,     8,  1611,  5844,
          7038,    33, 12718,   713,    24,  4030,  

In [None]:
tokenizer.pad_token_id is None

In [20]:
import torch
from tqdm import trange
num_correct = 0.
num_total = 0.
model = model.cuda()
with torch.no_grad():
    model.eval()
    for i in trange(len(data_module['eval_dataset'])):
        sequences, words = _get_text_target_word_by_word(eval_dict_data[4], 'summary')
        input_ids = tokenizer(sequences, truncation=True, return_tensors='pt')['input_ids']
        outputs = model(input_ids.cuda())
        rewards = outputs.logits[:, 1] - outputs.logits[:, 0]
        outputs = outputs.logits.softmax(dim=-1)
        rewards_normalized = outputs[:, 1] - outputs[:, 0]
        
        x = np.arange(len(rewards_normalized))
        plt.plot(x, rewards_normalized.cpu().numpy())

        for i, word in enumerate(words):
            plt.annotate(word, (x[i], rewards_normalized[i]))

        plt.xlabel('t (time step)')
        plt.ylabel('rewards normalized')
        plt.title('reward model over partial sequences')
        plt.show()
        break

NameError: name 'data_module' is not defined

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.arange(10)
y = np.random.rand(10)
words = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']

plt.plot(x, y)

for i, word in enumerate(words):
    plt.annotate(word, (x[i], y[i]))

plt.xlabel('x')
plt.ylabel('y')
plt.title('Line Plot with Labeled Points')
plt.show()