In [1]:
from os import listdir
from os.path import isfile, join

def get_all_files_from_path(mypath):
    filenames = [join(mypath, f) for f in listdir(mypath) if isfile(join(mypath, f))]
    return filenames

from bs4 import BeautifulSoup
import re
import json

def get_article(articles):
    result = {}
    current_statue = "(non-statute)"
    for i in re.split(r"(.*)", articles.strip()):
        if len(i) == 0 or i == "\n":
            continue
        if re.search(r"^\(.*\)$", i):
            current_statue = i.strip()
            if current_statue not in result:
                result.update({current_statue: []})
        else:
            if current_statue not in result:
                result.update({current_statue: []})
            result[current_statue].append(i)
    return result

def build_test(filename):
    result = {}
    with open(filename, 'r') as f:
        data = f.read()

    data = BeautifulSoup(data, "xml").find_all('pair')
    for i in data:
        id = i.get('id')
        result.update({id: {}})
        result[id].update({"label": i.get('label')})
        articles = i.find('t1').text.strip()
        # articles = get_article(articles)
        result[id].update({"result": articles})
        result[id].update({"content": i.find('t2').text.strip()})
    return result

def write_json(filename, data):
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

import xml.etree.ElementTree as Et
import glob

def format_first_line(text):
    lines = text.split("\n")
    results = []
    for line in lines:
        if line[0] == "":
            continue
        if line[0] == "(" and line[-1] == ")":
            continue
        results.append(line)
    return "\n".join(results)

def load_samples(filexml):
    # try:
    tree = Et.parse(filexml)
    root = tree.getroot()
    samples = []
    for i in range(0, len(root)):
        sample = {'result': []}
        for j, e in enumerate(root[i]):
            if e.tag == "t1":
                sample['result'] = format_first_line(e.text.strip())
            elif e.tag == "t2":
                question = e.text.strip()
                sample['content'] = question if len(question) > 0 else None
        sample.update(
            {'index': root[i].attrib['id'], 'label': root[i].attrib.get('label', "N")})
        # filter the noise samples
        if sample['content'] is not None:
            samples.append(sample)
        else:
            print("[Important warning] samples {} is ignored".format(sample))
    return samples

def load_test_data_samples(path_folder_base, test_id):
    data = []
    test = load_samples(f"{path_folder_base}/riteval_{test_id}.xml")
    for file_path in glob.glob(f"{path_folder_base}/riteval_{test_id}.xml"):
        data = data + load_samples(file_path)
    return data


def load_all_data_samples(path_folder_base):
    data = []
    for file_path in glob.glob("{}/*.xml".format(path_folder_base)):
        data = data + load_samples(file_path)
    return data

def check_false_labels(pred, false_labels):
	for label in false_labels:
		if label in pred:
			return True
	return False

from tqdm import tqdm

def format_output(text):
	CLEANR = re.compile('<.*?>') 
	cleantext = re.sub(CLEANR, '', text)
	return cleantext.strip().lower()

def readfile(filename):
    f = open(filename)
    data = json.load(f)
    return data

In [2]:
zeroShot = "According to the given legal reasoning approach.\nDocument: {{premise}}\nQuestion: {{hypothesis}}? True or False"
import jsonlines

train_path = get_all_files_from_path("../data/COLIEE2024statute_data-English/train")
out_trainpath = "../data/COLIEE2024statute_data-English/train.jsonl"

test_path = get_all_files_from_path("../data/COLIEE2024statute_data-English/test")
out_testpath = "../data/COLIEE2024statute_data-English/"
def xml2json(files, out_path):
    result = []
    for file in files:
        data = load_samples(file)
        for k in data:
            item = {}
            if 'index' not in k:
                print(k)
            item.update({"id": k['index']})
            item.update({"content": zeroShot.replace("{{premise}}", k["result"]).replace("{{hypothesis}}", k["content"])})
            if k["label"] == "Y": item.update({"label": "true"})
            else: item.update({"label": "false"})
            result.append(item)

    if "R0" in files[0]:
        out_path = out_path+file.split("/")[-1].replace(".xml", "")+".jsonl"
    with jsonlines.open(out_path, 'w') as writer:
        writer.write_all(result)

xml2json(train_path, out_trainpath)
xml2json([test_path[0]], out_testpath)
xml2json([test_path[1]], out_testpath)
xml2json([test_path[2]], out_testpath)
xml2json([test_path[3]], out_testpath)


In [3]:
from datasets import load_dataset

dataset = load_dataset("json", data_files={"train":"../data/COLIEE2024statute_data-English/train.jsonl", 
                                          "test1": "../data/COLIEE2024statute_data-English/riteval_R01_en.jsonl",
                                          "test2": "../data/COLIEE2024statute_data-English/riteval_R02_en.jsonl",
                                          "test3": "../data/COLIEE2024statute_data-English/riteval_R03_en.jsonl",
                                          "test4": "../data/COLIEE2024statute_data-English/riteval_R04_en.jsonl"})

print(dataset)


  from .autonotebook import tqdm as notebook_tqdm
Generating train split: 695 examples [00:00, 47449.97 examples/s]
Generating test1 split: 111 examples [00:00, 36676.20 examples/s]
Generating test2 split: 81 examples [00:00, 25255.62 examples/s]
Generating test3 split: 109 examples [00:00, 33073.80 examples/s]
Generating test4 split: 101 examples [00:00, 34949.65 examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'content', 'label'],
        num_rows: 695
    })
    test1: Dataset({
        features: ['id', 'content', 'label'],
        num_rows: 111
    })
    test2: Dataset({
        features: ['id', 'content', 'label'],
        num_rows: 81
    })
    test3: Dataset({
        features: ['id', 'content', 'label'],
        num_rows: 109
    })
    test4: Dataset({
        features: ['id', 'content', 'label'],
        num_rows: 101
    })
})





In [4]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_id="google/flan-t5-xxl"

# Load tokenizer of FLAN-t5-XL
tokenizer = AutoTokenizer.from_pretrained(model_id, cache_dir="/home/congnguyen/drive/.cache")

In [3]:
from datasets import concatenate_datasets
import numpy as np
# The maximum total input sequence length after tokenization.
# Sequences longer than this will be truncated, sequences shorter will be padded.
tokenized_inputs = concatenate_datasets([dataset["train"], dataset["test"]]).map(lambda x: tokenizer(x["content"], truncation=True), batched=True, remove_columns=["content", "label"])
input_lenghts = [len(x) for x in tokenized_inputs["input_ids"]]
# take 85 percentile of max length for better utilization
max_source_length = int(np.percentile(input_lenghts, 99))
print(f"Max source length: {max_source_length}")

# The maximum total sequence length for target text after tokenization.
# Sequences longer than this will be truncated, sequences shorter will be padded."
tokenized_targets = concatenate_datasets([dataset["train"], dataset["test"]]).map(lambda x: tokenizer(x["label"], truncation=True), batched=True, remove_columns=["content", "label"])
target_lenghts = [len(x) for x in tokenized_targets["input_ids"]]
# take 90 percentile of max length for better utilization
max_target_length = int(np.percentile(target_lenghts, 5))
print(f"Max target length: {max_target_length}")


NameError: name 'dataset' is not defined

In [None]:
def preprocess_function(sample,padding="max_length"):
    # add prefix to the input for t5
    inputs = ["Classification: " + item for item in sample["content"]]

    # tokenize inputs
    model_inputs = tokenizer(inputs, max_length=max_source_length, padding=padding, truncation=True)

    # Tokenize targets with the `text_target` keyword argument
    labels = tokenizer(text_target=sample["label"], max_length=max_target_length, padding=padding, truncation=True)

    # If we are padding here, replace all tokenizer.pad_token_id in the labels by -100 when we want to ignore
    # padding in the loss.
    if padding == "max_length":
        labels["input_ids"] = [
            [(l if l != tokenizer.pad_token_id else -100) for l in label] for label in labels["input_ids"]
        ]

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

tokenized_dataset = dataset.map(preprocess_function, batched=True, remove_columns=["content", "label", "id"])
print(f"Keys of tokenized dataset: {list(tokenized_dataset['train'].features)}")
# save datasets to disk for later easy loading
tokenized_dataset["train"].save_to_disk("../output/finetuned/data/train")
tokenized_dataset["test"].save_to_disk("../output/finetuned/data/eval")


In [7]:
from transformers import AutoModelForSeq2SeqLM

# huggingface hub model id
model_id = "philschmid/flan-t5-xxl-sharded-fp16"

# load model from the hub
model = AutoModelForSeq2SeqLM.from_pretrained(model_id, load_in_8bit=True, device_map="auto", cache_dir="/home/congnguyen/drive/.cache")

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:19<00:00,  1.62s/it]


In [8]:
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training, TaskType

# Define LoRA Config
lora_config = LoraConfig(
 r=16,
 lora_alpha=32,
 target_modules=["q", "v"],
 lora_dropout=0.05,
 bias="none",
 task_type=TaskType.SEQ_2_SEQ_LM
)
# prepare int-8 model for training
model = prepare_model_for_int8_training(model)

# add LoRA adaptor
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()



trainable params: 18,874,368 || all params: 11,154,206,720 || trainable%: 0.16921300163961817


In [9]:
from transformers import DataCollatorForSeq2Seq

# we want to ignore tokenizer pad token in the loss
label_pad_token_id = -100
# Data collator
data_collator = DataCollatorForSeq2Seq(
    tokenizer,
    model=model,
    label_pad_token_id=label_pad_token_id,
    pad_to_multiple_of=8
)


In [10]:
import os
os.environ["WANDB_PROJECT"] = "finetuned-flan-t5-xxl"  # name your W&B project
os.environ["WANDB_LOG_MODEL"] = "checkpoint"  # log all model checkpoints

In [11]:
from transformers import Seq2SeqTrainer, Seq2SeqTrainingArguments

output_dir="../output/finetuned/lora-flan-t5-xxl"

# Define training args
training_args = Seq2SeqTrainingArguments(
    output_dir=output_dir,
	# auto_find_batch_size=True,
    per_device_train_batch_size=1,
    learning_rate=1e-3, # higher learning rate
    num_train_epochs=5,
    logging_dir=f"{output_dir}/logs",
    logging_strategy="steps",
    logging_steps=500,
    save_strategy="no",
    report_to="wandb",
)

# Create Trainer instance
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=tokenized_dataset["train"],
)
model.config.use_cache = False  # silence the warnings. Please re-enable for inference!

In [12]:
# train model
trainer.train()

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33msssnowkool[0m ([33mnhmcong[0m). Use [1m`wandb login --relogin`[0m to force relogin


You're using a T5TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss


KeyboardInterrupt: 

In [3]:
# Save our LoRA model & tokenizer results
peft_model_id="results"
trainer.model.save_pretrained(peft_model_id)
tokenizer.save_pretrained(peft_model_id)
# if you want to save the base model to call
# trainer.model.base_model.save_pretrained(peft_model_id)

NameError: name 'trainer' is not defined

In [1]:
# from datasets import load_dataset

# train_dataset = load_dataset("json", data_files="../data/COLIEE2024statute_data-English/data_full.jsonl", split='train[0:900]')
# test_dataset = load_dataset("json", data_files="../data/COLIEE2024statute_data-English/data_full.jsonl", split='train[900:-1]')
# print(test_dataset)
# print(train_dataset)

  from .autonotebook import tqdm as notebook_tqdm


Dataset({
    features: ['id', 'content', 'label'],
    num_rows: 196
})
Dataset({
    features: ['id', 'content', 'label'],
    num_rows: 900
})


In [9]:
import torch
from peft import PeftModel, PeftConfig
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

# Load peft config for pre-trained checkpoint etc.
peft_model_id = "../output/finetuned/lora-flan-t5-xxl_batch?auto_epochs30/checkpoint-2500"
# peft_model_id = "../output/finetuned/peft_results_batch?auto_epochs30"
config = PeftConfig.from_pretrained(peft_model_id)

# load base LLM model and tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained(config.base_model_name_or_path, device_map="auto", 
                                              cache_dir="/home/congnguyen/drive/.cache", load_in_8bit=True)
tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path, cache_dir="/home/congnguyen/drive/.cache")

# Load the Lora model
# model = PeftModel.from_pretrained(model, peft_model_id, device_map={"":0})
model = PeftModel.from_pretrained(model, peft_model_id, device_map="auto")
model.eval()
print("Peft model loaded")


Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:16<00:00,  1.41s/it]


Peft model loaded


In [10]:
from datasets import load_dataset
from random import randrange

result = {}
# Load dataset from the hub and get a sample
# dataset = load_dataset("samsum")
# sample = dataset['test'][randrange(len(dataset["test"]))]
count = 0

# for i in range(len(test_dataset["content"])):
for item in tqdm(dataset["test1"]):
    id = item["id"]
    label = item["label"]
    content = item["content"]
#     # inputs = tokenizer(text, return_tensors="pt")["input_ids"].cuda()
#     # outputs = model.generate(inputs, max_new_tokens=10)
    # =======================
    input_ids = tokenizer(content, return_tensors="pt").input_ids.cuda()
    # outputs = model.generate(input_ids=input_ids, max_new_tokens=10, do_sample=True, top_p=0.0000001)
    outputs = model.generate(input_ids=input_ids, max_new_tokens=10)
    output_text = format_output(tokenizer.decode(outputs[0]).replace(content, "").split("\n")[-1])
    print(output_text)
#     # if tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0] == test_dataset["label"][i] and i > 96:
#     #     count += 1
    answer = "false"
    if  "true" in output_text or "yes" in output_text:
        answer = "true"
    if answer == label:
        count += 1
    if answer == "true": answer = "Y"
    else: answer = "N"
    result.update({id: answer})
        


  1%|█▍                                                                                                                                                         | 1/111 [00:01<02:10,  1.19s/it]

true


  2%|██▊                                                                                                                                                        | 2/111 [00:02<01:59,  1.09s/it]Token indices sequence length is longer than the specified maximum sequence length for this model (581 > 512). Running this sequence through the model will result in indexing errors


true


  3%|████▏                                                                                                                                                      | 3/111 [00:03<02:25,  1.34s/it]

false


  4%|█████▌                                                                                                                                                     | 4/111 [00:05<02:15,  1.26s/it]

true


  5%|██████▉                                                                                                                                                    | 5/111 [00:06<02:16,  1.29s/it]

false


  5%|████████▍                                                                                                                                                  | 6/111 [00:07<02:07,  1.22s/it]

true


  6%|█████████▊                                                                                                                                                 | 7/111 [00:08<02:01,  1.16s/it]

false


  7%|███████████▏                                                                                                                                               | 8/111 [00:09<02:04,  1.21s/it]

false


  8%|████████████▌                                                                                                                                              | 9/111 [00:11<02:05,  1.23s/it]

false


  9%|█████████████▊                                                                                                                                            | 10/111 [00:12<01:59,  1.18s/it]

false


 10%|███████████████▎                                                                                                                                          | 11/111 [00:13<01:53,  1.14s/it]

true


 11%|████████████████▋                                                                                                                                         | 12/111 [00:14<01:46,  1.08s/it]

true


 12%|██████████████████                                                                                                                                        | 13/111 [00:15<01:48,  1.10s/it]

false


 13%|███████████████████▍                                                                                                                                      | 14/111 [00:16<01:45,  1.08s/it]

true


 14%|████████████████████▊                                                                                                                                     | 15/111 [00:17<01:35,  1.01it/s]

true


 14%|██████████████████████▏                                                                                                                                   | 16/111 [00:17<01:28,  1.07it/s]

false


 15%|███████████████████████▌                                                                                                                                  | 17/111 [00:18<01:24,  1.12it/s]

true


 16%|████████████████████████▉                                                                                                                                 | 18/111 [00:19<01:16,  1.22it/s]

true


 17%|██████████████████████████▎                                                                                                                               | 19/111 [00:20<01:25,  1.08it/s]

true


 18%|███████████████████████████▋                                                                                                                              | 20/111 [00:21<01:29,  1.02it/s]

false


 19%|█████████████████████████████▏                                                                                                                            | 21/111 [00:22<01:20,  1.12it/s]

false


 20%|██████████████████████████████▌                                                                                                                           | 22/111 [00:23<01:23,  1.07it/s]

false


 21%|███████████████████████████████▉                                                                                                                          | 23/111 [00:24<01:31,  1.04s/it]

true


 22%|█████████████████████████████████▎                                                                                                                        | 24/111 [00:25<01:35,  1.09s/it]

true


 23%|██████████████████████████████████▋                                                                                                                       | 25/111 [00:26<01:34,  1.09s/it]

true


 23%|████████████████████████████████████                                                                                                                      | 26/111 [00:27<01:30,  1.07s/it]

true


 24%|█████████████████████████████████████▍                                                                                                                    | 27/111 [00:29<01:31,  1.09s/it]

false


 25%|██████████████████████████████████████▊                                                                                                                   | 28/111 [00:30<01:31,  1.10s/it]

true


 26%|████████████████████████████████████████▏                                                                                                                 | 29/111 [00:31<01:31,  1.12s/it]

true


 27%|█████████████████████████████████████████▌                                                                                                                | 30/111 [00:32<01:34,  1.17s/it]

true


 28%|███████████████████████████████████████████                                                                                                               | 31/111 [00:33<01:31,  1.15s/it]

false


 29%|████████████████████████████████████████████▍                                                                                                             | 32/111 [00:34<01:28,  1.12s/it]

true


 30%|█████████████████████████████████████████████▊                                                                                                            | 33/111 [00:35<01:27,  1.13s/it]

true


 31%|███████████████████████████████████████████████▏                                                                                                          | 34/111 [00:37<01:27,  1.14s/it]

false


 32%|████████████████████████████████████████████████▌                                                                                                         | 35/111 [00:38<01:25,  1.13s/it]

true


 32%|█████████████████████████████████████████████████▉                                                                                                        | 36/111 [00:39<01:25,  1.14s/it]

false


 33%|███████████████████████████████████████████████████▎                                                                                                      | 37/111 [00:40<01:24,  1.15s/it]

true


 34%|████████████████████████████████████████████████████▋                                                                                                     | 38/111 [00:41<01:20,  1.11s/it]

true


 35%|██████████████████████████████████████████████████████                                                                                                    | 39/111 [00:42<01:18,  1.09s/it]

true


 36%|███████████████████████████████████████████████████████▍                                                                                                  | 40/111 [00:43<01:18,  1.10s/it]

false


 37%|████████████████████████████████████████████████████████▉                                                                                                 | 41/111 [00:44<01:19,  1.14s/it]

true


 38%|██████████████████████████████████████████████████████████▎                                                                                               | 42/111 [00:46<01:17,  1.13s/it]

true


 39%|███████████████████████████████████████████████████████████▋                                                                                              | 43/111 [00:47<01:17,  1.14s/it]

false


 40%|█████████████████████████████████████████████████████████████                                                                                             | 44/111 [00:48<01:17,  1.16s/it]

true


 41%|██████████████████████████████████████████████████████████████▍                                                                                           | 45/111 [00:49<01:14,  1.13s/it]

false


 41%|███████████████████████████████████████████████████████████████▊                                                                                          | 46/111 [00:50<01:11,  1.09s/it]

false


 42%|█████████████████████████████████████████████████████████████████▏                                                                                        | 47/111 [00:51<01:07,  1.06s/it]

true


 43%|██████████████████████████████████████████████████████████████████▌                                                                                       | 48/111 [00:52<01:06,  1.05s/it]

true


 44%|███████████████████████████████████████████████████████████████████▉                                                                                      | 49/111 [00:53<00:57,  1.08it/s]

false


 45%|█████████████████████████████████████████████████████████████████████▎                                                                                    | 50/111 [00:54<01:02,  1.02s/it]

false


 46%|██████████████████████████████████████████████████████████████████████▊                                                                                   | 51/111 [00:55<01:04,  1.08s/it]

false


 47%|████████████████████████████████████████████████████████████████████████▏                                                                                 | 52/111 [00:56<01:07,  1.14s/it]

true


 48%|█████████████████████████████████████████████████████████████████████████▌                                                                                | 53/111 [00:58<01:06,  1.15s/it]

false


 49%|██████████████████████████████████████████████████████████████████████████▉                                                                               | 54/111 [00:59<01:07,  1.18s/it]

false


 50%|████████████████████████████████████████████████████████████████████████████▎                                                                             | 55/111 [01:00<01:05,  1.17s/it]

false


 50%|█████████████████████████████████████████████████████████████████████████████▋                                                                            | 56/111 [01:01<01:01,  1.11s/it]

false


 51%|███████████████████████████████████████████████████████████████████████████████                                                                           | 57/111 [01:02<01:02,  1.16s/it]

true


 52%|████████████████████████████████████████████████████████████████████████████████▍                                                                         | 58/111 [01:04<01:03,  1.20s/it]

false


 53%|█████████████████████████████████████████████████████████████████████████████████▊                                                                        | 59/111 [01:05<01:02,  1.20s/it]

false


 54%|███████████████████████████████████████████████████████████████████████████████████▏                                                                      | 60/111 [01:06<00:59,  1.17s/it]

false


 55%|████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 61/111 [01:07<01:06,  1.32s/it]

false


 56%|██████████████████████████████████████████████████████████████████████████████████████                                                                    | 62/111 [01:09<01:00,  1.23s/it]

true


 57%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 63/111 [01:10<01:01,  1.28s/it]

true


 58%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 64/111 [01:11<00:59,  1.26s/it]

true


 59%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 65/111 [01:12<00:56,  1.23s/it]

false


 59%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 66/111 [01:14<00:55,  1.24s/it]

true


 60%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 67/111 [01:15<00:52,  1.19s/it]

true


 61%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 68/111 [01:16<00:52,  1.23s/it]

false


 62%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 69/111 [01:17<00:50,  1.21s/it]

false


 63%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 70/111 [01:18<00:49,  1.20s/it]

true


 64%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 71/111 [01:20<00:48,  1.21s/it]

false


 65%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 72/111 [01:21<00:47,  1.22s/it]

false


 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 73/111 [01:22<00:46,  1.21s/it]

false


 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 74/111 [01:23<00:44,  1.19s/it]

false


 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 75/111 [01:24<00:41,  1.15s/it]

false


 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 76/111 [01:25<00:42,  1.20s/it]

true


 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 77/111 [01:27<00:41,  1.21s/it]

false


 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 78/111 [01:28<00:40,  1.22s/it]

false


 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 79/111 [01:29<00:35,  1.11s/it]

true


 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 80/111 [01:30<00:34,  1.12s/it]

true


 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 81/111 [01:31<00:32,  1.10s/it]

false


 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 82/111 [01:32<00:32,  1.12s/it]

false


 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 83/111 [01:33<00:30,  1.08s/it]

false


 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 84/111 [01:34<00:29,  1.10s/it]

true


 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 85/111 [01:36<00:30,  1.16s/it]

true


 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 86/111 [01:37<00:28,  1.16s/it]

true


 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 87/111 [01:38<00:28,  1.19s/it]

true


 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 88/111 [01:39<00:27,  1.19s/it]

true


 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 89/111 [01:40<00:25,  1.17s/it]

false


 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 90/111 [01:41<00:24,  1.17s/it]

false


 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 91/111 [01:42<00:18,  1.06it/s]

true


 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 92/111 [01:43<00:17,  1.11it/s]

true


 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 93/111 [01:44<00:17,  1.03it/s]

false


 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 94/111 [01:45<00:15,  1.07it/s]

false


 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 95/111 [01:46<00:15,  1.00it/s]

false


 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 96/111 [01:47<00:14,  1.03it/s]

false


 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 97/111 [01:48<00:13,  1.02it/s]

false


 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 98/111 [01:49<00:12,  1.02it/s]

true


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 99/111 [01:50<00:11,  1.02it/s]

true


 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 100/111 [01:51<00:10,  1.06it/s]

false


 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 101/111 [01:52<00:10,  1.04s/it]

true


 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 102/111 [01:53<00:09,  1.10s/it]

false


 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 103/111 [01:54<00:08,  1.09s/it]

false


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 104/111 [01:55<00:07,  1.12s/it]

true


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 105/111 [01:56<00:06,  1.09s/it]

false


 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 106/111 [01:58<00:05,  1.11s/it]

false


 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 107/111 [01:59<00:04,  1.10s/it]

true


 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 108/111 [02:00<00:03,  1.13s/it]

true


 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 109/111 [02:01<00:02,  1.15s/it]

false


 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 110/111 [02:02<00:01,  1.10s/it]

false


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 111/111 [02:03<00:00,  1.11s/it]

false





In [12]:
print(count)
print(count/len(dataset["test1"]))

77
0.6936936936936937


In [18]:
import json

f = open('../data/analysis.json')
 
# returns JSON object as 
# a dictionary
data = json.load(f)

check = {}
for k in data['riteval_R04_en.xml']:
    for i in data['riteval_R04_en.xml'][k]:
        check.update({i: 0})
check

{'R04-02-E': 0,
 'R04-04-E': 0,
 'R04-04-O': 0,
 'R04-05-U': 0,
 'R04-09-A': 0,
 'R04-09-I': 0,
 'R04-09-U': 0,
 'R04-10-O': 0,
 'R04-14-A': 0,
 'R04-16-I': 0,
 'R04-16-U': 0,
 'R04-16-O': 0,
 'R04-18-A': 0,
 'R04-18-U': 0,
 'R04-18-O': 0,
 'R04-19-O': 0,
 'R04-20-E': 0,
 'R04-22-I': 0,
 'R04-23-O': 0,
 'R04-25-O': 0,
 'R04-26-I': 0,
 'R04-26-E': 0,
 'R04-27-A': 0,
 'R04-27-I': 0,
 'R04-29-I': 0,
 'R04-29-O': 0,
 'R04-36-U': 0,
 'R04-37-I': 0,
 'total': 0,
 'R04-08-A': 0,
 'R04-08-O': 0,
 'R04-19-E': 0,
 'R04-20-A': 0,
 'R04-20-O': 0,
 'R04-26-U': 0,
 'R04-37-U': 0}

In [22]:
k_result = {}
f = open("../output/fewshot_detail/prompt_4/riteval_R04_en_acc.txt", "r")
label = {}
for line in f:
    line = line.strip()
    line = line.split("\t")
    k_result.update({line[0]: line[1]})
    label.update({line[0]: line[2]})

count = 0
count2 = 0
for k in k_result:
    answer = k_result[k]
    # if k not in check:
    #     # if  result[k] != label[k] and result[k] == k_result[k]:
    #     #     count += 1
    #     # else:
    #     answer = result[k]
    #         # print(k, ": ", result[k], " - " , k_result[k], " - ",label[k]) 
    #         # print("==========================")
    # else:
    #     answer = k_result[k]
    #     # print(k, ": ", result[k], " + ", k_result[k],  " - " ,label[k]) 
    if answer == label[k]:
        count += 1

print(count)
print(count/len(label))

81
0.801980198019802


In [14]:
dataset["test1"][0]

{'id': 'R01-1-A',
 'content': "According to the given legal reasoning approach.\nDocument: Article 5\n(1) A minor must obtain the consent of the minor's legal representative to perform a juridical act;provided, however, that this does not apply to a juridical act for merely acquiring a right or being released from an obligation.\n(2) A juridical act in contravention of the provisions of the preceding paragraph is voidable.\n(3) Notwithstanding the provisions of paragraph (1), a minor may freely dispose of property that the legal representative has permitted the minor to dispose of for a specified purpose, to an extent that falls within the scope of that purpose. The same applies if the minor disposes of property that the legal representative has permitted the minor to dispose of without specifying a purpose.\nQuestion: A contract of sales concluded by a minor may not be rescinded if it relates to daily life, even in cases the consent of the parental authority is not obtained.? True or 

In [None]:
import evaluate
import numpy as np
from datasets import load_from_disk
from tqdm import tqdm

# Metric
metric = evaluate.load("rouge")

def evaluate_peft_model(sample,max_target_length=50):
    # generate summary
    outputs = model.generate(input_ids=sample["input_ids"].unsqueeze(0).cuda(), do_sample=True, top_p=0.9, max_new_tokens=max_target_length)
    prediction = tokenizer.decode(outputs[0].detach().cpu().numpy(), skip_special_tokens=True)
    # decode eval sample
    # Replace -100 in the labels as we can't decode them.
    labels = np.where(sample['labels'] != -100, sample['labels'], tokenizer.pad_token_id)
    labels = tokenizer.decode(labels, skip_special_tokens=True)

    # Some simple post-processing
    return prediction, labels

# load test dataset from distk
test_dataset = load_from_disk("../data/eval/").with_format("torch")

# run predictions
# this can take ~45 minutes
predictions, references = [] , []
for sample in tqdm(test_dataset):
    p,l = evaluate_peft_model(sample)
    predictions.append(p)
    references.append(l)

# compute metric
rogue = metric.compute(predictions=predictions, references=references, use_stemmer=True)

# print results
print(f"Rogue1: {rogue['rouge1']* 100:2f}%")
print(f"rouge2: {rogue['rouge2']* 100:2f}%")
print(f"rougeL: {rogue['rougeL']* 100:2f}%")
print(f"rougeLsum: {rogue['rougeLsum']* 100:2f}%")

# Rogue1: 50.386161%
# rouge2: 24.842412%
# rougeL: 41.370130%
# rougeLsum: 41.394230%
