In [1]:
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel, get_peft_model, LoraConfig, TaskType  # 0.4.0
import torch
import argparse
from tqdm import tqdm 
from accelerate import Accelerator

accelerator = Accelerator()

In [2]:
import os
os.environ["CUDA_VISIBLE_DEVICES"]="0,1,2,3,4"

In [5]:
# model_name = "google/gemma-2-27b-it"
model_name = "meta-llama/Llama-3.1-70B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name, trust_remote_code=True, 
    # quantization_config=bnb_config,
    device_map="auto"
)

model.model_parallel = True

tokenizer = AutoTokenizer.from_pretrained(model_name,     
    torch_dtype=torch.float16,
    trust_remote_code=True,
    device_map="auto"
)


tokenizer.padding_side = "left"
model = model.eval()

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [7]:
import json
import subprocess
import re

def grep(f_name, kw):
    txt = ""
    with open(f_name, 'r') as f:
        for line in f.readlines():
            if kw in line:
                txt += line + "\n"
    return txt


def evaluate_qa_pair(qa_pair):
    doc_path = qa_pair["doc_path"]
    context_id = qa_pair["contextID"][0]  # Assuming contextID is always a list with one element
    query = qa_pair["query"]
    true_answer = qa_pair["raw_answer"]
    doc_path = "XBRLBench/XBRL_Filings/DowJones30/" + qa_pair["doc_path"]

    len_limit = 70000

    try:
        xml_lines = grep(doc_path, context_id)
    except:
        return False
        
    xml_lines = xml_lines[:len_limit]

    system_prompt = """You are a knowledgeable XBRL assistant that can answer questions based on XML data. 
                 You will be provided with a context extracted from an XBRL file and a question related to it. The example question can help you to learn the format of the answer.
                 Your task is to analyze the XBRL context and provide an accurate and very concise answer to the question, dont output xml or create new question.  """

    # Construct the user prompt with the specific context and question
    example_query = "What is the US GAAP XBRL tag for Cash and Cash Equivalents as reported by Example Company Inc for the Fiscal Year ending in FY 2022?"
    example_answer = "us-gaap:CashAndCashEquivalentsAtCarryingValue"

    query = re.sub(r'\([^()]*\)', '', query)
    # Construct the user prompt with the 1-shot example, context, and question
    user_prompt = f"""
    \nXBRL file:\n{xml_lines}
    \nExample question: {example_query}
    \nExample answer: {example_answer}
    \nQuestion: {query}
    \nAnswer:"""


    # 3. Generate answer from the LLM
    tokens = tokenizer(system_prompt + user_prompt, return_tensors="pt")
    tok_len = len(tokens.input_ids[0])
    print(len(tokens.input_ids[0]))
    for k in tokens.keys():
        tokens[k] = tokens[k].cuda()
    
    outputs = model.generate(**tokens, max_length=tok_len+30, pad_token_id=tokenizer.eos_token_id)
    
    llm_answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    llm_answer = llm_answer.split("\nAnswer:")[1]
    llm_answer = llm_answer.replace("\n", "").strip()
    # 4. Compare the LLM's answer with the true answer
    print(f"LLM Answer : {llm_answer}")
    print(f"True Answer: {true_answer}")
    return llm_answer == true_answer or true_answer in llm_answer

model.generation_config.pad_token_id = tokenizer.pad_token_id
with open("qa_data.json", "r") as f:
    qa_data = json.load(f)
    qa_data = qa_data[:48]
    correct_count = 0
    total_count = len(qa_data)
    for qa_pair in tqdm(qa_data):
        is_correct = evaluate_qa_pair(qa_pair)
        if is_correct:
            correct_count += 1

    accuracy = (correct_count / total_count) * 100
    print(f"\nOverall Accuracy: {accuracy:.2f}%")


  0%|                                                                                                                                                                                                                                                   | 0/48 [00:00<?, ?it/s]

12918


  2%|████▉                                                                                                                                                                                                                                      | 1/48 [00:17<13:30, 17.25s/it]

LLM Answer : Note: The provided XBRL file is quite extensive and contains various financial data for Verizon Communications Inc. To answer the question, we need to locate
True Answer: us-gaap:AccountsPayableCurrent
15311


  4%|█████████▊                                                                                                                                                                                                                                 | 2/48 [00:38<14:49, 19.33s/it]

LLM Answer : The final answer is us-gaap:AccountsReceivableGrossCurrent.  The contextRef="c-47" indicates that this
True Answer: us-gaap:ReceivablesNetCurrent
19126


  6%|██████████████▋                                                                                                                                                                                                                            | 3/48 [01:04<17:04, 22.77s/it]

LLM Answer : ```pythondef get_xbrl_tag(context, question):    # Define a dictionary to map questions to their corresponding US GAAP XBRL
True Answer: us-gaap:Assets
20760


  8%|███████████████████▌                                                                                                                                                                                                                       | 4/48 [01:34<18:40, 25.46s/it]

LLM Answer : us-gaap:CostOfGoodsAndServicesSold. The context is c-1, the fiscal year is 2023 and the tag
True Answer: us-gaap:CostOfGoodsAndServicesSold
20010


 10%|████████████████████████▍                                                                                                                                                                                                                  | 5/48 [02:02<18:57, 26.45s/it]

LLM Answer : us-gaap:RevenueFromContractWithCustomerNetOfAllowanceForCreditLosses. Note: The answer is based on the context of
True Answer: us-gaap:Revenues
22928


 12%|█████████████████████████████▍                                                                                                                                                                                                             | 6/48 [02:35<20:08, 28.78s/it]

LLM Answer : us-gaap:CostOfRevenue. Note: Cost of Goods Sold is a subset of Cost of Revenue. This is an example
True Answer: us-gaap:CostOfRevenue
21216


 15%|██████████████████████████████████▎                                                                                                                                                                                                        | 7/48 [03:06<19:58, 29.24s/it]

LLM Answer : us-gaap:NetIncomeLoss ``` The answer is us-gaap:NetIncomeLoss. ``` The final answer
True Answer: us-gaap:NetIncomeLoss
9264


 17%|███████████████████████████████████████▏                                                                                                                                                                                                   | 8/48 [03:18<15:52, 23.82s/it]

LLM Answer : Note: The answer will be in the format of the US GAAP XBRL tag. The final answer is: us-gaap:
True Answer: us-gaap:RetainedEarningsAccumulatedDeficit
10932


 19%|████████████████████████████████████████████                                                                                                                                                                                               | 9/48 [03:32<13:35, 20.91s/it]

LLM Answer : The final answer is: us-gaap:Goodwill.  The contextRef is "c-11" which indicates that the answer is
True Answer: us-gaap:Goodwill
23262


 21%|████████████████████████████████████████████████▊                                                                                                                                                                                         | 10/48 [04:06<15:44, 24.86s/it]

LLM Answer : The final answer is: us-gaap:AccountsReceivableNetCurrent.  The XBRL tag for Accounts Receivable under US GA
True Answer: us-gaap:AccountsReceivableNetCurrent
10935


 23%|█████████████████████████████████████████████████████▋                                                                                                                                                                                    | 11/48 [04:21<13:22, 21.69s/it]

LLM Answer : us-gaap:PropertyPlantAndEquipmentGross. Note that the answer is not "Property, Plant, and Equipment" but the actual
True Answer: us-gaap:PropertyPlantAndEquipmentNet
17122


 25%|██████████████████████████████████████████████████████████▌                                                                                                                                                                               | 12/48 [04:44<13:22, 22.28s/it]

LLM Answer : The final answer is: us-gaap:Goodwill.  The context is: c-9. The answer is based on the
True Answer: us-gaap:Goodwill
23437


 27%|███████████████████████████████████████████████████████████████▎                                                                                                                                                                          | 13/48 [05:18<15:06, 25.90s/it]

LLM Answer : dow:TotalOtherAssets. Note that the answer should be in the format of the XBRL tag under the relevant accounting standard (in this case
True Answer: us-gaap:AssetsCurrent
16724


 29%|████████████████████████████████████████████████████████████████████▎                                                                                                                                                                     | 14/48 [05:41<14:09, 24.99s/it]

LLM Answer : (To be filled by the model) The final answer is: us-gaap:LiabilitiesCurrent. Please note that the answer
True Answer: us-gaap:LiabilitiesCurrent
24520


 31%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                | 15/48 [06:17<15:33, 28.29s/it]

LLM Answer : The XBRL tag for Total Equity under US GAAP is us-gaap:StockholdersEquity. Note that the XBRL file
True Answer: us-gaap:StockholdersEquity
21557


 33%|██████████████████████████████████████████████████████████████████████████████                                                                                                                                                            | 16/48 [06:48<15:30, 29.08s/it]

LLM Answer : us-gaap:NetIncomeLoss. This answer is based on the context provided in the XBRL file and the question asked. The XB
True Answer: us-gaap:NetIncomeLoss
19682


 35%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                       | 17/48 [07:16<14:47, 28.64s/it]

LLM Answer : us-gaap:Revenues. Note: This answer is based on the provided XBRL file and the question. The actual XBRL
True Answer: us-gaap:Revenues
23262


 38%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                  | 18/48 [07:50<15:04, 30.16s/it]

LLM Answer : ```us-gaap:CommonStockSharesAuthorized```This is the XBRL tag used by Boeing Co in the FY 202
True Answer: us-gaap:CommonStockValue
10930


 40%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                             | 19/48 [08:04<12:18, 25.46s/it]

LLM Answer : The contextRef used for 3M Co in the FY 2023 is c-11. The XBRL tag for Inventory is us-g
True Answer: us-gaap:InventoryNet
19121


 42%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                        | 20/48 [08:31<12:04, 25.88s/it]

LLM Answer : The final answer is us-gaap:Goodwill. The US GAAP XBRL tag for Goodwill as used by Caterpillar Inc
True Answer: us-gaap:Goodwill
19228


 44%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                                                   | 21/48 [08:58<11:48, 26.24s/it]

LLM Answer : The final answer is: us-gaap:GrossProfit.  ``` The US GAAP XBRL tag for Gross Profit as used
True Answer: us-gaap:GrossProfit
19221


 46%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                              | 22/48 [09:25<11:28, 26.48s/it]

LLM Answer : us-gaap:OperatingIncomeLoss. Note: The answer is based on the provided XBRL file, which includes the tag "us-g
True Answer: us-gaap:OperatingIncomeLoss
9061


 48%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 23/48 [09:37<09:13, 22.14s/it]

LLM Answer : Let me analyze the XBRL file for you.The US GAAP XBRL tag for Total Assets is: us-gaap:Assets.
True Answer: us-gaap:Assets
12912


 50%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                     | 24/48 [09:54<08:16, 20.67s/it]

LLM Answer : us-gaap:StockholdersEquityIncludingPortionAttributableToNoncontrollingInterest. Note: The answer is the tag itself,
True Answer: us-gaap:StockholdersEquityIncludingPortionAttributableToNoncontrollingInterest
2887


 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 25/48 [09:59<06:03, 15.80s/it]

LLM Answer : Since there is no context information provided, I cannot accurately answer the question. The context information typically includes details such as the company name, fiscal year
True Answer: us-gaap:CommonStockValue
23281


 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 26/48 [10:32<07:45, 21.17s/it]

LLM Answer : us-gaap:Goodwill ```The final answer is: us-gaap:Goodwill. ```The final answer
True Answer: us-gaap:Goodwill
22924


 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 27/48 [11:06<08:40, 24.81s/it]

LLM Answer : us-gaap:NetCashProvidedByUsedInFinancingActivities. Note: The answer is based on the provided XBRL file and question
True Answer: us-gaap:NetCashProvidedByUsedInFinancingActivities
3650


 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 28/48 [11:11<06:19, 18.96s/it]

LLM Answer : The context of the XBRL file indicates that it is related to Home Depot Inc and the Fiscal Year ending in FY 2023. The US
True Answer: us-gaap:AssetsCurrent
16719


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 29/48 [11:34<06:22, 20.14s/it]

LLM Answer : The contextRef="c-10" indicates that the information is related to the fiscal year 2023. To find the XBRL tag for
True Answer: us-gaap:LiabilitiesCurrent
18767


 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 30/48 [12:00<06:34, 21.93s/it]

LLM Answer : The XBRL tag for Operating Expenses is us-gaap:OperatingExpenses. Note: The contextRef is c-1 which is
True Answer: us-gaap:SellingGeneralAndAdministrativeExpense
21690


 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 31/48 [12:31<06:59, 24.68s/it]

LLM Answer : us-gaap:NetCashProvidedByUsedInInvestingActivities. Explanation: The XBRL tag for Cash Flow for Investing Activities is us
True Answer: us-gaap:NetCashProvidedByUsedInInvestingActivities
24000


 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 32/48 [13:06<07:25, 27.82s/it]

LLM Answer : us-gaap:AccountsReceivableNetCurrent. Note: This answer is based on the context provided in the XBRL file. Please
True Answer: us-gaap:AccountsReceivableNetCurrent
10926


 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 33/48 [13:21<05:57, 23.82s/it]

LLM Answer : us-gaap:Assets. Note that the answer is the same as the example answer. However, the question is different. The example answer
True Answer: us-gaap:Assets
12912


 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 34/48 [13:38<05:05, 21.85s/it]

LLM Answer : us-gaap:LiabilitiesCurrent. Note: The tag may vary based on the company and the fiscal period, but in this case,
True Answer: us-gaap:LiabilitiesCurrent
23257


 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 35/48 [14:12<05:30, 25.40s/it]

LLM Answer : The final answer is us-gaap:LiabilitiesCurrent. I am an XBRL assistant and I will help you with any questions you
True Answer: us-gaap:LiabilitiesCurrent
5847


 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 36/48 [14:20<04:01, 20.15s/it]

LLM Answer : The provided XBRL file does not contain any relevant information about Microsoft Corp or any other company, including their fiscal periods. The file only contains repeated
True Answer: us-gaap:Liabilities
13604


 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 37/48 [14:38<03:35, 19.60s/it]

LLM Answer : The XBRL tag that corresponds to Retained Earnings for American Express Co for the fiscal period concluding in FY 2023 is us-ga
True Answer: us-gaap:RetainedEarningsAccumulatedDeficit
20752


 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 38/48 [15:07<03:45, 22.60s/it]

LLM Answer : us-gaap:GrossProfit. Note that this is a very concise answer, as requested. In this question, the answer is
True Answer: us-gaap:GrossProfit
17125


 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 39/48 [15:31<03:26, 22.91s/it]

LLM Answer : us-gaap:PropertyPlantAndEquipmentGross. Note: The contextRef="c-9" is used to specify the fiscal year
True Answer: us-gaap:PropertyPlantAndEquipmentNet
7919


 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 40/48 [15:42<02:33, 19.18s/it]

LLM Answer : ```python# Given XBRL context and questioncontext = {    "id": "C_da7a1266-ce2b-
True Answer: us-gaap:CostOfGoodsAndServicesSold
23437


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 41/48 [16:16<02:45, 23.70s/it]

LLM Answer : us-gaap:LiabilitiesCurrent. Note: the answer is based on the provided XBRL file. Please let me know if you need
True Answer: us-gaap:LiabilitiesCurrent
4754


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 42/48 [16:22<01:51, 18.56s/it]

LLM Answer : As there are 101 contextRef in the file, you can't determine the answer based on the information provided. However, if you provide the
True Answer: us-gaap:AccountsReceivableNetCurrent
15310


 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 43/48 [16:43<01:36, 19.24s/it]

LLM Answer : us-gaap:RetainedEarningsAccumulatedDeficit. Note: The provided XBRL file contains a large amount of data and
True Answer: us-gaap:RetainedEarningsAccumulatedDeficit
18771


 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 44/48 [17:09<01:25, 21.31s/it]

LLM Answer : us-gaap:RevenueFromContractsWithCustomers  (Note: The correct answer is based on the provided XBRL data, the tag might be
True Answer: us-gaap:Revenues
10931


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 45/48 [17:24<00:57, 19.27s/it]

LLM Answer : us-gaap:CommonStockValue. Note that the contextRef is c-11. The contextRef is c-11, which
True Answer: us-gaap:CommonStockValue
15569


 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 46/48 [17:45<00:39, 19.85s/it]

LLM Answer : The contextRef is c-70. The tag for Total Equity is stockholdersEquity. The correct US GAAP XBRL tag is:
True Answer: us-gaap:StockholdersEquityIncludingPortionAttributableToNoncontrollingInterest
19681


 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 47/48 [18:13<00:22, 22.18s/it]

LLM Answer : us-gaap:OperatingIncomeLoss. Explanation: The tag is obtained by analyzing the XBRL file provided. The tag for Operating Income Loss
True Answer: us-gaap:OperatingIncomeLoss
16722


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [18:36<00:00, 23.25s/it]

LLM Answer : ```markdownus-gaap:AssetsCurrent``` The final answer is: us-gaap:AssetsCurrent. ```markdown
True Answer: us-gaap:AssetsCurrent

Overall Accuracy: 58.33%



