In [27]:
import json
import random
from datasets import load_dataset
from pathlib import Path

In [2]:
dataset = load_dataset(
  path="shunk031/JDocQA", 
  # Rename to the same wording as in the paper: Document -> Report / Kouhou -> Pamphlet
  rename_pdf_category=True,
  # Set to True to use loading script for huggingface datasets
  trust_remote_code=True,
)

In [3]:
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['answer', 'answer_type', 'context', 'multiple_select_answer', 'multiple_select_question', 'no_reason', 'normalized_answer', 'original_answer', 'original_context', 'original_question', 'pdf_category', 'pdf_name', 'question', 'question_number', 'question_page_number', 'reason_of_answer_bbox', 'text_from_ocr_pdf', 'text_from_pdf', 'type_of_image', 'pdf_filepath'],
        num_rows: 9290
    })
    validation: Dataset({
        features: ['answer', 'answer_type', 'context', 'multiple_select_answer', 'multiple_select_question', 'no_reason', 'normalized_answer', 'original_answer', 'original_context', 'original_question', 'pdf_category', 'pdf_name', 'question', 'question_number', 'question_page_number', 'reason_of_answer_bbox', 'text_from_ocr_pdf', 'text_from_pdf', 'type_of_image', 'pdf_filepath'],
        num_rows: 1134
    })
    test: Dataset({
        features: ['answer', 'answer_type', 'context', 'multiple_select_answer', 'multiple_se

In [4]:
print(dataset["train"])

Dataset({
    features: ['answer', 'answer_type', 'context', 'multiple_select_answer', 'multiple_select_question', 'no_reason', 'normalized_answer', 'original_answer', 'original_context', 'original_question', 'pdf_category', 'pdf_name', 'question', 'question_number', 'question_page_number', 'reason_of_answer_bbox', 'text_from_ocr_pdf', 'text_from_pdf', 'type_of_image', 'pdf_filepath'],
    num_rows: 9290
})


In [22]:
print(json.dumps(dataset["train"][14], indent=4, ensure_ascii=False))

{
    "answer": "本文中に記載がありません",
    "answer_type": 1,
    "context": "平成19年度から|ラwapら和のさンノ税源移議))271へ税制改正により、平成19年度分の住民税(個人市民税と個人県民税を合わーーせたもの)が一部改正されます。平成19年度分の住民税とは、平成18年中の所得により計算され、平成19年6<照会先>月から納めていただくものです。税務課玉23一88931.所得税から住民税へ「地方にできることは地方に」という方針のもと、地方分権の推進のたにンーっ=めに三位一体改革の一環として、所得税(国)から個人住民税(地方)税源移譲への税源移譲が行われます。(1)税率が変更になります@住民税の税率が、3段階から一律10%(市民税6%・県民税4%)に変わります。(平成19年6月分から適用)@所得税の税率は、4段階から6段階に細分化されます。(平成19年1月分から適用)@所得税は減少、住民税は増加となりますが、税源の移し替えなので「所得税+住民税」の負担額は基本的には変わりません。税源移譲前誠にととう課税所得課税所得民|200万円超ご700万円以下ー律(市民税6%)|am|叶UN330万円超900万円以下195万円超330万円以下900万円超1.800万円以下330万円超こ695万円以下G95遇人ご907290|900万円超1800万円以下(例)夫婦二子ども2人の場合II税源移譲前(単位:円)税源移譲後(単位:円)負担PIA|mWRMWamm||mmlswl議|0|wolwol王|emEDsm※1子どものうち1人は特定扶養親族に該当するものとしています。※2一定の社会保険料が控除されるものとして計算しています。※3住民税には、均等割は含まれていません。※4税源移譲前の所得税および住民税は、定率減税額を差し引く前の金額となっています。2007.2.15広報世き4",
    "multiple_select_answer": 3,
    "multiple_select_question": [
        "なし。",
        "あります。",
        "男性のみ。",
        "わからない。"
    ],
    "no_reason": 0,
    "normaliz

In [6]:
print(dataset["train"][0].keys())

dict_keys(['answer', 'answer_type', 'context', 'multiple_select_answer', 'multiple_select_question', 'no_reason', 'normalized_answer', 'original_answer', 'original_context', 'original_question', 'pdf_category', 'pdf_name', 'question', 'question_number', 'question_page_number', 'reason_of_answer_bbox', 'text_from_ocr_pdf', 'text_from_pdf', 'type_of_image', 'pdf_filepath'])


In [29]:
ocr_instructions = [
    "テキストを抽出してください。",
    "文字を認識して、テキストファイルに変換してください。",
    "OCR処理を実行してください。",
    "読み取ったテキストを表示してください。",
    "文字情報を取得してください。",
    "テキストを読み取ってください。",
    "OCRして、文字データを抽出してください。",
    "文字を認識し、テキストデータに変換してください。",
    "OCR解析を行い、テキストを取得してください。",
    "文字を検出し、テキスト化してください。",
    "文字情報を読み取ってください。",
    "テキストデータを生成してください。",
    "OCRを実行して、文字を取得してください。",
    "認識されたテキストを表示してください。",
    "文字認識を行ってください。",
    "文字を抽出して、テキストに変換してください。",
    "OCR技術を使ってテキストを取得してください。",
    "文字を読み取ってテキストデータにしてください。",
    "テキストを解析して取得してください。",
    "OCR処理で文字を認識してください。",
    "文字を読み取ってテキスト化してください。",
    "文字情報をテキストデータに変換してください。",
    "OCR解析でテキストを抽出してください。",
    "文字認識を行い、テキストファイルを作成してください。",
    "OCR技術で文字情報を抽出してください。",
    "文字を認識して、テキスト形式に変換してください。",
    "OCRを使用して文字データを取得してください。",
    "テキスト認識を実行してください。",
    "文字情報を読み取ってテキスト化してください。",
    "OCR処理を行い、テキストデータを生成してください。",
]

In [23]:
def create_llava_format(data):
    llava_format = {}
    conversations = []

    conversation_user = {
        'from': 'ユーザー',
        'value': f'{data["question"]}\n<image>'
    }

    conversation_system = {
        'from': 'システム',
        'value': data["original_answer"]
    }
    conversations.append(conversation_user)
    conversations.append(conversation_system)

    pdf_path = Path(data["pdf_filepath"])
    
    llava_format['image'] = f"{pdf_path.stem + '_' + data['question_page_number']}.jpg"
    llava_format['conversations'] = conversations

    #print(llava_format)

    return llava_format

In [31]:
llava_formats = []

# VQA
for data in dataset["train"]:
    llava_formats.append(create_llava_format(data))

# OCR
for data in dataset["train"]:
    data["question"] = random.choice(ocr_instructions)

    if data["text_from_ocr_pdf"] != "" and data["text_from_ocr_pdf"] is not None:
        data["original_answer"] = data["text_from_ocr_pdf"]

        llava_formats.append(create_llava_format(data))

print(len(llava_formats))

caption_path = Path('.', 'jdocqa.json')

with open(caption_path, mode="w") as f:
    json.dump(llava_formats, f, indent=2, ensure_ascii=False)

18504
