In [17]:
# FinShibainu MCQA

from datasets import load_dataset
import pandas as pd

ds = load_dataset("aiqwe/FinShibainu", "mcqa")
df = pd.DataFrame(ds['train'])

def convert_options_to_numbers(options_list):
    converted = []
    for i, option in enumerate(options_list):
        number = str(i + 1)
        if option.startswith(chr(65 + i) + "."):  # ASCII
            converted_option = number + "." + option[2:]
        else:
            converted_option = number + ". " + option
        converted.append(converted_option)
    return converted

df["options"] = df["options"].apply(convert_options_to_numbers)
df["Question"] = df["question"] + "\n" + df["options"].apply(lambda x: "\n".join(x))

answer_mapping = {"A": "1", "B": "2", "C": "3", "D": "4"}
df["Answer"] = "답변: " + df["answer"].map(answer_mapping)

df = df[["Question", "Answer"]]
df.to_csv('../data/FinShibainu/mcqa.csv', index=False)

In [18]:
df

Unnamed: 0,Question,Answer
0,다음 중 고객에게 AMA를 선택할 만한 이유로 적절치 않은 것은?\n1. 기존 대출...,답변: 1
1,ELW(주식워런트증권)의 손실이 주식 투자에 비해 제한적인 이유는 무엇인가?\n1....,답변: 4
2,CPM의 'Mille'이라는 용어는 어떤 언어에서 유래되었는가?\n1. 영어\n2....,답변: 3
3,행동금융학의 주된 목적은 무엇인가?\n1. 투자에서의 수익을 최대화하는 법을 찾는다...,답변: 4
4,다음 중 FEOGA의 자금 지원 분야로 적합한 것은 무엇인가?\n1. 회원국들의 농...,답변: 1
...,...,...
42458,"한 투자자가 JPY에 대한 콜옵션을 보유 중이며, 델타가 0.93으로 나타났습니다....",답변: 3
42459,왜 스왑의 고정 금리가 높을수록 DV01이 높아지는 것일까요?\n1. DV01은 스...,답변: 3
42460,다음은 S&P 500의 일일 수익률을 토대로 한 가설 검정에 관련된 문제입니다. 귀...,답변: 3
42461,"Alice가 Bob에게 대출하는 경우, 이자율 R을 도출하기 위한 기본 정보는 무엇...",


In [19]:
# FinShibainu QA

from datasets import load_dataset
import pandas as pd
import numpy as np

ds = load_dataset("aiqwe/FinShibainu", "qa")
df = pd.DataFrame(ds['train'])

df["Question"] = df["question"]
df["Answer"] = "답변: " + np.where(df['preference'] == 'A', df['answer_A'], df['answer_B'])

df = df[["Question", "Answer"]]
df.to_csv('../data/FinShibainu/qa.csv', index=False)

In [20]:
df

Unnamed: 0,Question,Answer
0,"가계부문의 순저축률을 측정하는 공식을 적고, 각 항목이 의미하는 바를 설명하시오.",답변: 가계부문의 순저축률은 가계가 얼마나 저축하고 있는지를 나타내는 중요한 경제 ...
1,"로보어드바이저가 가지고 있는 장점은 무엇이며, 특히 소액 자산가에게 어떤 이점을 제...",답변: 로보어드바이저는 인공지능과 알고리즘을 활용하여 투자 포트폴리오를 관리하는 자...
2,로보어드바이저의 의미와 그 서비스가 어떻게 제공되는지 설명하세요.,답변: 로보어드바이저(Robo-Advisor)는 인공지능(AI) 및 알고리즘을 기반...
3,"경상수지와 재정수지의 차이점에 대해 설명하고, 각각이 경제에 미치는 영향을 서술하시오.",답변: 경상수지(Current Account)와 재정수지(Fiscal Balance...
4,표면이율이 낮은 채권이 매매수익률 대비 높은 세후수익률을 얻는 이유는 무엇인가?,답변: 채권 투자에서 표면이율(Coupon Rate)과 매매수익률(Yield to ...
...,...,...
44865,사일로 현상으로 인해 발생할 수 있는 실질적인 문제는 무엇인가요?,답변: 사일로 현상(Silo Effect)은 조직 내의 여러 부서 또는 팀들이 서로...
44866,사적재 시장에서 가격 결정의 기제를 설명해주세요.,답변: 사적재 시장에서 가격 결정의 기제는 수요와 공급의 상호작용을 기반으로 합니다...
44867,리저브트랑쉐는 무엇을 의미하나요?,답변: 리저브트랑쉐(Reserve Tranche)라는 용어는 주로 국제 금융 및 통...
44868,이중과세방지협정 없는 경우 기업에 미치는 재정적 영향은?,답변: 이중과세방지협정(소득세 관련 조세조약)이 없는 경우에는 기업이 해외에서 발생...


In [94]:
# CyberMetric MCQA (ENG)

import json
import requests
import pandas as pd

url = "https://raw.githubusercontent.com/cybermetric/CyberMetric/main/CyberMetric-10000-v1.json"
response = requests.get(url)
data = response.json()

df = pd.DataFrame(data["questions"])

def convert_dict_answers_to_numbers(answers_dict):
    number_mapping = {"A": "1", "B": "2", "C": "3", "D": "4"}
    converted = []
    for key, value in answers_dict.items():
        if key in number_mapping:
            converted.append(f"{number_mapping[key]}. {value}")
        else:
            converted.append(f"{len(converted)+1}. {value}")
    return "\n".join(converted)

df["Question"] = df["question"] + "\n" + df["answers"].apply(convert_dict_answers_to_numbers)

answer_mapping = {"A": "1", "B": "2", "C": "3", "D": "4"}
df["Answer"] = "답변: " + df["solution"].map(answer_mapping)

df = df[["Question", "Answer"]]
df.to_csv('../data/CyberMetric/mcqa_org.csv', index=False)

In [73]:
df

Unnamed: 0,Question,Answer
0,Which of the following refers to the secrecy o...,답변: 4
1,Which type of authentication uses multiple fac...,답변: 3
2,What does TOE stand for?\n1. Target of evaluat...,답변: 1
3,What is the method by which systems verify tha...,답변: 4
4,Which term refers to the measure of informatio...,답변: 2
...,...,...
10175,Which of the following is a best practice for ...,답변: 4
10176,What is the purpose of encryption in the conte...,답변: 1
10177,What is the significance of implementing multi...,답변: 4
10178,Which of the following is an example of a soci...,답변: 3


In [95]:
# SecBench MCQA (ENG, CHN)

import pandas as pd

url = "https://raw.githubusercontent.com/secbench-git/SecBench/main/data/MCQs_2730.jsonl"
df = pd.read_json(url, lines=True)

def convert_list_answers_to_numbers(answers_list):
    converted = []
    for i, answer in enumerate(answers_list):
        converted.append(f"{i+1}. {answer}")
    return "\n".join(converted)

df["Question"] = df["question"] + "\n" + df["answers"].apply(convert_list_answers_to_numbers)

answer_mapping = {"A": "1", "B": "2", "C": "3", "D": "4"}
df["Answer"] = "답변: " + df["label"].map(answer_mapping)

df = df[["Question", "Answer"]]
df.to_csv('../data/SecBench/mcqa_org.csv', index=False)

In [89]:
df

Unnamed: 0,Question,Answer
0,以下哪种措施是企业为了遵守数据保护法规，通常会实施的？\n1. 定期进行网络渗透测试\n2....,답변: 2
1,关于个人数据的权益，根据GDPR，数据主体有权：\n1. 随时要求访问、更正或删除他们的个人...,답변: 1
2,根据《中华人民共和国数据安全法》，数据处理者在进行数据处理活动时，应当遵循的首要原则是什么？...,답변: 3
3,Which of the following outlined how senior man...,답변: 2
4,根据《个人信息保护法》，以下哪种措施是处理个人信息时必须遵循的原则以保护用户隐私权？\n1....,답변: 1
...,...,...
2725,在制定移动端安全策略时，以下哪项措施最有助于防止数据泄露？\n1. 定期进行漏洞扫描\n2....,답변: 3
2726,在保护主机免受网络攻击时，入侵检测系统（IDS）的主要作用是什么？\n1. 防止未经授权的网...,답변: 3
2727,在文件系统安全机制中，以下哪种技术用于确保文件内容的机密性？\n1. 访问控制列表（ACL）...,답변: 2
2728,What is the purpose of social engineering in p...,답변: 2


In [96]:
# SecBench QA (ENG, CHN)

import pandas as pd

url = "https://raw.githubusercontent.com/secbench-git/SecBench/main/data/SAQs_270.jsonl"
df = pd.read_json(url, lines=True)

df["Question"] = df["question"]
df["Answer"] = df["answer"]

df = df[["Question", "Answer"]]
df.to_csv('../data/SecBench/qa_org.csv', index=False)

In [92]:
df

Unnamed: 0,Question,Answer
0,为什么现代操作系统的IP ID通常是随机产生的？,为了提高安全性，防止某些类型的网络攻击。
1,ECA技术如何帮助企业保护其网络免受内部威胁？,ECA技术通过分析内部网络流量的特征，可以识别异常行为和潜在的内部威胁，从而帮助企业加强内部...
2,在Nmap中，如何设置探测帧最长时间间隔？,--max-scan-delay <time>
3,讨论SSL\\/TLS协议中著名的安全漏洞，如BEAST和POODLE，解释这些漏洞是如何产...,**BEAST（Browser Exploit Against SSL\\/TLS）**\n...
4,IPSG如何帮助防止信息泄露？,通过确保只有经过验证的主机能够访问网络，IPSG有助于防止未经授权的数据访问和信息泄露。
...,...,...
265,在区块链技术中，如何利用零知识证明来增强交易隐私，同时保持交易的可验证性？请解释这种技术如何...,零知识证明在区块链中用于增强交易隐私的方式是，允许一方证明他们拥有某个账户的余额或有权进行交...
266,在Linux系统中，描述一个实际的权限提升漏洞（例如：CVE-2019-18634）并解释其...,CVE-2019-18634是一个影响Linux系统的权限提升漏洞，它与`ptrace`系统...
267,在PHP中，使用双引号和单引号定义字符串有什么区别？,在PHP中，使用双引号定义的字符串会解析其中的变量，而使用单引号定义的字符串则被视为纯字符串...
268,PHP有哪几种解析标签的写法来标识PHP代码？,"PHP有三种解析标签的写法，分别是'<?php ?>', '<script language..."


In [97]:
# law (QA Generation needed)

import json
import requests

with open('../data/law/selected_laws.json', 'r') as f:
    data = json.load(f)
df = pd.DataFrame(data)

for i in range(1):
    url = f"http://www.law.go.kr/DRF/lawService.do?OC=bhc5754&target=law&MST={df['법령MST'][i]}&type=JSON"
    response = requests.get(url)


In [100]:
response.text[:1000]

'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\r\n<html xmlns="http://www.w3.org/1999/xhtml" lang="ko" xml:lang="ko">\r\n<head>\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge">      \r\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8">  \r\n<link rel="stylesheet" type="text/css" href="/DRF/css/common.css">\r\n<script type="text/javascript" src="/DRF/js/common/jquery/jquery.js"></script>\r\n\t<script type="text/javascript" src="/DRF/js/common/jquery/jquery.form.js"></script>\r\n\t<script type="text/javascript" src="/DRF/js/ext/adapter/ext/ext-base.js"></script>\r\n\t<script type="text/javascript" src="/DRF/js/ext/ext-all.js"></script>\r\n\t<script type="text/javascript" src="/DRF/js/common.js"></script>\r\n\t<script type="text/javascript" src="/DRF/js/common-ex.js"></script>\r\n\t<script type="text/javascript" src="/DRF/js/CookieUtil.js"></script>\r\n<title>국가법령정보 공동활용</title>\r\n</head