# Preparing Data for BEIR Evaluation

## Load corpus, queries, and mapping (qrels)

### SB QNA Example

In [1]:
import json

In [None]:
with open("/home/jinho/softbank_rag/dataset/sb_full_train_answer_to_questions.json", "r") as f:
    sb_full = json.load(f)

In [21]:
corpus_len = len(sb_full)
corpus_len

1701

In [None]:
corpus = list(sb_full.keys())

In [15]:
queries = []
query_to_corpus = {}
for c in sb_full:
    for q in sb_full[c]:
        if q not in queries:
            queries.append(q)
            query_to_corpus[q] = c

In [22]:
query_len = len(queries)
query_len

10607

In [24]:
qrels_len = len(query_to_corpus)
assert qrels_len == query_len

### Telsa Manual Example

In [3]:
import json

In [5]:
with open("/home/jinho/tesla_rag/data/tesla_v0_0114/full_data_10k.json", "r") as f:
    tesla_full = json.load(f)

In [7]:
corpus_len = len(tesla_full)
corpus_len

548

In [8]:
corpus = list(tesla_full.keys())

In [9]:
queries = []
query_to_corpus = {}
for c in tesla_full:
    for q in tesla_full[c]:
        if q not in queries:
            queries.append(q)
            query_to_corpus[q] = c

In [10]:
query_len = len(queries)
query_len

10782

In [11]:
qrels_len = len(query_to_corpus)
assert qrels_len == query_len

## Transform dataset into corresponding formats

In [12]:
queries_l = []
query_to_id = {}
for i in range(len(queries)):
    qid = str(i)
    queries_l.append({"id": qid, "text": queries[i]})
    query_to_id[queries[i]] = qid

In [13]:
queries_l

[{'id': '0',
  'text': 'What do I need to know about the exterior lights on my car?'},
 {'id': '1',
  'text': 'Do the driver and passenger dome lights work the same way?'},
 {'id': '3', 'text': 'Where can I find the horn in the car?'},
 {'id': '4',
  'text': 'Is there a special way to activate the turn signal stalk for high beam headlights?'},
 {'id': '5',
  'text': 'Can you tell me more about how the rear view camera works?'},
 {'id': '6',
  'text': 'What part of the car has the radar sensor, and is it visible?'},
 {'id': '7', 'text': 'How do I operate the power window switches?'},
 {'id': '8',
  'text': 'What options do I have when using the touch screen in the car?'},
 {'id': '9',
  'text': 'Explain how the door open button functions from the interior.'},
 {'id': '10',
  'text': 'Is there anything special about the exterior mirrors I should know?'},
 {'id': '11', 'text': 'How do I manually release the interior door handle?'},
 {'id': '12',
  'text': 'If my car is equipped with the r

In [14]:
assert len(queries_l) == query_len

In [15]:
import math

In [16]:
add_factor = 10 ** math.ceil(math.log10(len(queries)))
add_factor

100000

In [17]:
corpus_l = []
corpus_to_id = {}
for i in range(len(corpus)):
    docid = str(add_factor + i)
    corpus_l.append({"id": docid, "title": "", "text": corpus[i]})
    corpus_to_id[corpus[i]] = docid

In [18]:
corpus_l

[{'id': '100000',
  'title': '',
 {'id': '100001',
  'title': '',
  'text': "Manual door release (Opening Doors from the Interior on page 25)\n13. Left scroll button (Scroll Buttons on page 66)\n14. Brake pedal (Braking and Stopping on page 76)\n15. Accelerator pedal (Regenerative Braking on page 77)\n16. Right scroll button (Scroll Buttons on page 66)\n17. Center console (Interior Electronics on page 9)\n18. Glovebox (Glovebox on page 32)\nInterior\n4\nMODEL Y Owner's Manual"},
 {'id': '100002',
  'title': '',
 {'id': '100003',
  'title': '',
  'text': "When full self-driving is enabled (if equipped), the car status area displays visualizations of the road and your vehicle's \nsurroundings. You can expand/condense the visualization by dragging the car status area from side to side. Expanding the \nvisualization displays more details about the roadway and its surroundings, including road markings, stop lights, and \nobjects (such as trash cans and poles).\n4. Controls: Control various 

In [19]:
assert len(corpus_l) == len(corpus)

In [20]:
qrels_l = []
for q in queries:
    c = query_to_corpus[q]
    qid = query_to_id[q]
    docid = corpus_to_id[c]
    qrels_l.append({"qid": qid, "docid": docid, "relevance": 1})

In [21]:
qrels_l

[{'qid': '0', 'docid': '100000', 'relevance': 1},
 {'qid': '1', 'docid': '100000', 'relevance': 1},
 {'qid': '2', 'docid': '100000', 'relevance': 1},
 {'qid': '3', 'docid': '100000', 'relevance': 1},
 {'qid': '4', 'docid': '100000', 'relevance': 1},
 {'qid': '5', 'docid': '100000', 'relevance': 1},
 {'qid': '6', 'docid': '100000', 'relevance': 1},
 {'qid': '7', 'docid': '100000', 'relevance': 1},
 {'qid': '8', 'docid': '100000', 'relevance': 1},
 {'qid': '9', 'docid': '100000', 'relevance': 1},
 {'qid': '10', 'docid': '100000', 'relevance': 1},
 {'qid': '11', 'docid': '100000', 'relevance': 1},
 {'qid': '12', 'docid': '100000', 'relevance': 1},
 {'qid': '13', 'docid': '100000', 'relevance': 1},
 {'qid': '14', 'docid': '100000', 'relevance': 1},
 {'qid': '15', 'docid': '100000', 'relevance': 1},
 {'qid': '16', 'docid': '100000', 'relevance': 1},
 {'qid': '17', 'docid': '100000', 'relevance': 1},
 {'qid': '18', 'docid': '100000', 'relevance': 1},
 {'qid': '19', 'docid': '100000', 'releva

In [22]:
assert len(qrels_l) == len(queries)

## Export

In [23]:
DATA_DIR = "/home/jinho/FlagEmbedding_Aizip/dataset/tesla_manual"

In [26]:
import os

# Create directory if it doesn't exist
if not os.path.exists(DATA_DIR):
    os.makedirs(DATA_DIR)


In [27]:
with open(f"{DATA_DIR}/test_queries.jsonl", "w") as f:
    for record in queries_l:
        f.write(json.dumps(record) + '\n')

In [28]:
with open(f"{DATA_DIR}/test_qrels.jsonl", "w") as f:
    for record in qrels_l:
        f.write(json.dumps(record) + '\n')

In [29]:
with open(f"{DATA_DIR}/corpus.jsonl", "w") as f:
    for record in corpus_l:
        f.write(json.dumps(record) + '\n')

Make sure to add the dataset name to /home/jinho/FlagEmbedding_Aizip/FlagEmbedding_Aizip/evaluation/beir/data_loader.py

## (For Japanese) Create a split version

In [53]:
from sudachipy import tokenizer
from sudachipy import dictionary

In [54]:
mode = tokenizer.Tokenizer.SplitMode.B

In [55]:
tokenizer_obj = dictionary.Dictionary().create()

In [57]:
corpus_l[0]['text']

'Slackのゲストアカウントの有効期限が切れた（解除済みアカウント）場合は、ゲスト管理システムからゲスト新規登録申請と利用サービス登録申請を実施下さい。\n※ゲスト登録が有効期限内の場合は、マイゲスト一覧から利用サービス登録申請のみ実施下さい\n申請方法は下記手順を参照下さい。\n\n・【ゲスト管理システム】マニュアル-申請者向け\nhttps://docs.google.com/presentation/d/1Z0PUkjNUr9r2GCq5ZEEddd5jPUJg48kPMsCxv5Mtw_M/edit#slide=id.g1287222f34d_1_61\n\n申請の上長承認後、5営業日以内にアカウントが有効化されます。\n有効化完了後は下記メールが送信されますので、メールを確認次第、必要なチャンネルにゲストを招待して下さい。\n※ゲストをチャンネルに招待する際はメールアドレスではなくSlack上の氏名で検索下さい\n件名：【ゲスト管理】利用サービスプロビジョニングエラー対応完了通知\n\n■お問合せ先\n・OA Support Net\n\u3000http://oa.bb.local/oasupport/inquiry_web\n\u3000（投稿カテゴリ：Slack）'

In [73]:
def split_text(input_dic):
    new_dic = input_dic.copy()
    split_t = ' '.join([m.surface() for m in tokenizer_obj.tokenize(input_dic['text'], mode)])
    new_dic['text'] = split_t
    return new_dic 

In [104]:
split_queries_l = [split_text(q) for q in queries_l]

In [105]:
split_queries_l

[{'id': '0', 'text': 'ゲスト の アカウント の 有効 期限 が 切れ た 場合 の 対応 方法 を 教え て 欲しい'},
 {'id': '1', 'text': 'ゲスト の アカウント の 有効 期限 が 切れ て いる'},
 {'id': '2', 'text': 'ゲスト アカウント の 有効 期限 が 切れ た の で 、 再度 、 有効 に し て 欲しい'},
 {'id': '3', 'text': 'ゲスト アカウント の 有効 期限 を 再度 有効 に し たい'},
 {'id': '4', 'text': 'WHC に つい て 問い合わせ し たい'},
 {'id': '5', 'text': 'WHC の 工数 入力 に つい て 教え て ほしい'},
 {'id': '6', 'text': 'Trinity ( WHC ) の アドレス を 教え て ください 。'},
 {'id': '7', 'text': 'WHC 申請 方法 を 教え て 欲しい'},
 {'id': '8', 'text': 'WHC の 申請 を し たい'},
 {'id': '9', 'text': 'WHC の 申請 方法 を 確認 し たい'},
 {'id': '10', 'text': '研修 は WHC に どの よう に 登録 すれ ば よい か ？'},
 {'id': '11', 'text': 'WHC は どの よう に 申請 し たら いい でしょう か ？'},
 {'id': '12', 'text': 'WHC に つい て'},
 {'id': '13', 'text': 'WHC に つい て 問い合わせ し たい 。'},
 {'id': '14', 'text': 'Chrome の 動作 が おかしい の で 再 インストール し たい'},
 {'id': '15', 'text': '準 OAPC で GoogleChrome が 起動 し なく なり まし た'},
 {'id': '16', 'text': 'Chrome を ダウン グレード し たい'},
 {'id': '17', 'text': 'Chrome の 再 インストール 方法 が 知り たい'},
 {'

In [106]:
split_corpus_l = [split_text(c) for c in corpus_l]

In [107]:
split_corpus_l

[{'id': '100000',
  'title': '',
  'text': 'Slack の ゲスト アカウント の 有効 期限 が 切れ た （ 解除 済み アカウント ） 場合 は 、 ゲスト 管理 システム から ゲスト 新規 登録 申請 と 利用 サービス 登録 申請 を 実施 下さい 。 \n ※ ゲスト 登録 が 有効 期限内 の 場合 は 、 マイゲスト 一覧 から 利用 サービス 登録 申請 のみ 実施 下さい \n 申請 方法 は 下記 手順 を 参照 下さい 。 \n\n ・ 【 ゲスト 管理 システム 】 マニュアル - 申請者 向け \n https : / / docs . google . com / presentation / d / 1 Z 0 PUkjNUr 9 r 2 GCq 5 ZEEddd 5 jPUJg 48 kPMsCxv 5 Mtw _ M / edit # slide = id . g 1287222 f 34 d _ 1 _ 61 \n\n 申請 の 上長 承認 後 、 5 営業日 以内 に アカウント が 有効 化 さ れ ます 。 \n 有効 化 完了 後 は 下記 メール が 送信 さ れ ます の で 、 メール を 確認 次第 、 必要 な チャンネル に ゲスト を 招待 し て 下さい 。 \n ※ ゲスト を チャンネル に 招待 する 際 は メール アドレス で は なく Slack 上 の 氏名 で 検索 下さい \n 件名 ： 【 ゲスト 管理 】 利用 サービスプロビジョニングエラー 対応 完了 通知 \n\n ■ お 問合せ先 \n ・ OA   Support   Net \n\u3000 http:// oa . bb . local / oasupport / inquiry _ web \n\u3000 （ 投稿 カテゴリ ： Slack ）'},
 {'id': '100001',
  'title': '',
  'text': 'WHC の 問合せ に つい て は 、 OA サポート デスク で は サポート 対象外 と なり ます 。 \n 下記 窓口 が 担当 か と 思わ れ ます の で 、 直接 問合せ 願い ます 。 \n\n ・ ＩＴ 部門 （ Ｗ

In [108]:
SPLIT_DATA_DIR = "/home/jinho/FlagEmbedding_Aizip/dataset/sudachi_split_b/sb_qna"

In [109]:
with open(f"{SPLIT_DATA_DIR}/test_queries.jsonl", "w") as f:
    for record in split_queries_l:
        f.write(json.dumps(record) + '\n')

In [110]:
with open(f"{SPLIT_DATA_DIR}/corpus.jsonl", "w") as f:
    for record in split_corpus_l:
        f.write(json.dumps(record) + '\n')

In [111]:
with open(f"{SPLIT_DATA_DIR}/test_qrels.jsonl", "w") as f:
    for record in qrels_l:
        f.write(json.dumps(record) + '\n')