# convert xlsx -> json

In [None]:
# 1_one

import pandas as pd
import json
import os

# .xlsx 파일 불러오기
file_path = os.path.join(os.getcwd(),"data","1_one", "Number_factor_AO_sub-corpus.xlsx")
json_file_path = os.path.join(os.getcwd(), "preprocessing", "1_one", "Number_factor_AO_sub-corpus.json")

df = pd.read_excel(file_path)

# 필요한 열만 선택 (1, 2, 3, 7, 10, 13, 14)
df_selected = df.iloc[:, [0, 1, 2, 6, 9, 12, 13]]  # Pandas의 iloc을 사용하여 열 선택

# 열 이름을 적절한 JSON 키로 매핑
df_selected.columns = ["text_id", "text", "anaphor", "A", "B", "A_coref", "B_coref"]

# JSON 형식으로 변환
data_list = []
for index, row in df_selected.iterrows():
    # A_coref와 B_coref가 모두 False인 경우 "Neither" 저장
    if row["A_coref"] == False and row["B_coref"] == False:
        answer = "Neither"
    elif row["A_coref"] == True:
        answer = "A"
    else:
        answer = "B"

    data_list.append({
        "text_id": row["text_id"],  # 문장 ID
        "text": row["text"],  # 전체 문장
        "anaphor": row["anaphor"],  # anaphoric one/ones
        "options": {
            "A": row["A"],  # 선행사 후보 A
            "B": row["B"]   # 선행사 후보 B
        },
        "answer": answer  # "A", "B", "Neither" 중 하나
    })

# JSON 파일로 저장
with open(json_file_path, "w", encoding="utf-8") as json_file:
    json.dump(data_list, json_file, indent=4, ensure_ascii=False)

print(f"✅ JSON 변환 완료: {json_file_path}")

In [None]:
# 2_npe
import pandas as pd
import json
import os

# .xlsx 파일 불러오기
file_path = os.path.join(os.getcwd(),"data","2_npe", "General_NPE_corpus.xlsx")
json_file_path = os.path.join(os.getcwd(),"preprocessing","2_npe", "General_NPE_corpus.json")
df = pd.read_excel(file_path)

# 필요한 열만 선택 (1, 2, 3, 7, 10, 13, 14)
df_selected = df.iloc[:, [0, 1, 2, 5, 8, 11, 12]]  # Pandas의 iloc을 사용하여 열 선택

# 열 이름을 적절한 JSON 키로 매핑
df_selected.columns = ["text_id", "text", "licensor", "A", "B", "A_coref","B_coref"]

# JSON 형식으로 변환
data_list = []
for index, row in df_selected.iterrows():
    # A_coref와 B_coref가 모두 False인 경우 "Neither" 저장
    if row["A_coref"] == False and row["B_coref"] == False:
        answer = "Neither"
    elif row["A_coref"] == True:
        answer = "A"
    else:
        answer = "B"

    data_list.append({
        "text_id": row["text_id"],  # 문장 ID
        "text": row["text"],  # 전체 문장
        "licensor": row["licensor"],  # licensor
        "options": {
            "A": row["A"],  # 선행사 후보 A
            "B": row["B"]   # 선행사 후보 B
        },
        "answer": answer  # "A", "B", "Neither" 중 하나
    })


# JSON 파일로 저장
with open(json_file_path, "w", encoding="utf-8") as json_file:
    json.dump(data_list, json_file, indent=4, ensure_ascii=False)

print(f"✅ JSON 변환 완료: {json_file_path}")

# .tsv->json


In [None]:
import pandas as pd
import json
import os

# .tsv 파일 불러오기
file_path = os.path.join(os.getcwd(), "data", "gap", "gap-development.tsv")
json_file_path = os.path.join(os.getcwd(), "preprocessing", "gap", "gap-development.json")
df = pd.read_csv(file_path, sep="\t", dtype=str)  # Tab-separated values (TSV)

# 필요한 열만 선택 (ID, Text, Pronoun, A, A-coref, B, B-coref)
df_selected = df[["ID", "Text", "Pronoun", "A", "A-coref", "B", "B-coref"]]

# JSON 형식으로 변환
data_list = []
for index, row in df_selected.iterrows():
    # A-coref와 B-coref가 모두 False인 경우 "Neither" 저장
    if row["A-coref"] == "FALSE" and row["B-coref"] == "FALSE":
        answer = "Neither"
    elif row["A-coref"] == "TRUE":
        answer = "A"
    else:
        answer = "B"

    data_list.append({
        "text_id": row["ID"],  # 문장 ID
        "text": row["Text"],  # 전체 문장
        "pronoun": row["Pronoun"],  # 대명사
        "options": {
            "A": row["A"],  # 선행사 후보 A
            "B": row["B"]   # 선행사 후보 B
        },
        "answer": answer  # "A", "B", "Neither" 중 하나
    })

# JSON 파일로 저장
with open(json_file_path, "w", encoding="utf-8") as json_file:
    json.dump(data_list, json_file, indent=4, ensure_ascii=False)

print(f"✅ JSON 변환 완료: {json_file_path}")


In [None]:
import pandas as pd

# .tsv 파일 불러오기
file_path = os.path.join(os.getcwd(),"data","gap", "gap-test.tsv")
df = pd.read_csv(file_path, sep="\t", dtype=str)  # Tab-separated values (TSV)

# A-coref와 B-coref가 모두 False인 행 필터링
false_coref_rows = df[(df["A-coref"] == "FALSE") & (df["B-coref"] == "FALSE")]

# 결과 출력
if not false_coref_rows.empty:
    print("🔍 A-coref와 B-coref가 모두 False인 행이 존재합니다:")
    print(false_coref_rows)
else:
    print("✅ 모든 행에서 최소 하나의 coref 값이 True입니다.")


# JSON → Fine-tuning용 JSONL

In [5]:
import json
import os

name="gap-dev_npe"
input_json_path=os.path.join(os.getcwd(), "preprocessing", "new", "train", f"{name}.json")
output_jsonl_path=os.path.join(os.getcwd(), "preprocessing", "new", "train", f"{name}_sft.jsonl")
# 데이터 로드
with open(input_json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

# SFT 포맷 변환 (prompt와 output을 하나의 text로 합쳐 저장)
with open(output_jsonl_path, 'w', encoding='utf-8') as f_out:
    for item in data:
        # 프롬프트 만들기
        prompt = f'''Question: In the sentence "{item["text"]}", what does "{item["target"]}" refer to?
Options:
(A) {item["options"]["A"]}
(B) {item["options"]["B"]}
Answer only with "A" if (A) is correct, "B" if (B) is correct, or "Neither" if none are correct.
Answer:'''
        output = item["answer"].strip().upper()  # 정답 (A, B, Neither)
        
        # 프롬프트와 정답을 하나로 합치기
        combined_text = prompt.strip() + " " + output
        
        # JSONL로 저장
        json.dump({"text": combined_text}, f_out, ensure_ascii=False)
        f_out.write('\n')  # jsonl 형식

print(f"✅ 데이터 변환 완료: {output_jsonl_path}")

✅ 데이터 변환 완료: /jsm0707/LLM_Anaphoric-One-and-NPE/preprocessing/new/train/gap-dev_npe_sft.jsonl


### 1. one

In [None]:
import json
import os

name="Number_factor_AO_sub-corpus"
input_json_path=os.path.join(os.getcwd(), "preprocessing", "1_one", f"{name}.json")
output_jsonl_path=os.path.join(os.getcwd(), "preprocessing", "1_one", f"{name}_sft.jsonl")
# 데이터 로드
with open(input_json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

# SFT 포맷 변환 (prompt와 output을 하나의 text로 합쳐 저장)
with open(output_jsonl_path, 'w', encoding='utf-8') as f_out:
    for item in data:
        # 프롬프트 만들기
        prompt = f'''Question: In the sentence "{item["text"]}", what does "{item["anaphor"]}" refer to?
Options:
(A) {item["options"]["A"]}
(B) {item["options"]["B"]}
Answer only with "A" if (A) is correct, "B" if (B) is correct, or "Neither" if none are correct.
Answer:'''
        output = item["answer"].strip().upper()  # 정답 (A, B, Neither)
        
        # 프롬프트와 정답을 하나로 합치기
        combined_text = prompt.strip() + " " + output
        
        # JSONL로 저장
        json.dump({"text": combined_text}, f_out, ensure_ascii=False)
        f_out.write('\n')  # jsonl 형식

print(f"✅ 데이터 변환 완료: {output_jsonl_path}")

### 2.npe

In [None]:
import json
import os

name = "General_NPE_corpus"
input_json_path=os.path.join(os.getcwd(), "preprocessing", "2_npe", f"{name}.json")
output_jsonl_path=os.path.join(os.getcwd(), "preprocessing", "2_npe", f"{name}_sft.jsonl")

# 데이터 로드
with open(input_json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

# SFT 포맷 변환 (prompt와 output을 하나의 text로 합쳐 저장)
with open(output_jsonl_path, 'w', encoding='utf-8') as f_out:
    for item in data:
        # 프롬프트 만들기
        prompt = f'''Question: In the sentence "{item["text"]}", what does "{item["licensor"]}" refer to?
Options:
(A) {item["options"]["A"]}
(B) {item["options"]["B"]}
Answer only with "A" if (A) is correct, "B" if (B) is correct, or "Neither" if none are correct.
Answer:'''
        output = item["answer"].strip().upper()  # 정답 (A, B, Neither)
        
        # 프롬프트와 정답을 하나로 합치기
        combined_text = prompt.strip() + " " + output
        
        # JSONL로 저장
        json.dump({"text": combined_text}, f_out, ensure_ascii=False)
        f_out.write('\n')  # jsonl 형식

print(f"✅ 데이터 변환 완료: {output_jsonl_path}")


## gap

In [None]:
import json
import os

name = "gap-test"
input_json_path = os.path.join(os.getcwd(), "preprocessing", "gap", f"{name}.json")
output_jsonl_path = os.path.join(os.getcwd(), "preprocessing", "gap", f"{name}_sft.jsonl")  # 최종 파일명도 _ready로

# 데이터 로드
with open(input_json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

# SFT 포맷 변환 (prompt와 output을 하나의 text로 합쳐 저장)
with open(output_jsonl_path, 'w', encoding='utf-8') as f_out:
    for item in data:
        # 프롬프트 만들기
        prompt = f'''Question: In the sentence "{item["text"]}", who does "{item["pronoun"]}" refer to?
Options:
(A) {item["options"]["A"]}
(B) {item["options"]["B"]}
Answer only with "A" if (A) is correct, "B" if (B) is correct, or "Neither" if none are correct.
Answer:'''
        output = item["answer"].strip().upper()  # 정답 (A, B, Neither)
        
        # 프롬프트와 정답을 하나로 합치기
        combined_text = prompt.strip() + " " + output
        
        # JSONL로 저장
        json.dump({"text": combined_text}, f_out, ensure_ascii=False)
        f_out.write('\n')  # jsonl 형식

print(f"✅ 데이터 변환 완료: {output_jsonl_path}")


# WSC -> .json

In [1]:
import json
import os

# 입력 .txt 파일과 출력 .json 파일 경로
input_txt_path = os.path.join(os.getcwd(), "data", "wsc273.txt")  # WSC 원본 .txt 경로
output_json_path = os.path.join(os.getcwd(), "preprocessing", "wsc", "wsc.json")  # 변환된 .jsonl 저장 경로

data = []
with open(input_txt_path, 'r', encoding='utf-8') as f:
    lines = [line.strip() for line in f if line.strip()]  # 빈 줄 제거 및 앞뒤 공백 제거

# 4줄씩 하나의 샘플로 구성
for i in range(0, len(lines), 4):
    text = lines[i]  # 문장
    mask = lines[i+1]  # [MASK] (사용 안 할 수도 있지만 형식상 포함)
    candidates_line = lines[i+2]  # 후보
    answer_line = lines[i+3]  # 정답

    # 후보 분리
    candidates = [c.strip() for c in candidates_line.split(",")]
    assert len(candidates) == 2, f"후보는 반드시 2개여야 합니다. 확인 필요: {candidates}"

    # 정답이 후보 중 어디인지 찾아서 'A' 또는 'B'로
    if answer_line.strip() == candidates[0]:
        answer = "A"
    elif answer_line.strip() == candidates[1]:
        answer = "B"
    else:
        raise ValueError(f"정답이 후보에 없습니다. 정답: {answer_line}, 후보: {candidates}")

    # 하나의 샘플 딕셔너리로 변환
    item = {
        "text_id": f"wsc-{i//4 + 1}",
        "text": text,
        "MASK": "[MASK]",  # 고정값
        "options": {
            "A": candidates[0],
            "B": candidates[1]
        },
        "answer": answer
    }

    data.append(item)

# JSON 파일로 저장
with open(output_json_path, 'w', encoding='utf-8') as f_out:
    json.dump(data, f_out, ensure_ascii=False, indent=4)

print(f"✅ 변환 완료: {output_json_path}")


✅ 변환 완료: /jsm0707/LLM_Anaphoric-One-and-NPE/preprocessing/wsc/wsc.json


# GPT형식


In [3]:
import json
import os

# 원본 데이터 불러오기
with open('./preprocessing/new/train/gap-dev_npe.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# GPT 학습용 데이터 저장 파일
output_file = os.path.join(os.getcwd(), "preprocessing", "new", "train","gap-dev_npe_finetune.jsonl")  # 변환된 .jsonl 저장 경로


# JSONL 파일로 변환
with open(output_file, 'w', encoding='utf-8') as f:
    for item in data:
        prompt = f'''Question: In the sentence "{item["text"]}", what does "{item["target"]}" refer to?
Options:
(A) {item["options"]["A"]}
(B) {item["options"]["B"]}

Answer only with "A" if (A) is correct, "B" if (B) is correct, or "Neither" if none of them are correct. Do not provide explanations.
Answer:'''
        
        # message 포맷 구성
        messages = [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": prompt},
            {"role": "assistant", "content": item["answer"]}
        ]
        
        # 한 줄에 하나의 대화
        json.dump({"messages": messages}, f, ensure_ascii=False)
        f.write("\n")

print(f"✅ 데이터 변환 완료. 저장 위치: {output_file}")

✅ 데이터 변환 완료. 저장 위치: /jsm0707/LLM_Anaphoric-One-and-NPE/preprocessing/new/train/gap-dev_npe_finetune.jsonl


### one

In [None]:
# import json

# # 원본 데이터 불러오기
# with open('./preprocessing/1_one/General_AO_corpus.json', 'r', encoding='utf-8') as f:
#     data = json.load(f)

# # GPT 학습용 데이터 저장 파일
# output_file = os.path.join(os.getcwd(), "preprocessing", "1_one", "General_AO_corpus_finetune.jsonl")  # 변환된 .jsonl 저장 경로


# # JSONL 파일로 변환
# with open(output_file, 'w', encoding='utf-8') as f:
#     for item in data:
#         prompt = f'''Question: In the sentence "{item["text"]}", what does "{item["anaphor"]}" refer to?
# Options:
# (A) {item["options"]["A"]}
# (B) {item["options"]["B"]}

# Answer only with "A" if (A) is correct, "B" if (B) is correct, or "Neither" if none of them are correct. Do not provide explanations.
# Answer:'''
        
#         # message 포맷 구성
#         messages = [
#             {"role": "system", "content": "You are a helpful assistant."},
#             {"role": "user", "content": prompt},
#             {"role": "assistant", "content": item["answer"]}
#         ]
        
#         # 한 줄에 하나의 대화
#         json.dump({"messages": messages}, f, ensure_ascii=False)
#         f.write("\n")

# print(f"✅ 데이터 변환 완료. 저장 위치: {output_file}")






✅ 데이터 변환 완료. 저장 위치: /jsm0707/LLM_Anaphoric-One-and-NPE/preprocessing/1_one/General_AO_corpus_finetune.jsonl


### npe

In [4]:
import json

# 원본 데이터 불러오기
with open('./preprocessing/2_npe/General_NPE_corpus.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# GPT 학습용 데이터 저장 파일
output_file = os.path.join(os.getcwd(), "preprocessing", "2_npe", "General_NPE_corpus.jsonl")  # 변환된 .jsonl 저장 경로


# JSONL 파일로 변환
with open(output_file, 'w', encoding='utf-8') as f:
    for item in data:
        prompt = f'''Question: In the sentence "{item["text"]}", what does "{item["licensor"]}" refer to?
Options:
(A) {item["options"]["A"]}
(B) {item["options"]["B"]}

Answer only with "A" if (A) is correct, "B" if (B) is correct, or "Neither" if none of them are correct. Do not provide explanations.
Answer:'''
        
        # message 포맷 구성
        messages = [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": prompt},
            {"role": "assistant", "content": item["answer"]}
        ]
        
        # 한 줄에 하나의 대화
        json.dump({"messages": messages}, f, ensure_ascii=False)
        f.write("\n")

print(f"✅ 데이터 변환 완료. 저장 위치: {output_file}")


✅ 데이터 변환 완료. 저장 위치: /jsm0707/LLM_Anaphoric-One-and-NPE/preprocessing/2_npe/General_NPE_corpus.jsonl


### gap

In [2]:
import json
import os

# 원본 데이터 불러오기
with open('./preprocessing/gap/gap-validation.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# GPT 학습용 데이터 저장 파일
output_file = os.path.join(os.getcwd(), "preprocessing", "gap", "gap-validation_finetune.jsonl")  # 변환된 .jsonl 저장 경로


# JSONL 파일로 변환
with open(output_file, 'w', encoding='utf-8') as f:
    for item in data:
        prompt = f'''Question: In the sentence "{item["text"]}", who does "{item["pronoun"]}" refer to?
Options:
(A) {item["options"]["A"]}
(B) {item["options"]["B"]}

Answer only with "A" if (A) is correct, "B" if (B) is correct, or "Neither" if none of them are correct. Do not provide explanations.
Answer:'''
        
        # message 포맷 구성
        messages = [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": prompt},
            {"role": "assistant", "content": item["answer"]}
        ]
        
        # 한 줄에 하나의 대화
        json.dump({"messages": messages}, f, ensure_ascii=False)
        f.write("\n")

print(f"✅ 데이터 변환 완료. 저장 위치: {output_file}")


✅ 데이터 변환 완료. 저장 위치: /jsm0707/LLM_Anaphoric-One-and-NPE/preprocessing/gap/gap-validation_finetune.jsonl
