In [1]:
import torch
import random
import pandas as pd
import json
import numpy as np
import torch.backends.cudnn as cudnn

In [2]:
seed = 42
torch.manual_seed(seed)
torch.cuda.manual_seed(seed)
torch.cuda.manual_seed_all(seed)
np.random.seed(seed)
cudnn.benchmark = False
cudnn.deterministic = True
random.seed(seed)
# seed 결과가달라짐 3~4%

device = "cuda:0" if torch.cuda.is_available() else "cpu"
print('device:', device)

device: cuda:0


In [3]:
print('-'*10)
print('Data Loading Start!!')
print('-'*10)

## dataset class
path = "/data/ephemeral/home/data/aug_data_x10.jsonl"

with open(path) as f:
    data = [json.loads(line) for line in f]
data = pd.DataFrame(data)
print('origin_data:', data.shape)


----------
Data Loading Start!!
----------
origin_data: (42720, 5)


In [5]:
data.columns

Index(['docid', 'question', 'content', 'src', 'new_domains'], dtype='object')

In [4]:
data['new_domains'].unique()

array(['human_aging', 'medical_genetics', 'high_school_biology',
       'college_chemistry', 'college_physics', 'conceptual_physics',
       'global_facts', 'None', 'unknown', 'computer_security',
       'high_school_chemistry', 'anatomy', 'nutrition', 'human_sexuality',
       'astronomy', 'high_school_computer_science', 'virology',
       'electrical_engineering', 'college_medicine', 'college_biology',
       'college_computer_science', 'human_aging, nutrition',
       'high_school_physics', 'geology', 'art', 'college_science',
       'safety', 'civil_engineering', 'new_technology_in_industry',
       'engineering', 'data_visualization',
       'human_sexuality, medical_genetics', 'environmental_science',
       'music_performance', 'logistics', 'None, medical_genetics',
       'astronomy, college_physics', 'construction_tools',
       'astronomy, college_biology', 'astronomy, conceptual_physics',
       'anatomy, college_chemistry', 'safety_education',
       'investigation_records'

In [5]:
data2 = data[~data['new_domains'].isin(['None','unknown'])]

In [6]:
data2.shape

(41580, 5)

In [7]:
data2['new_domains'].unique()

array(['human_aging', 'medical_genetics', 'high_school_biology',
       'college_chemistry', 'college_physics', 'conceptual_physics',
       'global_facts', 'computer_security', 'high_school_chemistry',
       'anatomy', 'nutrition', 'human_sexuality', 'astronomy',
       'high_school_computer_science', 'virology',
       'electrical_engineering', 'college_medicine', 'college_biology',
       'college_computer_science', 'human_aging, nutrition',
       'high_school_physics', 'geology', 'art', 'college_science',
       'safety', 'civil_engineering', 'new_technology_in_industry',
       'engineering', 'data_visualization',
       'human_sexuality, medical_genetics', 'environmental_science',
       'music_performance', 'logistics', 'None, medical_genetics',
       'astronomy, college_physics', 'construction_tools',
       'astronomy, college_biology', 'astronomy, conceptual_physics',
       'anatomy, college_chemistry', 'safety_education',
       'investigation_records'], dtype=object)

In [8]:
data2[data2['new_domains']=='astronomy, college_biology']

Unnamed: 0,docid,question,content,src,new_domains
33360,c73343e8-395d-40d0-854a-529d11c4e194,천문학자들은 어떤 대상을 연구하나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"
33361,c73343e8-395d-40d0-854a-529d11c4e194,생물학자들은 어떤 객체를 연구하나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"
33362,c73343e8-395d-40d0-854a-529d11c4e194,천문학자와 생물학자의 연구 방법에는 어떤 공통점이 있나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"
33363,c73343e8-395d-40d0-854a-529d11c4e194,광학 장치의 예시로 어떤 것들이 있나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"
33364,c73343e8-395d-40d0-854a-529d11c4e194,천문학자들이 사용하는 장치는 무엇인가요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"
33365,c73343e8-395d-40d0-854a-529d11c4e194,생물학자들이 사용하는 장치는 무엇인가요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"
33366,c73343e8-395d-40d0-854a-529d11c4e194,광학 장치를 사용하면 어떤 이점이 있나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"
33367,c73343e8-395d-40d0-854a-529d11c4e194,천문학자와 생물학자는 어떤 분야의 연구자들인가요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"
33368,c73343e8-395d-40d0-854a-529d11c4e194,천문학자와 생물학자가 연구하는 대상은 어떻게 다르나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"
33369,c73343e8-395d-40d0-854a-529d11c4e194,광학 장치가 발견에 미치는 영향은 무엇인가요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,"astronomy, college_biology"


In [9]:
data2_expanded = data2.copy()
data2_expanded['new_domains'] = data2_expanded['new_domains'].str.split(', ')
data2_expanded = data2_expanded.explode('new_domains').reset_index(drop=True)


In [10]:
data2_expanded[data2_expanded['docid']=='c73343e8-395d-40d0-854a-529d11c4e194']

Unnamed: 0,docid,question,content,src,new_domains
32520,c73343e8-395d-40d0-854a-529d11c4e194,천문학자들은 어떤 대상을 연구하나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,astronomy
32521,c73343e8-395d-40d0-854a-529d11c4e194,천문학자들은 어떤 대상을 연구하나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,college_biology
32522,c73343e8-395d-40d0-854a-529d11c4e194,생물학자들은 어떤 객체를 연구하나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,astronomy
32523,c73343e8-395d-40d0-854a-529d11c4e194,생물학자들은 어떤 객체를 연구하나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,college_biology
32524,c73343e8-395d-40d0-854a-529d11c4e194,천문학자와 생물학자의 연구 방법에는 어떤 공통점이 있나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,astronomy
32525,c73343e8-395d-40d0-854a-529d11c4e194,천문학자와 생물학자의 연구 방법에는 어떤 공통점이 있나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,college_biology
32526,c73343e8-395d-40d0-854a-529d11c4e194,광학 장치의 예시로 어떤 것들이 있나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,astronomy
32527,c73343e8-395d-40d0-854a-529d11c4e194,광학 장치의 예시로 어떤 것들이 있나요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,college_biology
32528,c73343e8-395d-40d0-854a-529d11c4e194,천문학자들이 사용하는 장치는 무엇인가요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,astronomy
32529,c73343e8-395d-40d0-854a-529d11c4e194,천문학자들이 사용하는 장치는 무엇인가요?,천문학자와 생물학자는 과학의 다른 영역을 연구합니다. 천문학자들은 하늘에 있는 매우...,ko_ai2_arc__ARC_Challenge__train,college_biology


In [11]:
data2_expanded.shape

(41650, 5)

In [12]:
data2_expanded.new_domains.unique()

array(['human_aging', 'medical_genetics', 'high_school_biology',
       'college_chemistry', 'college_physics', 'conceptual_physics',
       'global_facts', 'computer_security', 'high_school_chemistry',
       'anatomy', 'nutrition', 'human_sexuality', 'astronomy',
       'high_school_computer_science', 'virology',
       'electrical_engineering', 'college_medicine', 'college_biology',
       'college_computer_science', 'high_school_physics', 'geology',
       'art', 'college_science', 'safety', 'civil_engineering',
       'new_technology_in_industry', 'engineering', 'data_visualization',
       'environmental_science', 'music_performance', 'logistics', 'None',
       'construction_tools', 'safety_education', 'investigation_records'],
      dtype=object)

In [13]:
data2 = data2_expanded[~data2_expanded['new_domains'].isin(['None'])]

In [36]:
len(data2)

41640

0    [ec301d79-dd16-4e88-b389-eb5f12bafef8, 74c7508...
1    [7150c749-dff2-4bd5-90ff-ff1e1cda468b, 12ee43d...
2    [eab2a705-18b6-4bbe-84f4-acacb4cd8a1f, 5b53496...
3    [d525c38e-a296-4dec-8a60-d1fb98a355e3, e17a338...
4    [4b49f3a2-32c9-4b2e-89c4-4719f98e7a74, ab63b95...
Name: topk, dtype: object

In [41]:
# data2를 활용하면 데이터셋이 너무 커지기 때문에 reranker로 topk5을 뽑아 해당 문서에 대해서만 훈련셋을 만들기로 한다.
firstreranking = pd.read_json('/data/ephemeral/home/firstreranking.csv', lines=True)

# 'topk' 컬럼의 20개 행 중 왼쪽에서 5개 값만 가져오기
subset_topk = firstreranking['topk'][:5]

# [] 괄호 안의 값들을 하나의 리스트로 합치기
combined_list = [item for sublist in subset_topk for item in sublist]

# 결과 출력
print(combined_list)

['ec301d79-dd16-4e88-b389-eb5f12bafef8', '74c75080-9d16-4bbd-8667-a124e18d9a64', '40b49c1e-94af-470d-b3d9-467b159459cf', '1d55a166-913b-4848-89f4-7f06ced3fac8', '3e08cc48-af01-4b14-b75d-664d4b75b168', '531ddec9-a32d-4156-a6bc-c636c60806be', '12fdc3f9-f6c9-46ed-8870-a14d734e31b0', '231ed8b4-2690-4a0a-8216-ef71334f1ab8', '360de34f-3062-463f-b334-b402934a74b5', '78a3e002-e426-4766-b891-f2bd7a26ace3', '787049a1-91fb-4e55-ac4d-a36e09f1cd44', '9bc4856d-4d47-4922-ba55-097ca03f259d', '5ff8f00a-a4e6-43fd-8616-3104a4c4d637', '4d939369-0b8f-40c9-89d7-dae9ba9d01e1', '424ed825-fde2-4a36-ae71-0068e48e4af3', 'd0de6190-2cb7-4466-b8c6-81be597cb81d', '6e044ed7-2227-47c9-ba07-7be05bd4ec08', '9db26cc0-a45b-403f-9993-2422fb7e73a0', 'e248d4b1-0d7e-44bc-abf3-8682de6be014', 'b433f18d-472c-43df-b7af-64a8fed7c0cb', '7150c749-dff2-4bd5-90ff-ff1e1cda468b', '12ee43dc-ef6b-4f60-bde3-d047732e6e38', '7cd47f89-163f-4bb4-98c8-574d6aa3b2fd', 'd471ea16-fbd9-400d-a29c-b24aff85724e', 'c0645487-4d27-4153-8bd6-c6abc823b72e',

In [42]:
data3 = data2[data2['docid'].isin(combined_list)]

In [43]:
len(data3)

980

In [44]:
from itertools import product
from itertools import combinations
from sentence_transformers import InputExample



def create_labelled_pairs(data):
    # 데이터를 도메인별로 그룹화
    grouped_by_domain = data.groupby('new_domains')
    positive_pairs = []
    negative_pairs = []

    # 도메인별로 긍정 쌍 생성
    for domain, group in grouped_by_domain:
        grouped_by_doc = group.groupby('docid')
        # 동일 문서 내의 질문들로 긍정적인 쌍 생성
        for docid, questions_in_doc in grouped_by_doc:
            questions = list(questions_in_doc['question'])
            for q1, q2 in combinations(questions, 2):
                positive_pairs.append(InputExample(texts=[q1, q2], label=1))
        
        # 도메인 내 다른 문서 간 부정적인 쌍 생성
        docids = list(grouped_by_doc.groups.keys())
        for i in range(len(docids)):
            for j in range(i + 1, len(docids)):
                questions1 = list(grouped_by_doc.get_group(docids[i])['question'])
                questions2 = list(grouped_by_doc.get_group(docids[j])['question'])
                for q1, q2 in product(questions1, questions2):
                    negative_pairs.append(InputExample(texts=[q1, q2], label=0))

    # # 다른 도메인 간 부정적인 쌍 생성
    # domains = list(grouped_by_domain.groups.keys())
    # for i in range(len(domains)):
    #     for j in range(i + 1, len(domains)):
    #         questions1 = list(grouped_by_domain.get_group(domains[i])['question'])
    #         questions2 = list(grouped_by_domain.get_group(domains[j])['question'])
    #         for q1, q2 in product(questions1, questions2):
    #             negative_pairs.append(InputExample(texts=[q1, q2], label=0))

    return positive_pairs + negative_pairs
    
# 데이터 생성
training_pairs = create_labelled_pairs(data3)


In [45]:
len(training_pairs)

64610

In [33]:
#생략
from collections import defaultdict
import random

# 도메인별로 데이터 그룹화
domain_groups = defaultdict(list)
for pair in training_pairs:
    domain = pair.domain  # domain이 있다고 가정
    domain_groups[domain].append(pair)

# 각 도메인에서 일정 비율로 샘플링
sample_ratio = 0.01  # 1% 샘플링
sampled_training_pairs = []
for domain, pairs in domain_groups.items():
    sampled_pairs = random.sample(pairs, int(len(pairs) * sample_ratio))
    sampled_training_pairs.extend(sampled_pairs)

print(f"Sampled training pairs length: {len(sampled_training_pairs)}")


AttributeError: 'InputExample' object has no attribute 'new_domains'

In [46]:
# Print the first 10 pairs to see their content and labels
for example in training_pairs[:30]:
    print("Query:", example.texts[0])
    print("Document:", example.texts[1])
    print("Label:", example.label)
    print("-" * 30)


Query: 대적점이 발생하는 조건은 무엇인가?
Document: 대적점을 찾을 수 있는 행성은 어떤 행성인가?
Label: 1
------------------------------
Query: 대적점이 발생하는 조건은 무엇인가?
Document: 태양계에서 가장 큰 행성은 무엇인가?
Label: 1
------------------------------
Query: 대적점이 발생하는 조건은 무엇인가?
Document: 대적점이 발생할 때 행성의 위치는 어떻게 되나?
Label: 1
------------------------------
Query: 대적점이 발생하는 조건은 무엇인가?
Document: 목성이 태양계에서 가장 큰 이유는 무엇인가?
Label: 1
------------------------------
Query: 대적점이 발생하는 조건은 무엇인가?
Document: 대적점이란 무엇을 의미하는가?
Label: 1
------------------------------
Query: 대적점이 발생하는 조건은 무엇인가?
Document: 태양과 지구 사이에 위치할 때 어떤 현상이 발생하는가?
Label: 1
------------------------------
Query: 대적점이 발생하는 조건은 무엇인가?
Document: 목성의 크기와 질량은 다른 행성들과 어떻게 비교되는가?
Label: 1
------------------------------
Query: 대적점이 발생하는 조건은 무엇인가?
Document: 태양계의 구성 요소는 무엇인가?
Label: 1
------------------------------
Query: 대적점이 발생하는 조건은 무엇인가?
Document: 대적점이 발생할 수 있는 행성의 조건은 무엇인가?
Label: 1
------------------------------
Query: 대적점을 찾을 수 있는 행성은 어떤 행성인가?
Document: 태양계에서 가장 큰 행성은 무엇인가?
Label: 1
----------

In [47]:
for example in training_pairs[30:50]:
    print("Query:", example.texts[0])
    print("Document:", example.texts[1])
    print("Label:", example.label)
    print("-" * 30)

Query: 목성이 태양계에서 가장 큰 이유는 무엇인가?
Document: 대적점이란 무엇을 의미하는가?
Label: 1
------------------------------
Query: 목성이 태양계에서 가장 큰 이유는 무엇인가?
Document: 태양과 지구 사이에 위치할 때 어떤 현상이 발생하는가?
Label: 1
------------------------------
Query: 목성이 태양계에서 가장 큰 이유는 무엇인가?
Document: 목성의 크기와 질량은 다른 행성들과 어떻게 비교되는가?
Label: 1
------------------------------
Query: 목성이 태양계에서 가장 큰 이유는 무엇인가?
Document: 태양계의 구성 요소는 무엇인가?
Label: 1
------------------------------
Query: 목성이 태양계에서 가장 큰 이유는 무엇인가?
Document: 대적점이 발생할 수 있는 행성의 조건은 무엇인가?
Label: 1
------------------------------
Query: 대적점이란 무엇을 의미하는가?
Document: 태양과 지구 사이에 위치할 때 어떤 현상이 발생하는가?
Label: 1
------------------------------
Query: 대적점이란 무엇을 의미하는가?
Document: 목성의 크기와 질량은 다른 행성들과 어떻게 비교되는가?
Label: 1
------------------------------
Query: 대적점이란 무엇을 의미하는가?
Document: 태양계의 구성 요소는 무엇인가?
Label: 1
------------------------------
Query: 대적점이란 무엇을 의미하는가?
Document: 대적점이 발생할 수 있는 행성의 조건은 무엇인가?
Label: 1
------------------------------
Query: 태양과 지구 사이에 위치할 때 어떤 현상이 발생하는가?
Document: 목성의 크기와 질량은 다

In [None]:
# https://github.com/UKPLab/sentence-transformers/blob/master/examples/training/cross-encoder/training_stsbenchmark.py

In [48]:
import logging
import math
from datetime import datetime
import torch
from torch.utils.data import DataLoader
from torch.nn import BCEWithLogitsLoss
from sentence_transformers import LoggingHandler
from sentence_transformers.cross_encoder import CrossEncoder
from sentence_transformers.cross_encoder.evaluation import CECorrelationEvaluator
from transformers import AutoTokenizer
from sklearn.model_selection import train_test_split
from tqdm import tqdm  # Import tqdm for the progress bar

# Setup logging
logging.basicConfig(format="%(asctime)s - %(message)s", datefmt="%Y-%m-%d %H:%M:%S", level=logging.INFO, handlers=[LoggingHandler()])

# Define model parameters
model_name = "Dongjin-kr/ko-reranker"
train_batch_size = 32
num_epochs = 1
model_save_path = f"output/training_{model_name.replace('/', '-')}_binary_{datetime.now().strftime('%Y-%m-%d_%H-%M-%S')}"

# Initialize the model and tokenizer
model = CrossEncoder(model_name, num_labels=1)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Split the data into train, validation, and test sets
train_val_pairs, test_pairs = train_test_split(training_pairs, test_size=0.2, random_state=42)
train_pairs, validation_pairs = train_test_split(train_val_pairs, test_size=0.2, random_state=42)

# Custom collate function to tokenize the data
def collate_fn(batch):
    texts = [pair.texts for pair in batch]
    labels = [pair.label for pair in batch]
    
    # Tokenize the texts
    inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt", max_length=512)
    
    # Convert labels to tensors
    labels = torch.tensor(labels, dtype=torch.float)
    
    return inputs, labels

# Create DataLoader for train, validation, and test sets with custom collate function
train_dataloader = DataLoader(train_pairs, shuffle=True, batch_size=train_batch_size, collate_fn=collate_fn)
validation_dataloader = DataLoader(validation_pairs, shuffle=False, batch_size=train_batch_size, collate_fn=collate_fn)
test_dataloader = DataLoader(test_pairs, shuffle=False, batch_size=train_batch_size, collate_fn=collate_fn)

# Prepare evaluator with validation set
dev_samples = [pair for pair in validation_pairs]
evaluator = CECorrelationEvaluator.from_input_examples(dev_samples, name="aug-dev")

# Configure warmup steps (10% of training steps)
warmup_steps = math.ceil(len(train_dataloader) * num_epochs * 0.1)

# Loss function: BCEWithLogitsLoss (which includes sigmoid activation)
loss_fn = BCEWithLogitsLoss()

# Train the model using the fit method with tqdm progress bar
logging.info("Starting training...")
import torch.optim as optim

# Define optimizer
optimizer = optim.AdamW(model.model.parameters(), lr=2e-5)

# Training loop
device = model.model.device  # Access the underlying model's device

for epoch in range(num_epochs):
    model.model.train()  # Ensure the model is in training mode
    progress_bar = tqdm(train_dataloader, desc=f"Epoch {epoch+1}", leave=False)

    for step, (inputs, labels) in enumerate(progress_bar):
        # Move inputs and labels to the same device as the model
        inputs = {key: value.to(device) for key, value in inputs.items()}
        labels = labels.to(device)

        # Manually compute outputs and update progress bar
        outputs = model.model(**inputs).logits
        loss = torch.nn.BCEWithLogitsLoss()(outputs.view(-1), labels)

        # Zero gradients, backward pass, and optimizer step
        optimizer.zero_grad()  # Manually zero the gradients
        loss.backward()  # Backpropagation
        optimizer.step()  # Optimizer step to update weights

        # Update the progress bar with the current loss
        progress_bar.set_postfix({'loss': loss.item()})

    # Save the model at the end of each epoch
    epoch_save_path = f"{model_save_path}-epoch-{epoch+1}"
    model.save(epoch_save_path)
    logging.info(f"Model saved after epoch {epoch+1} to {epoch_save_path}")


# Save the final model after all epochs
model.save(model_save_path + "-final")
logging.info(f"Training complete. Final model saved to {model_save_path + '-final'}")


2024-10-24 06:56:18 - Use pytorch device: cuda
2024-10-24 06:56:19 - Starting training...


                                                                              

2024-10-24 09:52:02 - Save model to output/training_Dongjin-kr-ko-reranker_binary_2024-10-24_06-56-17-epoch-1
2024-10-24 09:52:05 - Model saved after epoch 1 to output/training_Dongjin-kr-ko-reranker_binary_2024-10-24_06-56-17-epoch-1
2024-10-24 09:52:05 - Save model to output/training_Dongjin-kr-ko-reranker_binary_2024-10-24_06-56-17-final
2024-10-24 09:52:08 - Training complete. Final model saved to output/training_Dongjin-kr-ko-reranker_binary_2024-10-24_06-56-17-final


In [None]:
# aug_data_3.5turbo1106.jsonl: 1.0으로 PAIR: MAP 0.4955 MRR 0.4955
# aug_data_3.5turbo1106.jsonl: 1.0,-1.0 위 코드로 PAIR: MAP 0.7197 MRR 0.7242
# 