In [1]:
import pandas as pd
import numpy as np
from transformers import AutoTokenizer, AutoModel, AutoConfig
from transformers import AdamW, get_linear_schedule_with_warmup
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from sklearn.metrics import mean_squared_error
from scipy.stats import pearsonr
from tqdm import tqdm

# GPU 사용 설정
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 데이터셋 로드
data = pd.read_csv('/data/ephemeral/home/data/yj_aug_train.csv')  # 데이터셋 파일 경로를 입력하세요

# 데이터셋 클래스 정의
class STSDataset(Dataset):
    def __init__(self, df, tokenizer, max_len, is_train=True):
        self.df = df.reset_index(drop=True)
        self.tokenizer = tokenizer
        self.max_len = max_len
        self.is_train = is_train
        
    def __len__(self):
        return len(self.df)
    
    def __getitem__(self, idx):
        sentence1 = str(self.df.loc[idx, 'sentence_1'])
        sentence2 = str(self.df.loc[idx, 'sentence_2'])
        
        inputs = self.tokenizer.encode_plus(
            sentence1,
            sentence2,
            add_special_tokens=True,
            max_length=self.max_len,
            padding='max_length',
            truncation=True,
            return_tensors='pt',
        )
        
        input_ids = inputs['input_ids'].squeeze()  # [max_len]
        attention_mask = inputs['attention_mask'].squeeze()  # [max_len]
        
        item = {
            'input_ids': input_ids.to(device),
            'attention_mask': attention_mask.to(device),
        }
        
        if self.is_train:
            label = self.df.loc[idx, 'label']
            item['labels'] = torch.tensor(label, dtype=torch.float).to(device)
        
        return item

# 모델 클래스 정의
class RegressionModel(nn.Module):
    def __init__(self, model_name):
        super(RegressionModel, self).__init__()
        self.config = AutoConfig.from_pretrained(model_name)
        self.model = AutoModel.from_pretrained(model_name, config=self.config)
        self.dropout = nn.Dropout(p=0.1)
        self.fc1 = nn.Linear(self.config.hidden_size, self.config.hidden_size)
        self.activation = nn.ReLU()
        self.regressor = nn.Linear(self.config.hidden_size, 1)
        
    def forward(self, input_ids, attention_mask):
        outputs = self.model(
            input_ids=input_ids,
            attention_mask=attention_mask
        )
        if hasattr(outputs, 'pooler_output') and outputs.pooler_output is not None:
            pooled_output = outputs.pooler_output
        else:
            pooled_output = outputs.last_hidden_state[:, 0]
        
        x = self.dropout(pooled_output)
        x = self.fc1(x)
        x = self.activation(x)
        x = self.dropout(x)
        outputs = self.regressor(x)
        return outputs.squeeze()

# 모델 학습 함수 정의
def train(model, data_loader, optimizer, scheduler):
    model.train()
    losses = []
    for batch in tqdm(data_loader, desc='Training'):
        optimizer.zero_grad()
        outputs = model(
            input_ids=batch['input_ids'],
            attention_mask=batch['attention_mask']
        )
        loss = criterion(outputs, batch['labels'])
        loss.backward()
        optimizer.step()
        scheduler.step()
        losses.append(loss.item())
    return np.mean(losses)



# 모델 평가 함수 정의
def evaluate(model, data_loader):
    model.eval()
    predictions = []
    actuals = []
    with torch.no_grad():
        for batch in tqdm(data_loader, desc='Evaluating'):
            outputs = model(
                input_ids=batch['input_ids'],
                attention_mask=batch['attention_mask']
            )
            predictions.extend(outputs.cpu().numpy())
            actuals.extend(batch['labels'].cpu().numpy())
    predictions = np.array(predictions)
    actuals = np.array(actuals)
    pearson_corr = pearsonr(predictions, actuals)[0]
    return pearson_corr, predictions

# 데이터 분할 (학습/검증)
from sklearn.model_selection import train_test_split
train_df, val_df = train_test_split(data, test_size=0.1, random_state=42)

# 토크나이저와 데이터셋 생성
max_len = 128
batch_size = 32

# model_names = [
#     'jhgan/ko-sroberta-multitask',
#     'BM-K/KoSimCSE-bert-multitask',
#     'snunlp/KR-SBERT-V40K-klueNLI-augSTS'
# ]

# model_names = [
#     'kykim/bert-kor-base',
#     'snunlp/KR-ELECTRA-discriminator',
#     'klue/roberta-small',
#     'beomi/KcELECTRA-base-v2022',
#     'monologg/koelectra-base-v3-discriminator',
#     'jhgan/ko-sroberta-multitask'
    
# ]

model_names = [
    'snunlp/KR-ELECTRA-discriminator',
    'beomi/KcELECTRA-base-v2022',
    'monologg/koelectra-base-v3-discriminator',
]

models = []
tokenizers = []
train_loaders = []
val_loaders = []

for model_name in model_names:
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    tokenizers.append(tokenizer)
    
    train_dataset = STSDataset(train_df, tokenizer, max_len)
    val_dataset = STSDataset(val_df, tokenizer, max_len)
    
    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_loader = DataLoader(val_dataset, batch_size=batch_size)
    
    train_loaders.append(train_loader)
    val_loaders.append(val_loader)

# 모델 학습 및 평가
num_epochs = 12
learning_rate = 2e-5

trained_models = []
val_predictions = []

for i, model_name in enumerate(model_names):
    print(f"\n=== 모델 {i+1}: {model_name} 학습 시작 ===")
    tokenizer = tokenizers[i]
    train_loader = train_loaders[i]
    val_loader = val_loaders[i]
    
    model = RegressionModel(model_name).to(device)
    
    optimizer = AdamW(model.parameters(), lr=learning_rate)
    total_steps = len(train_loader) * num_epochs
    scheduler = get_linear_schedule_with_warmup(
        optimizer,
        num_warmup_steps=int(0.1 * total_steps),
        num_training_steps=total_steps
    )
    criterion = nn.MSELoss()
    
    best_pearson = -1  # 최상의 Pearson 상관계수를 저장하기 위한 변수
    
    for epoch in range(num_epochs):
        print(f"\n에포크 {epoch+1}/{num_epochs}")
        train_loss = train(model, train_loader, optimizer, scheduler)
        print(f"훈련 손실: {train_loss:.4f}")
        
        pearson_corr, _ = evaluate(model, val_loader)
        print(f"검증 데이터 Pearson 상관계수: {pearson_corr:.4f}")
        
        # 모델 저장 (검증 성능이 향상될 때마다)
        if pearson_corr > best_pearson:
            best_pearson = pearson_corr
            torch.save(model.state_dict(), f'/data/ephemeral/home/yujin/results/new_model_{i+1}.pt')
            print(f"최고 성능 갱신, 모델 저장: model_{i+1}.pt")
    
    # 검증 데이터에 대한 예측 저장
    model.load_state_dict(torch.load(f'/data/ephemeral/home/yujin/results/new_model_{i+1}.pt'))  # 최적의 모델 로드
    _, preds = evaluate(model, val_loader)
    val_predictions.append(preds)
    
    trained_models.append(model)

# 앙상블 예측 (검증 데이터)
ensemble_preds = np.mean(val_predictions, axis=0)
actuals = val_df['label'].values

# 앙상블 결과 평가
ensemble_pearson = pearsonr(ensemble_preds, actuals)[0]
print(f"\n앙상블 모델의 Pearson 상관계수: {ensemble_pearson:.4f}")

  from .autonotebook import tqdm as notebook_tqdm



=== 모델 1: snunlp/KR-ELECTRA-discriminator 학습 시작 ===


  return self.fget.__get__(instance, owner)()



에포크 1/12


Training: 100%|██████████| 448/448 [01:38<00:00,  4.55it/s]


훈련 손실: 2.4354


Evaluating: 100%|██████████| 50/50 [00:03<00:00, 12.56it/s]


검증 데이터 Pearson 상관계수: 0.9065
최고 성능 갱신, 모델 저장: model_1.pt

에포크 2/12


Training: 100%|██████████| 448/448 [01:38<00:00,  4.55it/s]


훈련 손실: 0.3406


Evaluating: 100%|██████████| 50/50 [00:03<00:00, 12.74it/s]


검증 데이터 Pearson 상관계수: 0.9535
최고 성능 갱신, 모델 저장: model_1.pt

에포크 3/12


Training: 100%|██████████| 448/448 [01:38<00:00,  4.55it/s]


훈련 손실: 0.1715


Evaluating: 100%|██████████| 50/50 [00:03<00:00, 12.64it/s]


검증 데이터 Pearson 상관계수: 0.9659
최고 성능 갱신, 모델 저장: model_1.pt

에포크 4/12


Training: 100%|██████████| 448/448 [01:38<00:00,  4.53it/s]


훈련 손실: 0.1226


Evaluating: 100%|██████████| 50/50 [00:03<00:00, 12.64it/s]


검증 데이터 Pearson 상관계수: 0.9722
최고 성능 갱신, 모델 저장: model_1.pt

에포크 5/12


Training: 100%|██████████| 448/448 [01:38<00:00,  4.56it/s]


훈련 손실: 0.0933


Evaluating: 100%|██████████| 50/50 [00:03<00:00, 12.73it/s]


검증 데이터 Pearson 상관계수: 0.9742
최고 성능 갱신, 모델 저장: model_1.pt

에포크 6/12


Training: 100%|██████████| 448/448 [01:38<00:00,  4.56it/s]


훈련 손실: 0.0794


Evaluating: 100%|██████████| 50/50 [00:03<00:00, 12.75it/s]


검증 데이터 Pearson 상관계수: 0.9778
최고 성능 갱신, 모델 저장: model_1.pt

에포크 7/12


Training: 100%|██████████| 448/448 [01:38<00:00,  4.55it/s]


훈련 손실: 0.0672


Evaluating: 100%|██████████| 50/50 [00:03<00:00, 12.72it/s]


검증 데이터 Pearson 상관계수: 0.9799
최고 성능 갱신, 모델 저장: model_1.pt

에포크 8/12


Training: 100%|██████████| 448/448 [01:38<00:00,  4.53it/s]


훈련 손실: 0.0607


Evaluating: 100%|██████████| 50/50 [00:03<00:00, 12.71it/s]


검증 데이터 Pearson 상관계수: 0.9809
최고 성능 갱신, 모델 저장: model_1.pt

에포크 9/12


Training: 100%|██████████| 448/448 [01:39<00:00,  4.52it/s]


훈련 손실: 0.0540


Evaluating: 100%|██████████| 50/50 [00:03<00:00, 12.70it/s]


검증 데이터 Pearson 상관계수: 0.9806

에포크 10/12


Training: 100%|██████████| 448/448 [03:37<00:00,  2.06it/s]


훈련 손실: 0.0488


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.23it/s]


검증 데이터 Pearson 상관계수: 0.9822
최고 성능 갱신, 모델 저장: model_1.pt

에포크 11/12


Training: 100%|██████████| 448/448 [03:59<00:00,  1.87it/s]


훈련 손실: 0.0448


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.23it/s]


검증 데이터 Pearson 상관계수: 0.9824
최고 성능 갱신, 모델 저장: model_1.pt

에포크 12/12


Training: 100%|██████████| 448/448 [03:42<00:00,  2.02it/s]


훈련 손실: 0.0421


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.23it/s]


검증 데이터 Pearson 상관계수: 0.9833
최고 성능 갱신, 모델 저장: model_1.pt


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.21it/s]



=== 모델 2: beomi/KcELECTRA-base-v2022 학습 시작 ===

에포크 1/12


Training: 100%|██████████| 448/448 [03:50<00:00,  1.94it/s]


훈련 손실: 2.2769


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.23it/s]


검증 데이터 Pearson 상관계수: 0.9112
최고 성능 갱신, 모델 저장: model_2.pt

에포크 2/12


Training: 100%|██████████| 448/448 [04:05<00:00,  1.82it/s]


훈련 손실: 0.2996


Evaluating: 100%|██████████| 50/50 [00:08<00:00,  5.57it/s]


검증 데이터 Pearson 상관계수: 0.9546
최고 성능 갱신, 모델 저장: model_2.pt

에포크 3/12


Training: 100%|██████████| 448/448 [03:45<00:00,  1.99it/s]


훈련 손실: 0.1583


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.23it/s]


검증 데이터 Pearson 상관계수: 0.9681
최고 성능 갱신, 모델 저장: model_2.pt

에포크 4/12


Training: 100%|██████████| 448/448 [03:52<00:00,  1.93it/s]


훈련 손실: 0.1109


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.22it/s]


검증 데이터 Pearson 상관계수: 0.9717
최고 성능 갱신, 모델 저장: model_2.pt

에포크 5/12


Training: 100%|██████████| 448/448 [03:34<00:00,  2.09it/s]


훈련 손실: 0.0881


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.23it/s]


검증 데이터 Pearson 상관계수: 0.9749
최고 성능 갱신, 모델 저장: model_2.pt

에포크 6/12


Training: 100%|██████████| 448/448 [04:05<00:00,  1.82it/s]


훈련 손실: 0.0965


Evaluating: 100%|██████████| 50/50 [00:10<00:00,  4.99it/s]


검증 데이터 Pearson 상관계수: 0.9719

에포크 7/12


Training: 100%|██████████| 448/448 [03:51<00:00,  1.94it/s]


훈련 손실: 0.0819


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.23it/s]


검증 데이터 Pearson 상관계수: 0.9748

에포크 8/12


Training: 100%|██████████| 448/448 [02:42<00:00,  2.76it/s]


훈련 손실: 0.0702


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.39it/s]


검증 데이터 Pearson 상관계수: 0.9799
최고 성능 갱신, 모델 저장: model_2.pt

에포크 9/12


Training: 100%|██████████| 448/448 [04:04<00:00,  1.83it/s]


훈련 손실: 0.0546


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.53it/s]


검증 데이터 Pearson 상관계수: 0.9810
최고 성능 갱신, 모델 저장: model_2.pt

에포크 10/12


Training: 100%|██████████| 448/448 [03:57<00:00,  1.88it/s]


훈련 손실: 0.0494


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.34it/s]


검증 데이터 Pearson 상관계수: 0.9813
최고 성능 갱신, 모델 저장: model_2.pt

에포크 11/12


Training: 100%|██████████| 448/448 [03:42<00:00,  2.01it/s]


훈련 손실: 0.0442


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.33it/s]


검증 데이터 Pearson 상관계수: 0.9820
최고 성능 갱신, 모델 저장: model_2.pt

에포크 12/12


Training: 100%|██████████| 448/448 [03:47<00:00,  1.97it/s]


훈련 손실: 0.0423


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.34it/s]


검증 데이터 Pearson 상관계수: 0.9820


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.35it/s]



=== 모델 3: monologg/koelectra-base-v3-discriminator 학습 시작 ===

에포크 1/12


Training: 100%|██████████| 448/448 [03:49<00:00,  1.95it/s]


훈련 손실: 2.5786


Evaluating: 100%|██████████| 50/50 [00:09<00:00,  5.38it/s]


검증 데이터 Pearson 상관계수: 0.9139
최고 성능 갱신, 모델 저장: model_3.pt

에포크 2/12


Training: 100%|██████████| 448/448 [03:49<00:00,  1.95it/s]


훈련 손실: 0.3545


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.34it/s]


검증 데이터 Pearson 상관계수: 0.9501
최고 성능 갱신, 모델 저장: model_3.pt

에포크 3/12


Training: 100%|██████████| 448/448 [03:46<00:00,  1.98it/s]


훈련 손실: 0.1920


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.32it/s]


검증 데이터 Pearson 상관계수: 0.9600
최고 성능 갱신, 모델 저장: model_3.pt

에포크 4/12


Training: 100%|██████████| 448/448 [03:32<00:00,  2.10it/s]


훈련 손실: 0.1330


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.34it/s]


검증 데이터 Pearson 상관계수: 0.9700
최고 성능 갱신, 모델 저장: model_3.pt

에포크 5/12


Training: 100%|██████████| 448/448 [04:02<00:00,  1.85it/s]


훈련 손실: 0.1025


Evaluating: 100%|██████████| 50/50 [00:09<00:00,  5.44it/s]


검증 데이터 Pearson 상관계수: 0.9725
최고 성능 갱신, 모델 저장: model_3.pt

에포크 6/12


Training: 100%|██████████| 448/448 [03:53<00:00,  1.92it/s]


훈련 손실: 0.0837


Evaluating: 100%|██████████| 50/50 [00:15<00:00,  3.29it/s]


검증 데이터 Pearson 상관계수: 0.9751
최고 성능 갱신, 모델 저장: model_3.pt

에포크 7/12


Training: 100%|██████████| 448/448 [02:52<00:00,  2.60it/s]


훈련 손실: 0.0717


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.38it/s]


검증 데이터 Pearson 상관계수: 0.9759
최고 성능 갱신, 모델 저장: model_3.pt

에포크 8/12


Training: 100%|██████████| 448/448 [04:55<00:00,  1.51it/s]


훈련 손실: 0.0632


Evaluating: 100%|██████████| 50/50 [00:10<00:00,  4.65it/s]


검증 데이터 Pearson 상관계수: 0.9785
최고 성능 갱신, 모델 저장: model_3.pt

에포크 9/12


Training: 100%|██████████| 448/448 [04:34<00:00,  1.63it/s]


훈련 손실: 0.0578


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.37it/s]


검증 데이터 Pearson 상관계수: 0.9796
최고 성능 갱신, 모델 저장: model_3.pt

에포크 10/12


Training: 100%|██████████| 448/448 [03:29<00:00,  2.14it/s]


훈련 손실: 0.0532


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.37it/s]


검증 데이터 Pearson 상관계수: 0.9812
최고 성능 갱신, 모델 저장: model_3.pt

에포크 11/12


Training: 100%|██████████| 448/448 [04:54<00:00,  1.52it/s]


훈련 손실: 0.0480


Evaluating: 100%|██████████| 50/50 [00:10<00:00,  4.65it/s]


검증 데이터 Pearson 상관계수: 0.9813
최고 성능 갱신, 모델 저장: model_3.pt

에포크 12/12


Training: 100%|██████████| 448/448 [04:04<00:00,  1.83it/s]


훈련 손실: 0.0469


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.37it/s]


검증 데이터 Pearson 상관계수: 0.9818
최고 성능 갱신, 모델 저장: model_3.pt


Evaluating: 100%|██████████| 50/50 [00:14<00:00,  3.37it/s]


앙상블 모델의 Pearson 상관계수: 0.9867



