In [1]:
!pip install Korpora

Collecting Korpora
  Downloading Korpora-0.2.0-py3-none-any.whl.metadata (26 kB)
Collecting dataclasses>=0.6 (from Korpora)
  Downloading dataclasses-0.6-py3-none-any.whl.metadata (3.0 kB)
Downloading Korpora-0.2.0-py3-none-any.whl (57 kB)
Downloading dataclasses-0.6-py3-none-any.whl (14 kB)
Installing collected packages: dataclasses, Korpora
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2/2[0m [Korpora]
[1A[2KSuccessfully installed Korpora-0.2.0 dataclasses-0.6


In [3]:
!pip install tabulate

Collecting tabulate
  Downloading tabulate-0.9.0-py3-none-any.whl.metadata (34 kB)
Downloading tabulate-0.9.0-py3-none-any.whl (35 kB)
Installing collected packages: tabulate
Successfully installed tabulate-0.9.0


In [4]:
# 파일 불러오기 및 데이터 준비
import numpy as np # 넘파이(Numpy) 라이브러리 불러오기
import pandas as pd # 판다스(Pandas) 라이브러리 불러오기
from Korpora import Korpora # Korpora 라이브러리에서 Korpora 클래스 불러오기

# NSMC 데이터셋 로드 및 전처리
corpus = Korpora.load("nsmc") # Korpora를 사용해 네이버 영화 리뷰(nsmc) 데이터셋을 불러와 corpus 변수에 저장
df = pd.DataFrame(corpus.test).sample(20000, random_state=42) # 테스트 데이터셋을 판다스 데이터프레임으로 변환하고, 20000개를 샘플링하여 df에 저장
train, valid, test = np.split( # 데이터프레임을 학습, 검증, 테스트 셋으로 분리
    df.sample(frac=1, random_state=42), [int(0.6 * len(df)), int(0.8 * len(df))]) # 전체 데이터의 60%를 학습, 20%를 검증, 20%를 테스트 데이터로 분할
print(train.head(5).to_markdown()) # 학습 데이터의 상위 5개를 마크다운 형식으로 출력
print(f"Training Data Size : {len(train)}") # 학습 데이터의 크기 출력
print(f"Validation Data Size : {len(valid)}") # 검증 데이터의 크기 출력
print(f"Testing Data Size : {len(test)}") # 테스트 데이터의 크기 출력


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `nsmc` is already installed at /home/jovyan/Korpora/nsmc/ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at /home/jovyan/K

In [6]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.55.0-py3-none-any.whl.metadata (39 kB)
Collecting huggingface-hub<1.0,>=0.34.0 (from transformers)
  Downloading huggingface_hub-0.34.3-py3-none-any.whl.metadata (14 kB)
Collecting regex!=2019.12.17 (from transformers)
  Downloading regex-2025.7.34-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (40 kB)
Collecting tokenizers<0.22,>=0.21 (from transformers)
  Downloading tokenizers-0.21.4-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Collecting safetensors>=0.4.3 (from transformers)
  Downloading safetensors-0.6.1-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.1 kB)
Collecting hf-xet<2.0.0,>=1.1.3 (from huggingface-hub<1.0,>=0.34.0->transformers)
  Downloading hf_xet-1.1.7-cp37-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (703 bytes)
Downloading transformers-4.55.0-py3-none-any.whl (11.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━

In [7]:
# 모델에 필요한 데이터셋 생성 및 데이터 로더 준비
import torch # 파이토치(Pytorch) 라이브러리 불러오기
from transformers import ElectraTokenizer # Hugging Face Transformers에서 ElectraTokenizer 불러오기
from torch.utils.data import TensorDataset, DataLoader # Pytorch에서 TensorDataset과 DataLoader 불러오기
from torch.utils.data import RandomSampler, SequentialSampler # Pytorch에서 RandomSampler와 SequentialSampler 불러오기

def make_dataset(data, tokenizer, device): # 데이터셋을 만드는 함수 정의
    tokenized = tokenizer( # 텍스트를 토큰화하고 인코딩하는 함수
        text=data.text.tolist(), # 데이터의 텍스트 컬럼을 리스트로 변환
        padding="longest", # 가장 긴 시퀀스 길이에 맞춰 패딩
        truncation=True, # 모델의 최대 입력 길이에 맞춰 자르기
        return_tensors="pt" # PyTorch 텐서 형식으로 반환
    )
    input_ids = tokenized["input_ids"].to(device) # 토큰 ID를 디바이스로 이동
    attention_mask = tokenized["attention_mask"].to(device) # 어텐션 마스크를 디바이스로 이동
    labels = torch.tensor(data.label.values, dtype=torch.long).to(device) # 라벨을 텐서로 변환하여 디바이스로 이동
    return TensorDataset(input_ids, attention_mask, labels) # TensorDataset 객체로 반환

def get_datalodader(dataset, sampler, batch_size): # 데이터 로더를 만드는 함수 정의
    data_sampler = sampler(dataset) # 샘플러 객체 생성
    dataloader = DataLoader(dataset, sampler=data_sampler, batch_size=batch_size) # 데이터 로더 생성
    return dataloader # 데이터 로더 반환

epochs = 5 # 에폭(학습 반복 횟수)을 5로 설정
batch_size = 32 # 배치 사이즈를 32로 설정
device = "cuda" if torch.cuda.is_available() else "cpu" # GPU 사용 가능 여부에 따라 디바이스 설정
tokenizer = ElectraTokenizer.from_pretrained( # 사전 학습된 Electra 토크나이저 불러오기
    pretrained_model_name_or_path="monologg/koelectra-base-v3-discriminator", # KoELECTRA 기본 버전 3 사용
    do_lower_case=False,) # 소문자 변환하지 않음
train_dataset = make_dataset(train, tokenizer, device) # 학습 데이터셋 생성
train_dataloader = get_datalodader(train_dataset, RandomSampler, batch_size) # 학습 데이터 로더 생성 (랜덤 샘플러 사용)
valid_dataset = make_dataset(valid, tokenizer, device) # 검증 데이터셋 생성
valid_dataloader = get_datalodader(valid_dataset, SequentialSampler, batch_size) # 검증 데이터 로더 생성 (순차 샘플러 사용)
test_dataset = make_dataset(test, tokenizer, device) # 테스트 데이터셋 생성
test_dataloader = get_datalodader(test_dataset, SequentialSampler, batch_size) # 테스트 데이터 로더 생성 (순차 샘플러 사용)
print(train_dataset[0]) # 학습 데이터셋의 첫 번째 항목 출력

tokenizer_config.json:   0%|          | 0.00/61.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/467 [00:00<?, ?B/s]

(tensor([    2,  6511, 14347,  4087,  4665,  4112,  2924,  4806,    16,  3809,
         4309,  4275,    16,  3201,  4376,  2891,  4139,  4212,  4007,  6557,
         4200,     5,     5,     3,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0], device='cuda:0'), tensor([1, 1, 1, 1, 1, 1, 1, 

In [8]:
# 모델, 옵티마이저 정의 및 모델 구조 출력
from torch import optim # Pytorch에서 optim 모듈 불러오기
from transformers import ElectraForSequenceClassification # Hugging Face Transformers에서 ElectraForSequenceClassification 불러오기
model = ElectraForSequenceClassification.from_pretrained( # 사전 학습된 KoELECTRA 모델 불러오기
    pretrained_model_name_or_path="monologg/koelectra-base-v3-discriminator", # KoELECTRA 기본 버전 3 사용
    num_labels=2).to(device) # 출력 라벨 수를 2개(긍정/부정)로 설정하고 디바이스로 이동
optimizer = optim.AdamW(model.parameters(), lr=1e-5, eps=1e-8) # AdamW 옵티마이저 정의

for main_name, main_module in model.named_children(): # 모델의 최상위 모듈을 반복
    print(main_name) # 최상위 모듈 이름 출력
    for sub_name, sub_module in main_module.named_children(): # 하위 모듈을 반복
        print("└", sub_name) # 하위 모듈 이름 출력
        for ssub_name, ssub_module in sub_module.named_children(): # 그 아래 하위 모듈을 반복
            print("│  └", ssub_name) # ...
            for sssub_name, sssub_module in ssub_module.named_children(): # ...
                print("│  │  └", sssub_name) # 모델의 상세 구조를 계층적으로 출력


pytorch_model.bin:   0%|          | 0.00/452M [00:00<?, ?B/s]

Some weights of ElectraForSequenceClassification were not initialized from the model checkpoint at monologg/koelectra-base-v3-discriminator and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


electra
└ embeddings
│  └ word_embeddings
│  └ position_embeddings
│  └ token_type_embeddings
│  └ LayerNorm
│  └ dropout
└ encoder
│  └ layer
│  │  └ 0
│  │  └ 1
│  │  └ 2
│  │  └ 3
│  │  └ 4
│  │  └ 5
│  │  └ 6
│  │  └ 7
│  │  └ 8
│  │  └ 9
│  │  └ 10
│  │  └ 11
classifier
└ dense
└ activation
└ dropout
└ out_proj


model.safetensors:   0%|          | 0.00/452M [00:00<?, ?B/s]

In [9]:
# 평가 지표 및 학습/평가 함수 정의
import numpy as np # 넘파이(Numpy) 라이브러리 불러오기
from torch import nn # Pytorch에서 nn 모듈 불러오기
from tqdm import tqdm # 진행 바(Progress Bar)를 위한 tqdm 라이브러리 불러오기

def calc_accuracy(preds, labels): # 정확도를 계산하는 함수 정의
    pred_flat = np.argmax(preds, axis=1).flatten() # 예측값 배열에서 가장 큰 값의 인덱스를 찾아 평탄화
    labels_flat = labels.flatten() # 실제 라벨 배열을 평탄화
    return np.sum(pred_flat == labels_flat) / len(labels_flat) # 예측값과 실제 라벨이 일치하는 비율 계산

def train(model, optimizer, dataloader): # 모델을 학습하는 함수 정의
    model.train() # 모델을 학습 모드로 설정
    train_loss = 0.0 # 학습 손실 초기화

    for input_ids, attention_mask, labels in tqdm(dataloader): # 데이터 로더에서 배치 단위로 데이터 가져오기
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels) # 모델에 데이터 입력하여 출력값 계산

        loss = outputs.loss # 손실 값 가져오기
        train_loss += loss.item() # 손실 누적
        
        optimizer.zero_grad() # 옵티마이저의 기울기 초기화
        loss.backward() # 역전파를 통해 기울기 계산
        optimizer.step() # 옵티마이저를 사용하여 파라미터 업데이트

    train_loss = train_loss / len(dataloader) # 평균 학습 손실 계산
    return train_loss # 평균 학습 손실 반환

def evaluation(model, dataloader): # 모델을 평가하는 함수 정의
    with torch.no_grad(): # 기울기 계산을 비활성화
        model.eval() # 모델을 평가 모드로 설정
        criterion = nn.CrossEntropyLoss() # 손실 함수로 교차 엔트로피 손실 사용
        val_loss, val_accuracy = 0.0, 0.0 # 손실과 정확도 초기화
        
        for input_ids, attention_mask, labels in tqdm(dataloader): # 데이터 로더에서 배치 단위로 데이터 가져오기
            outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels) # 모델에 데이터 입력하여 출력값 계산
            logits = outputs.logits # 로짓(최종 예측값) 가져오기

            loss = criterion(logits, labels) # 로짓과 실제 라벨을 사용하여 손실 계산
            logits = logits.detach().cpu().numpy() # 로짓을 CPU로 이동하고 넘파이 배열로 변환
            label_ids = labels.to("cpu").numpy() # 라벨을 CPU로 이동하고 넘파이 배열로 변환
            accuracy = calc_accuracy(logits, label_ids) # 정확도 계산
            
            val_loss += loss.item() # 손실 누적
            val_accuracy += accuracy # 정확도 누적
    
    val_loss = val_loss/len(dataloader) # 평균 검증 손실 계산
    val_accuracy = val_accuracy/len(dataloader) # 평균 검증 정확도 계산
    return val_loss, val_accuracy # 평균 손실과 정확도 반환

In [10]:
# 학습 실행
best_loss = 10000 # 최적 손실 초기값 설정
for epoch in range(epochs): # 지정된 에폭 수만큼 반복
    train_loss = train(model, optimizer, train_dataloader) # 모델 학습 함수 호출
    val_loss, val_accuracy = evaluation(model, valid_dataloader) # 모델 평가 함수 호출
    print(f"Epoch {epoch + 1}: Train Loss: {train_loss:.4f} Val Loss: {val_loss:.4f} Val Accuracy {val_accuracy:.4f}") # 에폭별 결과 출력

    if val_loss < best_loss: # 현재 검증 손실이 이전 최적 손실보다 작으면
        best_loss = val_loss # 최적 손실 업데이트
        torch.save(model.state_dict(), "../models/ElectraForSequenceClassification.pt") # 모델 가중치 저장
        print("Saved the model weights") # 저장 메시지 출력


100%|██████████| 375/375 [04:07<00:00,  1.52it/s]
100%|██████████| 125/125 [00:27<00:00,  4.50it/s]


Epoch 1: Train Loss: 0.4397 Val Loss: 0.3188 Val Accuracy 0.8700
Saved the model weights


100%|██████████| 375/375 [04:06<00:00,  1.52it/s]
100%|██████████| 125/125 [00:27<00:00,  4.49it/s]


Epoch 2: Train Loss: 0.2775 Val Loss: 0.2953 Val Accuracy 0.8810
Saved the model weights


100%|██████████| 375/375 [04:06<00:00,  1.52it/s]
100%|██████████| 125/125 [00:27<00:00,  4.49it/s]


Epoch 3: Train Loss: 0.2115 Val Loss: 0.3390 Val Accuracy 0.8702


100%|██████████| 375/375 [04:06<00:00,  1.52it/s]
100%|██████████| 125/125 [00:27<00:00,  4.48it/s]


Epoch 4: Train Loss: 0.1551 Val Loss: 0.3492 Val Accuracy 0.8838


100%|██████████| 375/375 [04:06<00:00,  1.52it/s]
100%|██████████| 125/125 [00:27<00:00,  4.49it/s]

Epoch 5: Train Loss: 0.1075 Val Loss: 0.3980 Val Accuracy 0.8788





In [11]:
# 테스트 실행
model = ElectraForSequenceClassification.from_pretrained( # 사전 학습된 KoELECTRA 모델 불러오기
    pretrained_model_name_or_path="monologg/koelectra-base-v3-discriminator", # KoELECTRA 기본 버전 3 사용
    num_labels=2).to(device) # 출력 라벨 수를 2개로 설정하고 디바이스로 이동
model.load_state_dict(torch.load("../models/ElectraForSequenceClassification.pt")) # 저장된 모델 가중치 불러오기
test_loss, test_accuracy = evaluation(model, test_dataloader) # 테스트 데이터셋으로 모델 평가
print(f"Test Loss : {test_loss:.4f}") # 테스트 손실 출력
print(f"Test Accuracy : {test_accuracy:.4f}") # 테스트 정확도 출력

Some weights of ElectraForSequenceClassification were not initialized from the model checkpoint at monologg/koelectra-base-v3-discriminator and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
100%|██████████| 125/125 [00:33<00:00,  3.75it/s]

Test Loss : 0.3107
Test Accuracy : 0.8712



