### Created on 2025
### @author: S.W

### 0. 라이브러리 불러오기

In [1]:
import torch, random, numpy as np
from datasets import load_dataset
from transformers import (
    AutoTokenizer, 
    AutoModelForSequenceClassification, 
    DataCollatorWithPadding,
    TrainingArguments, 
    Trainer, 
    pipeline
)
from sklearn.metrics import accuracy_score, f1_score

SEED = 42
torch.manual_seed(SEED); random.seed(SEED); np.random.seed(SEED)

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

#### 1. 데이터 로드  (IMDb 리뷰: label 0=부정, 1=긍정)


In [2]:
raw_ds = load_dataset("imdb")                 # train / test 분리돼 제공

# 데이터셋 구조 확인
print(f"  데이터셋 기본 정보:")
print(f"  전체 구조: {raw_ds}")
print(f"  훈련 세트 크기: {len(raw_ds['train']):,}개")
print(f"  테스트 세트 크기: {len(raw_ds['test']):,}개")

  데이터셋 기본 정보:
  전체 구조: DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label'],
        num_rows: 50000
    })
})
  훈련 세트 크기: 25,000개
  테스트 세트 크기: 25,000개


In [3]:
train_ds = raw_ds["train"].shuffle(SEED).select(range(8000))   # 데모용 소규모 샘플
test_ds  = raw_ds["test"].shuffle(SEED).select(range(2000))

In [4]:
# 데이터 샘플 확인
print(f"\n🔍 첫 번째 샘플 확인:")
first_sample = train_ds[0]
print(f"  리뷰 내용 (처음 200자): '{first_sample['text'][:200]}...'")
print(f"  감정 레이블: {first_sample['label']} ({'긍정' if first_sample['label'] == 1 else '부정'})")

# 레이블 분포 확인
print(f"\n📈 훈련 데이터 레이블 분포 확인:")
train_labels = [sample['label'] for sample in raw_ds["train"]]
positive_count = sum(train_labels)
negative_count = len(train_labels) - positive_count

print(f"  긍정 리뷰 (label=1): {positive_count:,}개 ({positive_count/len(train_labels)*100:.1f}%)")
print(f"  부정 리뷰 (label=0): {negative_count:,}개 ({negative_count/len(train_labels)*100:.1f}%)")
print(f"  → 균형잡힌 데이터셋입니다!")


🔍 첫 번째 샘플 확인:
  리뷰 내용 (처음 200자): 'There is no relation at all between Fortier and Profiler but the fact that both are police series about violent crimes. Profiler looks crispy, Fortier looks classic. Profiler plots are quite simple. F...'
  감정 레이블: 1 (긍정)

📈 훈련 데이터 레이블 분포 확인:
  긍정 리뷰 (label=1): 12,500개 (50.0%)
  부정 리뷰 (label=0): 12,500개 (50.0%)
  → 균형잡힌 데이터셋입니다!


#### 2. 토크나이저 및 전처리

In [5]:
# BERT 모델의 체크포인트 이름 설정
# "bert-base-uncased": 소문자로 변환된 기본 BERT 모델
# - base: 12개 레이어, 768차원 히든 사이즈 (small 버전도 있음)
# - uncased: 대소문자를 구분하지 않음 (모든 텍스트가 소문자로 변환됨)
model_ckpt = "bert-base-uncased"

# 사전 훈련된 BERT 토크나이저 로드
# 토크나이저: 텍스트를 모델이 이해할 수 있는 숫자(토큰 ID)로 변환하는 도구
# BERT는 WordPiece 토크나이저를 사용 (단어를 서브워드로 분할)
tokenizer = AutoTokenizer.from_pretrained(model_ckpt)

def tokenize(batch):
    """
    배치 단위로 텍스트를 토크나이즈하는 함수
    
    Args:
        batch (dict): 'text' 키를 가진 배치 데이터
        
    Returns:
        dict: 토크나이즈된 결과 (input_ids, attention_mask 등)
    """
    return tokenizer(
        batch["text"],           # 토크나이즈할 텍스트 리스트
        truncation=True         # 최대 길이를 초과하면 자동으로 잘라내기
                               # BERT의 기본 최대 길이는 512 토큰
    )

# 훈련 데이터셋에 토크나이제이션 적용
# map 함수: 데이터셋의 모든 샘플에 대해 tokenize 함수 적용
train_ds = train_ds.map(
    tokenize,                   # 적용할 함수
    batched=True,              # 배치 단위로 처리 (속도 향상)
    remove_columns=["text"]    # 원본 텍스트 컬럼 제거 (메모리 절약)
)

# 테스트 데이터셋에도 동일하게 적용
test_ds = test_ds.map(
    tokenize, 
    batched=True, 
    remove_columns=["text"]
)

# 데이터 콜레이터 설정
# DataCollatorWithPadding: 배치 내에서 길이가 다른 시퀀스들을 동일한 길이로 맞춤
# - 짧은 시퀀스에는 패딩 토큰([PAD])을 추가
# - attention_mask도 자동으로 생성 (실제 토큰은 1, 패딩은 0)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)



#### 3. 모델 초기화 (출력 라벨 2개)

In [6]:
# 사전 훈련된 BERT 모델을 분류 작업용으로 로드
# AutoModelForSequenceClassification: 시퀀스 분류를 위한 모델 클래스
# - 기존 BERT 모델 위에 분류용 헤드(classifier head)가 추가됨
# - 분류 헤드: 768차원 → num_labels차원으로 변환하는 선형 레이어
model = AutoModelForSequenceClassification.from_pretrained(
    model_ckpt,          # 사용할 사전 훈련 모델 ("bert-base-uncased")
    num_labels=2         # 출력 라벨의 개수 (이진 분류이므로 2개)
                        # 예: 긍정(1), 부정(0) 또는 스팸(1), 정상(0)
)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


#### 4. 평가지표 함수

In [7]:
def compute_metrics(eval_pred):
    """
    모델의 성능을 평가하는 함수
    Trainer에서 validation 중에 자동으로 호출됨
    
    Args:
        eval_pred (EvalPrediction): 예측 결과와 정답 라벨을 담은 객체
            - predictions: 모델의 예측값 (로짓/점수)
            - label_ids: 실제 정답 라벨
    
    Returns:
        dict: 평가 지표들의 딕셔너리
    """
    
    # eval_pred에서 예측값(로짓)과 정답 라벨 추출
    logits, labels = eval_pred
    
    # 로짓을 실제 예측 클래스로 변환
    # argmax: 가장 큰 값의 인덱스를 반환
    # axis=-1: 마지막 차원(클래스 차원)에서 최대값 찾기
    preds = logits.argmax(axis=-1)
    
    # 평가 지표 계산 및 반환
    return {
        "accuracy": accuracy_score(labels, preds),
        "f1": f1_score(labels, preds)
    }

#### 5. 학습 세팅 및 Trainer

In [8]:
training_args = TrainingArguments(
    output_dir="./bert-imdb",
    num_train_epochs=1,              # 데모용 1 epoch
    per_device_train_batch_size=16,
    per_device_eval_batch_size=32,
    evaluation_strategy="epoch",
    save_strategy="no",
    learning_rate=2e-5,
    weight_decay=0.01,
    fp16=torch.cuda.is_available(),  # GPU-FP16 가속
    report_to="none"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_ds,
    eval_dataset=test_ds,
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

trainer.train()
metrics = trainer.evaluate()
print(f"\nTest accuracy: {metrics['eval_accuracy']:.4f},  F1: {metrics['eval_f1']:.4f}")

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Epoch,Training Loss,Validation Loss,Accuracy,F1
1,No log,0.212452,0.921,0.922167





Test accuracy: 0.9210,  F1: 0.9222


#### 6. 추론(Inference) 파이프라인

In [9]:
clf = pipeline(
    "sentiment-analysis",
    model=model,
    tokenizer=tokenizer,
    device=0 if torch.cuda.is_available() else -1
)

samples = [
    "This movie was an absolute masterpiece. Brilliant acting!",
    "I wish I could get my two hours back. It was painfully boring."
]

print("\n=== Prediction Examples ===")
for s in samples:
    print(f"{s}  ->  {clf(s)[0]}")

Using /home/crocus/.cache/torch_extensions/py39_cu118 as PyTorch extensions root...
Detected CUDA files, patching ldflags
Emitting ninja build file /home/crocus/.cache/torch_extensions/py39_cu118/cuda_kernel/build.ninja...
Building extension module cuda_kernel...
Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)


[1/4] /usr/local/cuda-11.8/bin/nvcc  -DTORCH_EXTENSION_NAME=cuda_kernel -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE=\"_gcc\" -DPYBIND11_STDLIB=\"_libstdcpp\" -DPYBIND11_BUILD_ABI=\"_cxxabi1011\" -isystem /home/crocus/anaconda3/envs/keri_test/lib/python3.9/site-packages/torch/include -isystem /home/crocus/anaconda3/envs/keri_test/lib/python3.9/site-packages/torch/include/torch/csrc/api/include -isystem /home/crocus/anaconda3/envs/keri_test/lib/python3.9/site-packages/torch/include/TH -isystem /home/crocus/anaconda3/envs/keri_test/lib/python3.9/site-packages/torch/include/THC -isystem /usr/local/cuda-11.8/include -isystem /home/crocus/anaconda3/envs/keri_test/include/python3.9 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS__ -D__CUDA_NO_HALF_CONVERSIONS__ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_75,code=sm_75 -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-op

Loading extension module cuda_kernel...
Xformers is not installed correctly. If you want to use memory_efficient_attention to accelerate training use the following command to install Xformers
pip install xformers.


[4/4] c++ cuda_kernel.cuda.o cuda_launch.cuda.o torch_extension.o -shared -L/home/crocus/anaconda3/envs/keri_test/lib/python3.9/site-packages/torch/lib -lc10 -lc10_cuda -ltorch_cpu -ltorch_cuda -ltorch -ltorch_python -L/usr/local/cuda-11.8/lib64 -lcudart -o cuda_kernel.so

=== Prediction Examples ===
This movie was an absolute masterpiece. Brilliant acting!  ->  {'label': 'LABEL_1', 'score': 0.9814226627349854}
I wish I could get my two hours back. It was painfully boring.  ->  {'label': 'LABEL_0', 'score': 0.9322379231452942}
