In [None]:
pip install transformers datasets torch scikit-learn

# 사용 모델
- **bert-large-uncased**

- **특징:**
340M 파라미터를 가진 대형 모델.
더 깊고 넓은 아키텍처로 인해 더 정밀한 언어 이해 능력을 제공.
- **적합성:**
A100 GPU는 40GB 메모리를 제공하므로 bert-large를 효율적으로 학습시킬 수 있습니다.
데이터셋 크기와 GPU 성능을 고려했을 때 과적합의 위험이 낮음.
- **uncased의 의미:** 대문자 소문자 구별 x.

# 라이브러리 import
- torch
- transformers
- datasets: 데이터셋 처리 및 전처리 지원
- sklearn: Accuracy, F1 score, precision, recall을
평가지표로 사용
- gogle.colab.files: 파일 업로드
- numpy
- json: JSON형식 데이터 처리
- os: WANDB 오류 메세지 무시


In [4]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
from datasets import Dataset
from google.colab import files
import numpy as np
import json
import os

- **JSON 데이터 로드 및 python dictionary 형식으로 변환 해 주기**

- **각 행(row)에서 intent 필드를 추출 -> 고유 레이블 추출 해 주기**

- **고유 레이블 추출**: intent 필드의 문자열을 리스트로 변환 -> intent를 set에 추가하여 고유 레이블 유지
 -> 정렬된 리스트로 변환하여 unique_labels 생성

In [5]:
# Upload and load the dataset
uploaded = files.upload()
file_path = "HW4.json"

# HW4.json 파일 로드 및 고유 레이블 추출
with open("HW4.json", "r") as f:
    raw_data = [json.loads(line) for line in f]

# 고유 레이블 추출
unique_labels = set()
for row in raw_data:
    intents = eval(row['intent'])  # 문자열을 리스트로 변환
    unique_labels.update(intents)

unique_labels = sorted(list(unique_labels))  # 레이블 정렬
num_labels = len(unique_labels)

Saving HW4.json to HW4.json


## **데이터 전처리(Pre-processing Data)**
- **Data 객체 생성**

- **Label encodding:**
  - 각 샘플 intent를 unique_labels를 기준으로 이진 벡터로 변환
  - float 형식을 위해 1.0 또는 0.0으로 설정

- **Dataset에 인코딩 적용 -> 모든 샘플에 대해 encode_labels 적용 해 주기**

- **Dataset을 train, dev 데이터로 분리 해 주기**

- **preprocess_data:**
  - 텍스트 토크나이징, 최대 길이 초과하면 자르기, 모든 샘필 길이를 동일하게 padding 해 주기


In [None]:
# 데이터를 Dataset 객체로 변환
data = Dataset.from_list(raw_data)

# 레이블 인코딩 함수: 문자열 intent를 이진 벡터로 변환
def encode_labels(batch):
    intents = eval(batch['intent'])  # 문자열을 리스트로 변환
    labels = [1.0 if label in intents else 0.0 for label in unique_labels] # Float type으로 변환
    return {"labels": labels}

# 레이블 인코딩 적용
data = data.map(encode_labels)

# 훈련 및 검증 데이터셋 분리
train_data = data.filter(lambda x: x['split'] == 'train')
dev_data = data.filter(lambda x: x['split'] == 'dev')

In [None]:
# BERT 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("bert-large-uncased")

# 토크나이징 함수
def preprocess_data(batch):
    return tokenizer(batch["utterance"], truncation=True, padding="max_length", max_length=128)

# 토크나이징 적용
train_data = train_data.map(preprocess_data, batched=True)
dev_data = dev_data.map(preprocess_data, batched=True)

# 최종 확인
print(dev_data[0])
print(train_data[0])

# 평가 지표함수 정의(Computation metrics)
- **모델 예측 처리**
  - 모델 출력(logits)에서 확률이 가장 높은 2개 label index 선택
  - 이진 벡터(binart_prediction)를 생성 해 주기

- **정확도, F1, Precision, Recall 계산**

In [19]:
# WANDB 오류 메세지 무시
os.environ["WANDB_DISABLED"] = "true"

# BERT 모델 로드
model = AutoModelForSequenceClassification.from_pretrained(
    "bert-large-uncased",
    problem_type="multi_label_classification",
    num_labels=num_labels
)

# 평가 지표 함수 수정
def compute_metrics(eval_pred):
    logits, labels = eval_pred

    # Logits -> Sigmoid -> Threshold -> 상위 두 개 선택
    predictions = torch.sigmoid(torch.tensor(logits))
    top2_indices = torch.topk(predictions, k=2, dim=1).indices.numpy()  # 가장 높은 2개의 인덱스

    # 예측된 intents: 상위 두 개의 인덱스를 이진 벡터로 변환
    binary_predictions = np.zeros_like(logits)
    for i, indices in enumerate(top2_indices):
        binary_predictions[i, indices] = 1

    # labels를 numpy 배열로 변환
    labels_binary = np.array(labels)

    # 정확도 계산
    correct = sum(
        set(np.where(row == 1)[0]) == set(np.where(pred == 1)[0])
        for row, pred in zip(labels_binary, binary_predictions)
    )
    accuracy = correct / len(labels_binary)

    # F1, Precision, Recall 계산
    f1 = f1_score(labels_binary, binary_predictions, average="micro")
    precision = precision_score(labels_binary, binary_predictions, average="micro")
    recall = recall_score(labels_binary, binary_predictions, average="micro")

    return {
        "accuracy": accuracy,
        "f1": f1,
        "precision": precision,
        "recall": recall,
    }


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-large-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


# **Pre-trained 모델 평가**
- Fine-tuning 이전 기준 성능 측정

In [20]:
# Pre-trained 모델 평가
pretrained_trainer = Trainer(
    model=model,
    eval_dataset=dev_data,
    compute_metrics=compute_metrics
)

# 평가 수행
print("Evaluating Pre-trained Model...")
pretrained_results = pretrained_trainer.evaluate()
print("Pre-trained Model Evaluation Results:")
for key, value in pretrained_results.items():
    print(f"{key}: {value}")

Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


Evaluating Pre-trained Model...


Pre-trained Model Evaluation Results:
eval_loss: 0.7500137090682983
eval_model_preparation_time: 0.0066
eval_accuracy: 0.0
eval_f1: 0.015532055518836747
eval_precision: 0.015532055518836747
eval_recall: 0.015532055518836747
eval_runtime: 9.6331
eval_samples_per_second: 157.063
eval_steps_per_second: 19.724


- **Learing_rate:** BERT 기반 모델에서 권장되는 값인 2e-5 or 5e-5를 사용

- **per_device_train_batch_size:** GPU 하나 당 학습 데이터 배치 크기. Batch size가 클수록 병렬 학습 효율은 높아지고, Memory 사용량이 증가한다.

- per_device_eval_batch_size

- **num_train_epochs:** 학습 반복 횟수이다. 학습 과정을 보며 부족하면 추가로 더 학습 해 준다.

- **weight_decay:** Overfitting을 방지하기 위해 모델 가중치를 정규화 하는 데 사용된다.

- **load_best_model_at_end:** 학습 종료 시 가장 성능이 좋았던 체크포인트를 불러오기.
학습 도중 성능이 하락할 가능성을 방지

In [21]:
# 훈련 인자 설정
training_args = TrainingArguments(
    output_dir="./results",           # 결과 저장 경로
    evaluation_strategy="epoch",      # 매 epoch마다 평가
    save_strategy="epoch",            # 모델 저장 주기
    learning_rate=2e-5,               # 학습률
    per_device_train_batch_size=32,    # 배치 사이즈
    per_device_eval_batch_size=32,
    num_train_epochs=4,               # 학습 epoch 수
    weight_decay=0.01,                # 가중치 감쇠
    logging_dir="./logs",             # 로그 저장 경로
    logging_steps=50,
    load_best_model_at_end=True       # 가장 성능이 좋은 모델 저장
)

# Trainer 설정
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_data,
    eval_dataset=dev_data,
    compute_metrics=compute_metrics
)

# 모델 학습
trainer.train()

fine_tuned_results = trainer.evaluate()
print("Fine-tuned Model Evaluation Results:")
for key, value in fine_tuned_results.items():
    print(f"{key}: {value}")

Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


Epoch,Training Loss,Validation Loss,Accuracy,F1,Precision,Recall
1,0.0716,0.072346,0.0,0.013219,0.013219,0.013219
2,0.0584,0.060059,0.099141,0.446134,0.446134,0.446134
3,0.0465,0.047034,0.301388,0.637475,0.637475,0.637475
4,0.0416,0.042697,0.414408,0.697951,0.697951,0.697951


Fine-tuned Model Evaluation Results:
eval_loss: 0.0426969975233078
eval_accuracy: 0.4144084600132188
eval_f1: 0.697951090548579
eval_precision: 0.697951090548579
eval_recall: 0.697951090548579
eval_runtime: 8.2132
eval_samples_per_second: 184.215
eval_steps_per_second: 5.844
epoch: 4.0


In [26]:
training_args.num_train_epochs = 1
training_args.per_device_train_batch_size = 32
training_args.per_device_eval_batch_size = 32
training_args.learning_rate = 5e-5

trainer.train()

fine_tuned_results = trainer.evaluate()
print("Fine-tuned Model Evaluation Results:")
for key, value in fine_tuned_results.items():
    print(f"{key}: {value}")

Epoch,Training Loss,Validation Loss,Accuracy,F1,Precision,Recall
1,0.0079,0.010246,0.924653,0.962327,0.962327,0.962327


Fine-tuned Model Evaluation Results:
eval_loss: 0.01024556439369917
eval_accuracy: 0.9246530072703238
eval_f1: 0.9623265036351619
eval_precision: 0.9623265036351619
eval_recall: 0.9623265036351619
eval_runtime: 8.2068
eval_samples_per_second: 184.36
eval_steps_per_second: 5.849
epoch: 1.0


**허깅 페이스에 업로드**

In [None]:
pip install transformers huggingface_hub

In [29]:
from huggingface_hub import login

# Hugging Face API 토큰을 사용해 로그인
login("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")

In [None]:
# 모델과 토크나이저 저장
model.save_pretrained("./model_directory")
tokenizer.save_pretrained("./model_directory")

In [31]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 로컬 디렉토리에서 모델과 토크나이저 로드
model = AutoModelForSequenceClassification.from_pretrained("./model_directory")
tokenizer = AutoTokenizer.from_pretrained("./model_directory")

# Hugging Face Model Hub로 업로드
model.push_to_hub("mid-bert-large")  # 원하는 모델 이름
tokenizer.push_to_hub("mid-bert-large")

model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

README.md:   0%|          | 0.00/5.17k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/gore8906/mid-bert-large/commit/971e2fc2fb38f779d3c245778639bd266275ee99', commit_message='Upload tokenizer', commit_description='', oid='971e2fc2fb38f779d3c245778639bd266275ee99', pr_url=None, repo_url=RepoUrl('https://huggingface.co/gore8906/mid-bert-large', endpoint='https://huggingface.co', repo_type='model', repo_id='gore8906/mid-bert-large'), pr_revision=None, pr_num=None)

업로드된 모델을 사용하기 위해 모델을 load

In [None]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 업로드된 모델과 토크나이저 로드
model = AutoModelForSequenceClassification.from_pretrained("your_username/your_model_name")
tokenizer = AutoTokenizer.from_pretrained("your_username/your_model_name")