# 의생명헬스케어 데이터(text) 분류모델
> classification

## 작업 환경 설정

colab으로 생성한 노트북(.ipynb) 커널을 구글드라이브(google dirve) 경로에 마운트 합니다.

In [None]:
# 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')

작업 경로 설정

In [None]:
cd /content/drive/MyDrive/abc

### datasets 라이브러리 설치
- 간략 설명

In [None]:
!pip install datasets

### 라이브러리

python의 기본 라이브러리와 함께 Hugging Face의 datasets, transformers의 라이브러리를 불러 옵니다.

In [None]:
from datasets import load_dataset
from datasets import Dataset

import os
import datasets
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

import json, glob, random

from tqdm import tqdm

from transformers import BertTokenizer, RobertaForSequenceClassification
from transformers import Trainer, TrainingArguments
from transformers import DataCollatorWithPadding
from transformers import AutoTokenizer

from sklearn.metrics import accuracy_score, precision_recall_fscore_support, confusion_matrix

from huggingface_hub import login

In [None]:
login(token='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')

## 데이터 전처리

### 데이터셋 로드
- huggingface 데이터셋

In [None]:
ds = datasets.load_dataset('TeamUNIVA/classification_sample')['train']

데이터셋 확인

In [None]:
import random

rand = random.randint(0,len(ds))

ds[rand]


### 분류 라벨(class) 추출

분류하고자 하는 데이터의 class를 정의하고 index를 매핑(mapping)

In [None]:
# label의 고유값으로 추출
labels = sorted(list(set(ds['label'])))

# class:index 형식의 데이터로 생성
label_idx_dict = {}
for i in range(len(labels)):
    key = labels[i]

    label_idx_dict[key] = i

label_idx_dict

### 데이터 구조화

텍스트:라벨 형식으로 데이터를 재구조화
- BERT 기반의 classification 모델의 경우 분류의 대상이 되는 text와 text의 class를 입력받음으로 비교적 간단한 구조(형식)으로 처리할 수 있음
- 학습되는 label은 int 타입으로 입력

In [None]:
train_ds = []

for item in ds:

    text = item['text']
    label = item['label']

    data_dict = {
        'text':text,
        'label':label_idx_dict[label] # label_idx_dict에서 label의 index(int)를 매핑
    }

    train_ds.append(data_dict)

print(len(train_ds))

### 데이터 EDA

In [None]:
df = pd.DataFrame(train_ds)

# 텍스트 길이 추가(어절)
df['text_len'] = df['text'].apply(lambda X: len(X.split(' ')))
df.head()

### 데이터 시각화

In [None]:
# label의 수량을 시각화(barplot)
sum_value = df['label'].value_counts()
sum_value = sum_value.sort_index() # index(label)를 기준으로 정렬

# 빈도수를 막대그래프로 시각화
plt.figure(figsize=(12,6))
sum_value.plot(kind='bar', color='skyblue', edgecolor='black')
plt.title('Frequency of labels')
plt.xlabel('Labels')
plt.xticks(rotation=0)
plt.ylabel('Counts')
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.show()

print('class : label :\n',label_idx_dict)

## 데이터 임베딩
> 앞서 전처리한 데이터를 Dataset 형식으로 변환하고 train, valid, test로 분할


### Dataset 형식으로 변환
- hugging face의 datasets 라이브러리
- train set, validation set, test set으로 데이터 split


In [None]:
dataset = Dataset.from_list(train_ds)

sds = dataset.train_test_split(test_size=64,seed=42)
ssds = sds['test'].train_test_split(test_size=32,seed=42)
sds['valid'], sds['test'] = ssds['train'], ssds['test']
sds

### 학습 모델(토크나이저) 로드

In [None]:
# 학습하는 class의 숫자
class_labels_num = len(set(dataset['label']))
print('label_num :',class_labels_num)

# 학습하는 모델 ID
model_name = 'klue/roberta-base'

# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 모델 로드
model = RobertaForSequenceClassification.from_pretrained(model_name, num_labels=class_labels_num)
print(f'models : {model_name}')

데이터 인코딩 함수
- batch 처리 옵션을 적용 : truncation, padding

In [None]:
def tokenize_function(examples):
    return tokenizer(examples['text'], padding=True, truncation=True)

### 데이터 임베딩

In [None]:
# 데이터 텐서화
tokenized_datasets = sds.map(tokenize_function, batched=True)
data_collator= DataCollatorWithPadding(tokenizer=tokenizer)

## Classification 모델 학습


### Train augment 설정

In [None]:
epoch = 3

project_name = f'medical_classification_{epoch}epoch_v2' # 학습 실험 프로젝트 명명
output_dir = f'./project/{project_name}' # 모델 저장경로 설정


training_args = TrainingArguments(
    output_dir=output_dir,  # 모델 저장 경로
    num_train_epochs=epoch, # 학습 Epochs
    per_device_train_batch_size=4, # 학습 batch size
    per_device_eval_batch_size=4, # 검증 batch size
    warmup_steps=400, # warmup_steps
    weight_decay=0.01,
    logging_dir='./logs',
    logging_strategy="epoch", # 학습 중, 성능 평가 실행 기준
    load_best_model_at_end=True, # 학습 모델(checkpoint) 저장 옵션 / 학습이 끝난 후 가장 좋은 모델 로드
    metric_for_best_model="f1", # 가장 좋은 모델을 결정할 metric 기준
    greater_is_better=True, # 모델 저장 기준의 모니터링 방향. 점수 정렬 기준
    save_strategy='epoch', # 학습 모델(checkpoint) 저장 단위
    save_total_limit=1, # 저장할 학습 모델(checkpoint) 개수

    eval_strategy='epoch',  # Evaluation 실행 기준
    logging_steps=10, # 학습 중 성능 지표 출력 기준
    disable_tqdm=False, # 학습 진행률 표시 여부
    report_to="none",
)
print(f'project : {project_name}')
print(f'output_dir : {output_dir}')

### 성능 지표(benchmark) 산출 함수
- metric : accuracy, f1-score, recall, precision

In [None]:
def compute_metrics(p):
    predictions, labels = p
    predictions = np.argmax(predictions, axis=1)
    precision, recall, f1, _ = precision_recall_fscore_support(labels, predictions, average='weighted')
    acc = accuracy_score(labels, predictions)
    return {'accuracy': acc, 'f1': f1, 'precision': precision, 'recall': recall}

### trainer 설정

In [None]:
trainer = Trainer(
    model=model,  # 학습 모델
    args=training_args, # train augments
    train_dataset=tokenized_datasets['train'],  # 학습 데이터셋
    eval_dataset=tokenized_datasets['valid'], # 평가 데이터셋
    data_collator=data_collator, # data_collator 옵션
    compute_metrics=compute_metrics, # 성능 측정 함수
)


print(f'project : {project_name}')
print(f'output_dir : {output_dir}')

### Classification 학습 실행
- training_args 등에서 설정한 hyperparameter로 학습을 실행
- epoch 단위 성능 평가 실행
- 학습 완료 후, best model에 해당하는 checkpoint와 tokenizer 저장
    - checkpoint 1개 저장

In [None]:
print('\n')
print(f'project : {project_name}')

# 학습 실행(trainer)
trainer.train()

# 토크나이저 저장(학습 완료 후, 모델의 저장 경로를 확인하여 저장)
tokenizer_path = glob.glob(os.path.join(training_args.output_dir,'*'))
print(tokenizer_path)
tokenizer.save_pretrained(tokenizer_path[0])



## 성능 측정
> 학습한 모델의 benchmark와 추론 테스트를 통해 성능을 확인

### 학습 모델 로드

In [None]:
# checkpoint 경로
cpk_name = "./project/medical_classification_3epoch_v2/checkpoint-234"

# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(cpk_name)

# 모델(checkpoint) 로드
model = RobertaForSequenceClassification.from_pretrained(cpk_name, num_labels=class_labels_num)

print(cpk_name)

### benchmark 측정

benchmark 측정 함수
- accuracy, f1 score, precision, recall 출력


In [None]:
def compute_metrics(p):
    predictions, labels = p
    predictions = np.argmax(predictions, axis=1)
    precision, recall, f1, _ = precision_recall_fscore_support(labels, predictions, average='weighted')
    acc = accuracy_score(labels, predictions)
    return {'accuracy': acc, 'f1': f1, 'precision': precision, 'recall': recall}

Benchmark Augmemnt 설정

In [None]:
project_name = 'eval'

args = TrainingArguments(
    project_name,
    fp16=True,
    report_to='none',
    per_device_eval_batch_size=1
)

benchmark trainer 설정

In [None]:
from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer)

trainer = Trainer(
    model=model,
    args=args,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

In [None]:
test_data = tokenized_datasets['test']

benchmark_result = trainer.predict(test_data)
benchmark_result.metrics

### 모델 추론 테스트 (pipeline)
> 학습한 모델을 Classification 파이프라인으로 로드하여 입력 텍스트에 대한 결과를 확인

classification pipeline 로드

In [None]:
from transformers import pipeline
classifier = pipeline("text-classification", model=model,tokenizer=tokenizer,device=0)

pipeline 테스트

In [None]:
# 테스트 텍스트 -> 분류하고자하는 텍스트
text=test_data[2]['text']
print(text)
# classification pipeline 실행
result = classifier(text)

Classification 결과 확인

In [None]:
result

### 의생명 데이터 분류 실행 코드

In [None]:
# 추론된 라벨의 class를 매핑하기 위한 dict
label_reverse_dict = {value: key for key, value in label_idx_dict.items()}

# 모델 max length
max_length = 512

cls_result_list = []

# 테스트 데이터셋
test_data = tokenized_datasets['test']

In [None]:
test_data

In [None]:
for item in tqdm(test_data):
    text = item['text']
    label = item['label']

    # cls 파이프라인 실행
    cls_result = classifier(text,max_length=max_length)

    # 모델 추론 전처리
    predict = int(cls_result[0]['label'].replace('LABEL_',''))

    # 모델 추론 점수
    score = cls_result[0]['score']

    # 모델의 추론결과와 GT(Ground Turth)가 같으면 'correct'
    if label != predict:
        correct = 'incorrect'
    else:
        correct = 'correct'


    subject = label_reverse_dict[predict]


    data_dict = {
        'text':text, # 입력 텍스트
        'label':label, # GT (Ground Turth)
        'predict':predict, # 모델 추론값
        'score':score, # 모델 추론 점수
        'subject':subject, # 추론 분류
        'correct':correct # 정답 여부
    }

    cls_result_list.append(data_dict)

### 분류 결과확인
- Dataframe(pandas)

In [None]:
df = pd.DataFrame(cls_result_list)
print(df['correct'].value_counts())
df