# text label 분류를 위한 BERT Fine-tuning; 데이터 구축

* 우리는 텍스트가 주어졌을 때, 하나의 레이블을 예측하는 것을 목표로 BERT 모델을 fine-tuning 하는 방법에 대해 다룰 예정입니다.

* 그에 앞서서, 이번 시간엔 일단 데이터를 어떻게 구축해야 하는지에 대해 생각해봅시다.

## 1. 환경 설정 및 데이터 호출

우선 HuggingFace Transformers 와 Datasets 라이브러리를 설치합니다.

* HuggingFace란, 트랜스포머를 기반으로 하는 다양한 모델(transformer.models)과 학습 스크립트(transformer.Trainer)를 구현해 놓은 모듈
* 원래는 PyTorch나 Tensorflow로 layer, model 등을 선언해주고 학습 스크립트도 전부 구현해야 하지만, 허깅 페이스를 사용하면 이런 수고를 덜 수 있음

In [3]:
!pip install -q transformers datasets
# -q : quiet; 출력을 조금만

[K     |████████████████████████████████| 4.9 MB 8.6 MB/s 
[K     |████████████████████████████████| 365 kB 71.4 MB/s 
[K     |████████████████████████████████| 120 kB 77.7 MB/s 
[K     |████████████████████████████████| 6.6 MB 40.0 MB/s 
[K     |████████████████████████████████| 115 kB 61.2 MB/s 
[K     |████████████████████████████████| 212 kB 63.2 MB/s 
[K     |████████████████████████████████| 127 kB 75.8 MB/s 
[?25h

이번 실습에서는 여러분이 미리 정제한 데이터를 실습에 사용할 것입니다.

다른 데이터를 사용해보고 싶다면 다음과 같이 하시면 됩니다.

- [huggingface.co](https://huggingface.co/) 에 접속해 "datasets" 탭을 클릭
- "text-classification" 태그를 누르고 사용하고 싶은 데이터셋을 선택

이 [링크](https://huggingface.co/docs/datasets/loading#local-and-remote-files)를 살펴보시면 다양한 방법들이 나와있습니다. 

데이터를 가져오기 위해 드라이브에 마운트합니다.

In [1]:
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive


In [4]:
from datasets import load_dataset

# data path를 입력해주세요.
train_data = "/content/drive/MyDrive/중정처1주차/processed_train.csv"
eval_data = "/content/drive/MyDrive/중정처1주차/processed_eval.csv"
test_data = "/content/drive/MyDrive/중정처1주차/processed_test.csv"

dataset = load_dataset('csv', data_files={'train': train_data, 'eval': eval_data, 'test': test_data})



Downloading and preparing dataset csv/default to /root/.cache/huggingface/datasets/csv/default-853ab72b57001897/0.0.0/652c3096f041ee27b04d2232d41f10547a8fecda3e284a79a0ec4053c916ef7a...


Downloading data files:   0%|          | 0/3 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/3 [00:00<?, ?it/s]

0 tables [00:00, ? tables/s]

0 tables [00:00, ? tables/s]

0 tables [00:00, ? tables/s]

Dataset csv downloaded and prepared to /root/.cache/huggingface/datasets/csv/default-853ab72b57001897/0.0.0/652c3096f041ee27b04d2232d41f10547a8fecda3e284a79a0ec4053c916ef7a. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

보시다시피 우리의 데이터셋은 각각 훈련, 검증, 테스트 데이터로 나뉘어 있습니다.


In [5]:
dataset

DatasetDict({
    train: Dataset({
        features: ['Unnamed: 0', 'utt', '관광지 추천', '날씨 묻기', '맛집 추천', '숙소 추천', '인사', '카페 추천', '활동 추천'],
        num_rows: 3021
    })
    eval: Dataset({
        features: ['Unnamed: 0', 'utt', '관광지 추천', '날씨 묻기', '맛집 추천', '숙소 추천', '인사', '카페 추천', '활동 추천'],
        num_rows: 378
    })
    test: Dataset({
        features: ['Unnamed: 0', 'utt', '관광지 추천', '날씨 묻기', '맛집 추천', '숙소 추천', '인사', '카페 추천', '활동 추천'],
        num_rows: 377
    })
})

훈련 데이터 중 첫 번째 데이터를 한번 살펴봅시다.

In [6]:
example = dataset['train'][0]
example

{'Unnamed: 0': 779,
 'utt': '부산 디저트 많은 곳 알려주세요',
 '관광지 추천': 0,
 '날씨 묻기': 0,
 '맛집 추천': 0,
 '숙소 추천': 0,
 '인사': 0,
 '카페 추천': 1,
 '활동 추천': 0}

우리가 만든 데이터는 사용자의 발화와 함께 하나의 의도에 대한 정보(=레이블)가 담겨 있음을 확인할 수 있습니다.

이제 레이블들을 담고 있는 리스트를 생성해봅시다.

더불어 레이블들을 정수에 매핑하는 딕셔너리와, 반대로 정수를 레이블들에 매핑하는 딕셔너리도 만들어 봅시다.

In [9]:
# label 리스트
labels = [label for label in dataset['train'].features.keys() if label not in ['Unnamed: 0', 'utt']]

#위 문장을 풀면 이런 의미
#for label in dataset['train'].features.key():
#  if label not in ['Unnamed: 0', 'utt']
#     lables.append(label)

# 숫자 : label 매핑한 dictionary
id2label = {idx:label for idx, label in enumerate(labels)}

# label : 숫자 매핑한 dictionary
label2id = {label:idx for idx, label in enumerate(labels)}

print("labels :", labels)
print()
print("id2label :", id2label)
print()
print("label2id", label2id)

labels : ['관광지 추천', '날씨 묻기', '맛집 추천', '숙소 추천', '인사', '카페 추천', '활동 추천']

id2label : {0: '관광지 추천', 1: '날씨 묻기', 2: '맛집 추천', 3: '숙소 추천', 4: '인사', 5: '카페 추천', 6: '활동 추천'}

label2id {'관광지 추천': 0, '날씨 묻기': 1, '맛집 추천': 2, '숙소 추천': 3, '인사': 4, '카페 추천': 5, '활동 추천': 6}


## 2. 데이터 전처리

BERT 모델은 입력에 텍스트를 곧바로 넣지는 못합니다.

모델의 입력은 숫자여야 합니다!

그래서 우선 준비된 문자들을 숫자 형태로 만들어 주어야 합니다.

이런 숫자 형태로 변환된 결과를 `input_ids` 라고 부릅니다. 

아래의 코드에선 AutoTokenizer라는 API를 사용할 것인데, 이걸 사용하면 특정 모델이 학습되었을 당시에 사용되었던 토크나이저를 알아서 로드해줍니다.

즉 버트 모델을 훈련할 때 사용된 __사전__을 이용해 문자를 숫자로 바꿔주게 됩니다.


> 보충) 각각의 버트 모델들은 서로 다른 사전을 가지고 있습니다. 따라서 모델을 사용하기 위해서는 해당 모델을 훈련할 때 사용한 사전을 이용해야 합니다.

> 예시)

> korbert 모델의 tokenizer - 1 : 안녕, 2: 하세요 ...

> kobert 모델의 tokenizer - 1: 그래, 2: 안녕 ...





In [10]:
from transformers import AutoTokenizer #hugging face에서 받은 transformers의 AutoTokenizer
import numpy as np

# 우리가 사용할 버트 모델이 학습되었을 당시에 사용되었던 토크나이저를 로드
model_name = "klue/bert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 훈련된 tokenizer를 이용해 우리가 만든 데이터(텍스트)를 숫자로 변환하는 함수
def preprocess_data(examples):
  text = examples["utt"]
  encoding = tokenizer(text, padding="max_length", truncation=True, max_length=20) 
  # padding vs truncation
  labels_batch = {k: examples[k] for k in examples.keys() if k in labels}
  labels_matrix = np.zeros((len(text), len(labels)))

  for idx, label in enumerate(labels):
    labels_matrix[:, idx] = labels_batch[label]
  
  encoding['labels'] = labels_matrix.tolist()

  return encoding

The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.


Moving 0 files to the new cache system


0it [00:00, ?it/s]

Downloading:   0%|          | 0.00/289 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/425 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/248k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/495k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/125 [00:00<?, ?B/s]

우리는 우리가 불러온 `dataset(텍스트 형태)`를 `preprocess_data` 함수를 이용해 한번에 숫자로 변환(인코딩)할 것입니다.

`preprocess_data` 함수에 대해 자세히 살펴보기에 앞서 `dataset`에 대해 먼저 알아봅시다.

In [11]:
type(dataset)

datasets.dataset_dict.DatasetDict

이 자료형은 Huggingface의 Datesets 모듈이 제공하는 자료형으로, 다음과 같은 메서드들을 활용할 수 있습니다. [참고](https://woongjoonchoi.github.io/huggingface/Huggingface-Datasets/)

- `dataset.map` : python의 `map` 메서드와 같은 역할을 합니다. 주로, 행(row)별로 전처리가 필요할 때 `map` 메서드를 사용하게 됩니다.
- `dataset.filter` : filter method를 사용하면 특정 조건을 만족하는 dataset dict를 리턴할 수 있습니다.

간단한 예시를 통해 위의 함수가 진행되는 과정을 이해해봅시다.

In [12]:
examples = dataset["train"][0:2]
examples

{'Unnamed: 0': [779, 1467],
 'utt': ['부산 디저트 많은 곳 알려주세요', '아 부산 분위기 있는 곳 부탁드려요'],
 '관광지 추천': [0, 0],
 '날씨 묻기': [0, 0],
 '맛집 추천': [0, 1],
 '숙소 추천': [0, 0],
 '인사': [0, 0],
 '카페 추천': [1, 0],
 '활동 추천': [0, 0]}

In [13]:
text = examples["utt"]
text

['부산 디저트 많은 곳 알려주세요', '아 부산 분위기 있는 곳 부탁드려요']

In [14]:
# tokenizer를 이용해 숫자로 변환!
encoding = tokenizer(text, padding="max_length", truncation=True, max_length=20) #padding : 남은 길이 채워주기 (0으로), 행렬 곱을 위해
print(encoding)
print()
print(f"원래 문자 : {text[0]}")
print(f"숫자로 변환된 값 : {encoding['input_ids'][0]}") # input_ids = 숫자
print(f"token_type_ids : {encoding['token_type_ids'][0]}") # 문장 분리
print(f"attention_mask : {encoding['attention_mask'][0]}") # attention 계산할 파트, 실제값과 padding값 

{'input_ids': [[2, 3902, 10058, 1039, 2073, 601, 3922, 2223, 5971, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [2, 1376, 3902, 4281, 1513, 2259, 601, 5527, 2343, 2370, 2182, 3, 0, 0, 0, 0, 0, 0, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]]}

원래 문자 : 부산 디저트 많은 곳 알려주세요
숫자로 변환된 값 : [2, 3902, 10058, 1039, 2073, 601, 3922, 2223, 5971, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
token_type_ids : [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
attention_mask : [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [15]:
examples.keys()

dict_keys(['Unnamed: 0', 'utt', '관광지 추천', '날씨 묻기', '맛집 추천', '숙소 추천', '인사', '카페 추천', '활동 추천'])

In [16]:
labels_batch = {k: examples[k] for k in examples.keys() if k in labels}
labels_batch

{'관광지 추천': [0, 0],
 '날씨 묻기': [0, 0],
 '맛집 추천': [0, 1],
 '숙소 추천': [0, 0],
 '인사': [0, 0],
 '카페 추천': [1, 0],
 '활동 추천': [0, 0]}

In [17]:
labels_matrix = np.zeros((len(text), len(labels)))
for idx, label in enumerate(labels):
    labels_matrix[:, idx] = labels_batch[label]
    
labels_matrix

array([[0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0., 0., 0.]])

In [18]:
encoding['labels'] = labels_matrix.tolist()
encoding['labels']

[[0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0], [0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0]]

이제 데이터셋 전체를 인코딩해봅시다.

앞서 소개했던 map 메서드를 활용합니다.

In [19]:
dataset['train'].column_names

['Unnamed: 0',
 'utt',
 '관광지 추천',
 '날씨 묻기',
 '맛집 추천',
 '숙소 추천',
 '인사',
 '카페 추천',
 '활동 추천']

In [20]:
encoded_dataset = dataset.map(preprocess_data, batched=True, remove_columns=dataset['train'].column_names)

  0%|          | 0/4 [00:00<?, ?ba/s]

  0%|          | 0/1 [00:00<?, ?ba/s]

  0%|          | 0/1 [00:00<?, ?ba/s]

In [21]:
encoded_dataset

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 3021
    })
    eval: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 378
    })
    test: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 377
    })
})

전체 데이터셋에 대해 인코딩이 완료되었습니다.

인코딩된 결과를 한번 확인해봅시다.

In [22]:
example = encoded_dataset['train'][0]
print(example.keys())

dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'labels'])


In [23]:
print(example)

{'input_ids': [2, 3902, 10058, 1039, 2073, 601, 3922, 2223, 5971, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'labels': [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0]}


input_ids를 통해 정수로 변환된 결과를 확인할 수 있습니다.

또한 decode 메서드를 활용하면 정수를 다시 문자로 변환할 수도 있습니다.

In [24]:
print(f"tokenizer를 이용해 변환된 숫자 값 : {example['input_ids']}")
print(f"tokenizer를 이용해 숫자를 문자로 되돌린 값 : {tokenizer.decode(example['input_ids'])}")

# tokenizer의 사전 확인해보기
for ids in example['input_ids']:
  print(f"{ids} = {tokenizer.decode(ids)}")  #decode 다시ㅏ 되돌리는 거

tokenizer를 이용해 변환된 숫자 값 : [2, 3902, 10058, 1039, 2073, 601, 3922, 2223, 5971, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
tokenizer를 이용해 숫자를 문자로 되돌린 값 : [CLS] 부산 디저트 많은 곳 알려주세요 [SEP] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]
2 = [CLS]
3902 = 부산
10058 = 디저트
1039 = 많
2073 = ##은
601 = 곳
3922 = 알려
2223 = ##주
5971 = ##세요
3 = [SEP]
0 = [PAD]
0 = [PAD]
0 = [PAD]
0 = [PAD]
0 = [PAD]
0 = [PAD]
0 = [PAD]
0 = [PAD]
0 = [PAD]
0 = [PAD]


labels엔 레이블들이 담겨 있습니다.

In [25]:
example['labels']

[0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0]

위의 리스트에서 1.0 에 해당하는 label 이 무엇인지 확인해봅시다.

In [26]:
[id2label[idx] for idx, label in enumerate(example['labels']) if label == 1.0]

['카페 추천']

최종적으로, 우리의 데이터를 PyTorch tensors의 형식으로 설정합니다.

이 과정을 거치면 우리의 훈련, 검증, 테스트 데이터가 표준 PyTorch 데이터셋이 됩니다.

In [27]:
encoded_dataset.set_format("torch")