In [27]:
!pip install torch



In [53]:
# 예제 3.1

from transformers import AutoTokenizer, AutoModel

text = "What is Huggingface Transformers?"
# BERT 모델 활용
bert_model = AutoModel.from_pretrained("bert-base-uncased")
bert_tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
encoded_input = bert_tokenizer(text, return_tensors='pt')
bert_output = bert_model(**encoded_input)

# GPT-2 모델 활용
gpt_model = AutoModel.from_pretrained('gpt2')
gpt_tokenizer = AutoTokenizer.from_pretrained('gpt2')
encoded_input = gpt_tokenizer(text, return_tensors='pt')
gpt_output = gpt_model(**encoded_input)

## 예제 3.2 모델 아이디로 모델 불러오기

In [54]:
from transformers import AutoModel
model_id = 'klue/roberta-base'
model = AutoModel.from_pretrained(model_id)

Some weights of RobertaModel were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


#### 다운로드 받은 모델이 저장되는 경로

In [55]:
from transformers import file_utils

print(file_utils.default_cache_path)

/Users/avery/.cache/huggingface/hub


## 예제 3.4. 분류 헤드가 포함된 모델 불러오기

In [56]:
from transformers import AutoModelForSequenceClassification
model_id = 'SamLowe/roberta-base-go_emotions'
classification_model = AutoModelForSequenceClassification.from_pretrained(model_id)

In [57]:
from transformers import pipeline

classifier = pipeline(task="text-classification", model=model_id, top_k=None)

sentences = ["I cannot focus on my study."]

model_outputs = classifier(sentences)
print(model_outputs[0])
# produces a list of dicts for each of the labels


Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


[{'label': 'disapproval', 'score': 0.4287703335285187}, {'label': 'neutral', 'score': 0.3653065264225006}, {'label': 'disappointment', 'score': 0.13700710237026215}, {'label': 'annoyance', 'score': 0.12686915695667267}, {'label': 'sadness', 'score': 0.019367903470993042}, {'label': 'realization', 'score': 0.01827990636229515}, {'label': 'approval', 'score': 0.015486909076571465}, {'label': 'anger', 'score': 0.008378804661333561}, {'label': 'disgust', 'score': 0.003324487479403615}, {'label': 'embarrassment', 'score': 0.0026055388152599335}, {'label': 'confusion', 'score': 0.0023298130836337805}, {'label': 'optimism', 'score': 0.002093370072543621}, {'label': 'caring', 'score': 0.0020567646715790033}, {'label': 'joy', 'score': 0.001946124481037259}, {'label': 'desire', 'score': 0.0017248146468773484}, {'label': 'relief', 'score': 0.0013772249221801758}, {'label': 'surprise', 'score': 0.0013576180208474398}, {'label': 'nervousness', 'score': 0.00135464605409652}, {'label': 'admiration', 

## 예제 3.6. 분류 헤드가 랜덤으로 초기화된 모델 불러오기

In [58]:
from transformers import AutoModelForSequenceClassification
model_id = 'klue/roberta-base'
classification_model = AutoModelForSequenceClassification.from_pretrained(model_id)

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


## 예제 3.8 토크나이저 불러오기

In [59]:
from transformers import AutoTokenizer
model_id = 'klue/roberta-base'
tokenizer = AutoTokenizer.from_pretrained(model_id)

## 예제 3.9. 토크나이저 사용하기

In [60]:
tokenized = tokenizer("토크나이저는 텍스트를 토큰 단위로 나눈다")
print(tokenized)
# {'input_ids': [0, 9157, 7461, 2190, 2259, 8509, 2138, 1793, 2855, 5385, 2200, 20950, 2],
#  'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
#  'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
# https://huggingface.co/klue/roberta-base/raw/main/tokenizer.json 에서 input_ids 를 찾아면 어떤 단어인지 찾아볼 수 있다.

print(tokenizer.convert_ids_to_tokens(tokenized['input_ids']))
# ['[CLS]', '토크', '##나이', '##저', '##는', '텍스트', '##를', '토', '##큰', '단위', '##로', '나눈다', '[SEP]']

print(tokenizer.decode(tokenized['input_ids']))
# [CLS] 토크나이저는 텍스트를 토큰 단위로 나눈다 [SEP]

print(tokenizer.decode(tokenized['input_ids'], skip_special_tokens=True))
# 토크나이저는 텍스트를 토큰 단위로 나눈다

{'input_ids': [0, 9157, 7461, 2190, 2259, 8509, 2138, 1793, 2855, 5385, 2200, 20950, 2], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
['[CLS]', '토크', '##나이', '##저', '##는', '텍스트', '##를', '토', '##큰', '단위', '##로', '나눈다', '[SEP]']
[CLS] 토크나이저는 텍스트를 토큰 단위로 나눈다 [SEP]
토크나이저는 텍스트를 토큰 단위로 나눈다


## 예제 3.10 토크나이저 여러 문장 넣기

In [61]:
tokenizer(["여러분들은 스터디 준비 잘 되가시나요?", "요즘 저는 정말 헤이해지고 있네요^^;;"])

{'input_ids': [[0, 4988, 2031, 2073, 17034, 3864, 1521, 859, 2116, 2067, 2075, 2182, 35, 2], [0, 4442, 1535, 2259, 3944, 12305, 2097, 2118, 2088, 1513, 2203, 2182, 65, 65, 31, 31, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

## 예제 3.11. 하나의 데이터에 여러 문장이 들어가는 경우

In [62]:
tokenizer([["여러분들은 스터디 준비 잘 되가시나요?", "요즘 저는 정말 헤이해지고 있네요^^;;"]])

{'input_ids': [[0, 4988, 2031, 2073, 17034, 3864, 1521, 859, 2116, 2067, 2075, 2182, 35, 2, 4442, 1535, 2259, 3944, 12305, 2097, 2118, 2088, 1513, 2203, 2182, 65, 65, 31, 31, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

## 예제 3.12. 토큰 아이디를 문자열로 복원

In [63]:
first_tokenized_result = tokenizer(["여러분들은 스터디 준비 잘 되가시나요?", "요즘 저는 정말 헤이해지고 있네요^^;;", "순서대로 읽히나?"])['input_ids']
tokenizer.batch_decode(first_tokenized_result)
# [CLS] 여러분들은 스터디 준비 잘 되가시나요? [SEP]

second_tokenized_result = tokenizer(["여러분들은 스터디 준비 잘 되가시나요?", "요즘 저는 정말 헤이해지고 있네요^^;;", "순서대로 읽히나?"])['input_ids']
tokenizer.batch_decode(second_tokenized_result)
# '[CLS] 요즘 저는 정말 헤이해지고 있네요 ^ ^ ; ; [SEP]'

third_tokenized_result = tokenizer(["여러분들은 스터디 준비 잘 되가시나요?", "요즘 저는 정말 헤이해지고 있네요^^;;", "순서대로 읽히나?"])['input_ids']
tokenizer.batch_decode(third_tokenized_result)
# [CLS] 순서대로 읽히나? [SEP]

# ['[CLS] 여러분들은 스터디 준비 잘 되가시나요? [SEP]',
#  '[CLS] 요즘 저는 정말 헤이해지고 있네요 ^ ^ ; ; [SEP]',
#  '[CLS] 순서대로 읽히나? [SEP]']

['[CLS] 여러분들은 스터디 준비 잘 되가시나요? [SEP]',
 '[CLS] 요즘 저는 정말 헤이해지고 있네요 ^ ^ ; ; [SEP]',
 '[CLS] 순서대로 읽히나? [SEP]']

## 예제 3.13. BERT 토크나이저와 RoBERTa 토크나이저

In [64]:
bert_tokenizer = AutoTokenizer.from_pretrained('klue/bert-base')
bert_tokenizer([['여러분 스터디 준비 잘 되가시나요?', '요즘 저는 정말 헤이해지고 있네요^^;;'], 
                ['여기1', '여기2']])
# {'input_ids': [[2, 1656, 1141, 3135, 6265, 3, 864, 1141, 3135, 6265, 3]],
# 'token_type_ids': [[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1]],
# 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

roberta_tokenizer = AutoTokenizer.from_pretrained('klue/roberta-base')
roberta_tokenizer([['여러분 스터디 준비 잘 되가시나요?', '요즘 저는 정말 헤이해지고 있네요^^;;'], 
                   ['여기1', '여기2']])
# {'input_ids': [[0, 1656, 1141, 3135, 6265, 2, 864, 1141, 3135, 6265, 2]],
# 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],
# 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

en_roberta_tokenizer = AutoTokenizer.from_pretrained('roberta-base')
en_roberta_tokenizer([
    ['Are you all preparing well for the study?', "Lately, I've been getting really lazy.^^;;"],
    ['here1', 'here1']
])
# {'input_ids': [[0, 9502, 3645, 2, 2, 10815, 3645, 2]],
# 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1]]}

{'input_ids': [[0, 13755, 47, 70, 4568, 157, 13, 5, 892, 116, 2, 2, 574, 7223, 6, 38, 348, 57, 562, 269, 22414, 4, 48232, 48640, 2], [0, 10859, 134, 2, 2, 10859, 134, 2]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1]]}

## 예제 3.14. attention_mask 확인

In [65]:
tokenizer(['첫 번째 문장은 짧다.', '두 번째 문장은 첫 번째 문장 보다 더 길다.'], padding='longest')

{'input_ids': [[0, 1656, 1141, 3135, 6265, 2073, 1599, 2062, 18, 2, 1, 1, 1, 1, 1, 1], [0, 864, 1141, 3135, 6265, 2073, 1656, 1141, 3135, 6265, 3632, 831, 647, 2062, 18, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

## 예제 3.15. KLUE MRC 데이터셋 다운로드

In [66]:
from datasets import load_dataset
klue_mrc_dataset = load_dataset('klue', 'mrc')
# klue_mrc_dataset_only_train = load_dataset('klue', 'mrc', split='train')

## 예제 3.16. 로컬의 데이터 활용하기

In [67]:
from datasets import load_dataset
# 로컬의 데이터 파일을 활용
dataset = load_dataset("csv", data_files="my_file.csv")

# 파이썬 딕셔너리 활용
from datasets import Dataset
my_dict = {"a": [1, 2, 3]}
dataset = Dataset.from_dict(my_dict)

# 판다스 데이터프레임 활용
from datasets import Dataset
import pandas as pd
df = pd.DataFrame({"a": [1, 2, 3]})
dataset = Dataset.from_pandas(df)

# 3.4 모델 학습시키기

## 예제 3.17. 모델 학습에 사용할 연합뉴스 데이터셋 다운로드

In [68]:
from datasets import load_dataset
klue_tc_train = load_dataset('klue', 'ynat', split='train')
klue_tc_eval = load_dataset('klue', 'ynat', split='validation')
klue_tc_train

Dataset({
    features: ['guid', 'title', 'label', 'url', 'date'],
    num_rows: 45678
})

In [69]:
klue_tc_train[0]

{'guid': 'ynat-v1_train_00000',
 'title': '유튜브 내달 2일까지 크리에이터 지원 공간 운영',
 'label': 3,
 'url': 'https://news.naver.com/main/read.nhn?mode=LS2D&mid=shm&sid1=105&sid2=227&oid=001&aid=0008508947',
 'date': '2016.06.30. 오전 10:36'}

In [70]:
klue_tc_train.features['label'].names

['IT과학', '경제', '사회', '생활문화', '세계', '스포츠', '정치']

## 예제 3.18. 실습에 사용하지 않는 불필요한 컬럼 제거

In [71]:
klue_tc_train = klue_tc_train.remove_columns(['guid', 'url', 'date'])
klue_tc_eval = klue_tc_eval.remove_columns(['guid', 'url', 'date'])
klue_tc_train

Dataset({
    features: ['title', 'label'],
    num_rows: 45678
})

## 예제 3.19. 카테고리를 문자로 표기한 label_str 컬럼 추가

In [72]:
klue_tc_train.features['label']
# ClassLabel(names=['IT과학', '경제', '사회', '생활문화', '세계', '스포츠', '정치'], id=None)

klue_tc_train.features['label'].int2str(1)
# '경제'

klue_tc_label = klue_tc_train.features['label']

def make_str_label(batch):
  batch['label_str'] = klue_tc_label.int2str(batch['label'])
  return batch

klue_tc_train = klue_tc_train.map(make_str_label, batched=True, batch_size=1000)

klue_tc_train[0]
# {'title': '유튜브 내달 2일까지 크리에이터 지원 공간 운영', 'label': 3, 'label_str': '생활문화'}

{'title': '유튜브 내달 2일까지 크리에이터 지원 공간 운영', 'label': 3, 'label_str': '생활문화'}

## 예제 3.20. 학습/검증/테스트 데이터셋 분할

In [73]:
train_dataset = klue_tc_train.train_test_split(test_size=10000, shuffle=True, seed=42)['test']
dataset = klue_tc_eval.train_test_split(test_size=1000, shuffle=True, seed=42)
test_dataset = dataset['test']
valid_dataset = dataset['train'].train_test_split(test_size=1000, shuffle=True, seed=42)['test']

## 예제 3.21. Trainer를 사용한 학습: (1) 준비

In [74]:
import torch
import numpy as np
from transformers import (
    Trainer,
    TrainingArguments,
    AutoModelForSequenceClassification,
    AutoTokenizer
)

def tokenize_function(examples):
    return tokenizer(examples["title"], padding="max_length", truncation=True)

model_id = "klue/roberta-base"
model = AutoModelForSequenceClassification.from_pretrained(model_id, num_labels=len(train_dataset.features['label'].names))
tokenizer = AutoTokenizer.from_pretrained(model_id)

train_dataset = train_dataset.map(tokenize_function, batched=True)
valid_dataset = valid_dataset.map(tokenize_function, batched=True)
test_dataset = test_dataset.map(tokenize_function, batched=True)

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


## 예제 3.22. Trainer를 사용한 학습: (2) 학습 인자와 평가 함수 정의

In [75]:
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=1,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    evaluation_strategy="epoch",
    learning_rate=5e-5,
    push_to_hub=False
)

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return {"accuracy": (predictions == labels).mean()}



## 예제 3.23. Trainer를 사용한 학습 - (3) 학습 진행

In [76]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=valid_dataset,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

trainer.train()

trainer.evaluate(test_dataset) # 정확도 0.84

Epoch,Training Loss,Validation Loss,Accuracy
1,0.5352,0.559551,0.841


{'eval_loss': 0.5108214020729065,
 'eval_accuracy': 0.843,
 'eval_runtime': 105.4904,
 'eval_samples_per_second': 9.48,
 'eval_steps_per_second': 1.185,
 'epoch': 1.0}

## 예제 3.24. Trainer를 사용하지 않는 학습: (1) 학습을 위한 모델과 토크나이저 준비

In [77]:
import torch
from tqdm.auto import tqdm
from torch.utils.data import DataLoader
from transformers import AdamW

def tokenize_function(examples): # 제목(title) 컬럼에 대한 토큰화
    return tokenizer(examples["title"], padding="max_length", truncation=True)

# 모델과 토크나이저 불러오기
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_id = "klue/roberta-base"
model = AutoModelForSequenceClassification.from_pretrained(model_id, num_labels=len(train_dataset.features['label'].names))
tokenizer = AutoTokenizer.from_pretrained(model_id)
model.to(device)

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


RobertaForSequenceClassification(
  (roberta): RobertaModel(
    (embeddings): RobertaEmbeddings(
      (word_embeddings): Embedding(32000, 768, padding_idx=1)
      (position_embeddings): Embedding(514, 768, padding_idx=1)
      (token_type_embeddings): Embedding(1, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): RobertaEncoder(
      (layer): ModuleList(
        (0-11): 12 x RobertaLayer(
          (attention): RobertaAttention(
            (self): RobertaSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): RobertaSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
         