In [8]:
!pip install transformers==4.40.1 datasets==2.19.0 huggingface_hub==0.23.0 -qqq

In [None]:
# 예제 3.1) BERT와 GPT-2 모델을 활용할 때 허깅페이스 트랜스포머 코드 비교

from transformers import AutoModel, AutoTokenizer

text = 'What is Huggingface Transformers?'

# BERT 모델 활용
bert_model = AutoModel.from_pretrained('bert-base-uncased') # 모델 불러오기
bert_tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') # 토큰나이저 불러오기
encoded_input = bert_tokenizer(text, return_tensors='pt') # 입력 토큰화
bert_output = bert_model(**encoded_input) # 모델에 입력

# GPT 모델 활용
gpt_model = AutoModel.from_pretrained('gpt2') # 모델 불러오기
gpt_tokenizer = AutoTokenizer.from_pretrained('gpt2') # 토큰나이저 불러오기
encoded_input = gpt_tokenizer(text, return_tensors='pt') # 입력 토큰화
bert_output = gpt_model(**encoded_input) # 모델에 입력


In [27]:
# 예제 3.2) 모델 아이디로 모델 불러오기
from transformers import AutoModel

model_id = 'klue/roberta-base'
model = AutoModel.from_pretrained(model_id)

Some weights of RobertaModel were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [29]:
# 예제 3.4) 분류 헤드가 포함된 모델 불러오기

from transformers import AutoModelForSequenceClassification
model_id = 'SamLowe/roberta-base-go_emotions'
classification_model = AutoModelForSequenceClassification.from_pretrained(model_id)

In [30]:
# 예제 3.6) 분류 헤드가 랜덤으로 초기화된 모델 불러오기

from transformers import AutoModelForSequenceClassification
model_id = 'klue/roberta-base'
classification_model = AutoModelForSequenceClassification.from_pretrained(model_id)

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [31]:
# 예제 3.8) 토크나이저 불러오기

from transformers import AutoTokenizer
model_id = 'klue/roberta-base'
tokenizer = AutoTokenizer.from_pretrained(model_id)

In [35]:
# 예제 3.9) 토큰나이저 사용하기

tokenized = tokenizer('토큰나이저는 텍스트를 토큰 단위로 나눈다.')
print(tokenized)
print(tokenizer.convert_ids_to_tokens(tokenized['input_ids']))
print(tokenizer.decode(tokenized['input_ids']))
print(tokenizer.decode(tokenized['input_ids'], skip_special_tokens=True))

{'input_ids': [0, 1793, 2855, 7461, 2190, 2259, 8509, 2138, 1793, 2855, 5385, 2200, 20950, 18, 2], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
['[CLS]', '토', '##큰', '##나이', '##저', '##는', '텍스트', '##를', '토', '##큰', '단위', '##로', '나눈다', '.', '[SEP]']
[CLS] 토큰나이저는 텍스트를 토큰 단위로 나눈다. [SEP]
토큰나이저는 텍스트를 토큰 단위로 나눈다.


In [37]:
# 예제 3.10) 토큰나이저에 여러 문장 넣기

tokenizer(['첫 번째 문장', '두 번째 문장'])

{'input_ids': [[0, 1656, 1141, 3135, 6265, 2], [0, 864, 1141, 3135, 6265, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]}

In [38]:
# 예제 3.11) 하나의 데이터에 여러 문장이 들어가는 경우

tokenizer([['첫 번째 문장', '두 번째 문장']])

{'input_ids': [[0, 1656, 1141, 3135, 6265, 2, 864, 1141, 3135, 6265, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [43]:
# 예제 3.12) 토큰 아이디를 문자열로 복원

first_tokenized_result = tokenizer(['첫 번째 문장', '두 번째 문장'])['input_ids']
print(tokenizer.batch_decode(first_tokenized_result))

second_tokenized_result = tokenizer([['첫 번째 문장', '두 번째 문장']])['input_ids']
print(tokenizer.batch_decode(second_tokenized_result))


['[CLS] 첫 번째 문장 [SEP]', '[CLS] 두 번째 문장 [SEP]']
['[CLS] 첫 번째 문장 [SEP] 두 번째 문장 [SEP]']


In [None]:
# 예제 3.13) BERT 토큰 나이저와 RoBERTa 토큰 나이저
bert_tokenizer = AutoTokenizer.from_pretrained('klue/bert-base')
print(bert_tokenizer([['첫 번째 문장', '두 번째 문장']]))

roberta_tokenizer = AutoTokenizer.from_pretrained('klue/roberta-base')
print(roberta_tokenizer([['첫 번째 문장', '두 번째 문장']]))

en_roberta_tokenizer = AutoTokenizer.from_pretrained('roberta-base')
print(en_roberta_tokenizer([['first sentence', 'second sentence']]))

{'input_ids': [[2, 1656, 1141, 3135, 6265, 3, 864, 1141, 3135, 6265, 3]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}
{'input_ids': [[0, 1656, 1141, 3135, 6265, 2, 864, 1141, 3135, 6265, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}
{'input_ids': [[0, 9502, 3645, 2, 2, 10815, 3645, 2]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1]]}


In [47]:
# 예제 3.14) attention_mask 확인

tokenizer(['첫 번째 문장은 짧다.', '두 번째 문장은 첫 번째 문장보다 더 길다.'], padding='longest')

{'input_ids': [[0, 1656, 1141, 3135, 6265, 2073, 1599, 2062, 18, 2, 1, 1, 1, 1, 1, 1, 1], [0, 864, 1141, 3135, 6265, 2073, 1656, 1141, 3135, 6265, 2178, 2062, 831, 647, 2062, 18, 2]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [None]:
# 예제 3.15) KLUE MRC 데이터셋 다운로드
from datasets import load_dataset
klue_mrc_dataset = load_dataset('klue', 'mrc')
# klue_mrc_dataset_only_train = load_dataset('klue', 'mrc', split='train')


Generating train split: 100%|██████████| 17554/17554 [00:00<00:00, 153072.21 examples/s]
Generating validation split: 100%|██████████| 5841/5841 [00:00<00:00, 169650.78 examples/s]


In [None]:
# 예제 3.16) 로컬의 데이터 활용하기

# 로컬의 csv 데이터 파일을 활용
from datasets import load_dataset
dataset = load_dataset('csv', data_files='my_file.csv')

# 파이썬 딕셔너리 활용
from datasets import Dataset
my_dict = {'a': [1,2,3]}
dataset = Dataset.from_dict(my_dict)

# 판다스 데이터프레임 활용
from datasets import Dataset
import pandas as pd
df = pd.DataFrame({"a": [1,2,3]})
dataset =Dataset.from_pandas(df)