<a href="https://colab.research.google.com/github/kahram-y/first-repository/blob/master/DeepLearning/transformer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. 트랜스포머 이후의 NLP
  - BERT: 문맥을 양쪽으로 읽는 모델 (Encoder-only)
  - GPT: 자동으로 글을 쓰는 모델 (Decoder-only)
  - T5: 모든 것을 텍스트로! (Encoder-Decoder)

2. 파인튜닝 예시
  1) DistilBERT
  2) roBERTa

# BERT로 감성 분석하기

In [None]:
from transformers import pipeline

# 감성 분석을 위한 파이프라인 설정
classifier = pipeline("sentiment-analysis")
# 감성 분석 태스크에 모델을 설정하지 않으면
# 'distilbert/distilbert-base-uncased-finetuned-sst-2-english' 모델이 기본으로 설정됩니다.

classifier("I've been waiting for a HuggingFace couse my whole life.")

In [None]:
# 한국어로 학습된 모델을 불러와서 사용할 수도 있습니다.
classifier = pipeline("sentiment-analysis", model='tabularisai/multilingual-sentiment-analysis')

# 여러 개의 문장을 한 번에 전달할 수도 있습니다.
sentence1 = "명작이라 해서 봤는 데 연기력 최상 몰입도 최상 진짜 명작인듯"
sentence2 = "원작의 긴장감을 제대로 살려내지못했다."
sentence3 = "요즘 보구 있는데...밤새는줄 모르네요"

texts = [sentence1, sentence2, sentence3]
classifier(texts)

config.json:   0%|          | 0.00/851 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/541M [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Device set to use cuda:0


[{'label': 'Very Positive', 'score': 0.6112086772918701},
 {'label': 'Negative', 'score': 0.7739552855491638},
 {'label': 'Negative', 'score': 0.28620484471321106}]

# 실습: GPT로 텍스트 생성하기

In [None]:
from transformers import pipeline

# 텍스트 생성을 위한 파이프라인 설정
generator = pipeline("text-generation")
# 텍스트 생성에 모델을 설정하지 않으면 'openai-community/gpt2' 모델이 기본으로 설정됩니다.
generator("In this course, we will teach you how to")

In [None]:
# 한국어로 학습된 gpt 모델을 불러와서 사용해볼 수 있습니다.
generator = pipeline("text-generation", model="skt/kogpt2-base-v2")
generator("근육이 커지기 위해서는")

config.json: 0.00B [00:00, ?B/s]

pytorch_model.bin:   0%|          | 0.00/513M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/513M [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0


[{'generated_text': '근육이 커지기 위해서는 우선 건강 상태를 봐야 한다.\n특히 비타민D와 무기질 등 영양소를 충분히 공급해줘야 한다.\n비타민D는 햇빛을 잘 받아들이는 성질이 있어 햇빛에 노출되는 시간이 길어질수록 비타민D의 흡수율이 높아진다.\n따라서 비타민D는 체내에서 비타민D가 흡수되는 속도를 증가시키기 때문에 이를 보충해주는 역할을 한다.\n또한 비타민D가 부족한 경우 비타민D가 흡수되지 못하는 경우가 많다.\n비타민D는 체내에 흡수되면 체내에서 분해되지 못해 세포노화에 영향을 줄 수 있는 것으로 알려져 있다.\n하지만 비타민D는 체내 흡수되면 파괴되기 때문에 체내에 흡수되는 양이 적어지므로 체내에 흡수되지 않도록 주의해야 한다.\n또한 비타민D는 비타민D의 흡수속도가 빨라져도 체내 흡수되지 않도록 하기 때문에 체내에 흡수되지 않도록 주의해야 한다.\n특히 비타민D의 흡수속도를 높일 수 있는 음식이나 식품은 피하는 것이 좋다.\n따라서 비타민D가 부족한 경우, 특히 과일을 많이 먹는 것은 피하는 것이 좋다.\n비타민D가 부족한 사람이라면 과일을 많이 먹고, 채소와 과일을 많이 먹는 것도 도움이 된다.\n비타민D가 결핍됐다면 비타민D가 풍부한 음식을 먹는 것이 좋다.\n비타민D가 풍부한 음식은 체내에 흡수되지 않도록 하는 것이 중요하다.\n비타민D의 흡수를 방해하기 때문에 과일을 많이 먹는 것은 피한다.\n과일을 많이 먹는 것은'}]

# T5로 긴 텍스트 요약하기

In [None]:
from transformers import pipeline

summarizer = pipeline("summarization", model='google-t5/t5-small')

summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of
    graduates in traditional engineering disciplines such as mechanical, civil,
    electrical, chemical, and aeronautical engineering declined, but in most of
    the premier American universities engineering curricula now concentrate on
    and encourage largely the study of engineering science. As a result, there
    are declining offerings in engineering subjects dealing with infrastructure,
    the environment, and related issues, and greater concentration on high
    technology subjects, largely supporting increasingly complex scientific
    developments. While the latter is important, it should not be at the expense
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other
    industrial countries in Europe and Asia, continue to encourage and advance
    the teaching of engineering. Both China and India, respectively, graduate
    six and eight times as many traditional engineers as does the United States.
    Other industrial countries at minimum maintain their output, while America
    suffers an increasingly serious decline in the number of engineering graduates
    and a lack of well-educated engineers.
"""
    )

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/242M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0


[{'summary_text': 'the number of graduates in traditional engineering disciplines has declined . in most of the premier american universities engineering curricula now concentrate on and encourage largely the study of engineering science . rapidly developing economies such as China and India continue to encourage and advance the teaching of engineering .'}]

In [None]:
# 마찬가지로 한국어로 학습된 모델도 사용해볼까요?

summarizer = pipeline("summarization", model='eenzeenee/t5-small-korean-summarization')

summarizer(
	"""
	인공지능은 컴퓨터 과학의 한 분야로, 기계가 인간의 지능적 행동을 모방할 수 있도록 하는
	기술입니다. 최근 몇 년간 딥러닝 기술의 발전으로 인공지능은 이미지 인식, 자연어 처리,
	음성 인식 등 다양한 분야에서 눈부신 성과를 거두고 있습니다. 특히 트랜스포머 아키텍처의
	등장 이후 대규모 언어 모델이 발전하면서 인공지능의 능력은 비약적으로 향상되었습니다.
	"""
)

config.json:   0%|          | 0.00/780 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/383M [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0
Token indices sequence length is longer than the specified maximum sequence length for this model (142 > 128). Running this sequence through the model will result in indexing errors


[{'summary_text': '딥러닝 기술의 발전으로 인공지능은 컴퓨터 과학의 한 분야로 기계가 인간의 지능적 행동을 모방할 수 있도록 하는 \t기술이다. 최근 딥러닝 기술의 발전으로 인공지능은 이미지 인식 자연어 처리 등 다양한 분야에서 눈부신 성과를 거두고 있다.'}]

# Hugging face로 파인튜닝하기
**1) DistilBERT IMDB 예제**

Hugging Face Hub에서는 다양한 모델뿐만 아니라 데이터셋까지 공유할 수 있습니다. 이번 실습에서는 Hugging Face 라이브러리를 이용해서 데이터셋과 모델을 불러와서 파인튜닝하고 평가하는 것까지 진행해보도록 하겠습니다.  
이번 시간에 진행할 작업은 텍스트 분류(Text classification)입니다. 텍스트에 레이블이나 클래스를 할당하는 대표적인 자연어 처리 작업입니다. 특히, 텍스트에 긍정, 부정, 중립과 같은 레이블을 할당하는 감정분석의 형태로 많이 사용됩니다. IMDb 데이터셋을 통해서 영화리뷰 감정분석을 할 수 있는 DistilBERT 모델을 만들어 보겠습니다.
해당 실습 자료는 [Text classification](https://huggingface.co/docs/transformers/tasks/sequence_classification) 자료를 참고해 만들었습니다.

시작하기 전에, 필요한 라이브러리를 설치합니다.  
* 이번 실습은 학습에 상당한 시간이 소요됩니다. 코랩에서 진행하시는 경우, 런타임 유형을 T4 GPU로 변경하고 진행해주세요!
* 코랩에서 진행하신다면 evaluate 라이브러리만 설치하셔도 됩니다.

In [None]:
from transformers import pipeline

# 감성 분석을 위한 파이프라인 설정
classifier = pipeline("sentiment-analysis")
# 감성 분석 태스크에 모델을 설정하지 않으면
# 'distilbert/distilbert-base-uncased-finetuned-sst-2-english' 모델이 기본으로 설정됩니다.

classifier("I've been waiting for a HuggingFace couse my whole life.")

In [None]:
# 한국어로 학습된 모델을 불러와서 사용할 수도 있습니다.
classifier = pipeline("sentiment-analysis", model='nlp04/korean_sentiment_analysis_kcelectra')

# 여러 개의 문장을 한 번에 전달할 수도 있습니다.
sentence1 = "10년의 기다림에 우리는 주토피아에 살고 싶었나봐요..ㅠㅠㅠㅠㅠ 귀여운 캐릭터들이 웃음과 재미를 주는 사랑스런 영화이네요. 둘이 사귀어라..."
sentence2 = "제발 그냥 보세요 ost .. ㅜㅜㅜㅜㅜㅜㅜㅜ 무려 애드쉬런이 작사작곡함.."
sentence3 = "토끼랑 여우 별로 안어울림 나랑 사귀어야됨 ㅅㄱ"
sentence4 = "아무생각없이 본거같아요... 진심..."
sentence5 = "무어라 말을해야할지억지스럽긴하더이다"

texts = [sentence1, sentence2, sentence3, sentence4, sentence5]
classifier(texts)

config.json: 0.00B [00:00, ?B/s]

pytorch_model.bin:   0%|          | 0.00/511M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/511M [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Device set to use cuda:0


[{'label': '기쁨(행복한)', 'score': 0.5733898282051086},
 {'label': '슬픔(우울한)', 'score': 0.412785142660141},
 {'label': '즐거운(신나는)', 'score': 0.45976412296295166},
 {'label': '슬픔(우울한)', 'score': 0.6808212399482727},
 {'label': '슬픔(우울한)', 'score': 0.5290804505348206}]

In [None]:
!pip install transformers datasets evaluate accelerate

Collecting evaluate
  Downloading evaluate-0.4.6-py3-none-any.whl.metadata (9.5 kB)
Downloading evaluate-0.4.6-py3-none-any.whl (84 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: evaluate
Successfully installed evaluate-0.4.6


In [None]:
import transformers
print(transformers.__version__)

4.57.3


### IMDB 데이터셋 불러오기
hugging face hub의 [Datasets](https://huggingface.co/datasets)에서 학습을 위한 다양한 데이터셋을 확인하실 수 있습니다.
이번시간에 확인할 것은 IMDB 데이터셋으로, IMDB 사이트에서 추출된 영화 리뷰 데이터셋입니다. 긍정과 부정의 이진 감정 분류 라벨링이 되어있는 train 25,000개, test 25,000개 텍스트 데이터를 제공합니다. 추가로 라벨이 지정되지 않은 데이터도 있습니다. 데이터셋에 대한 자세한 설명과 preview는 [IMDB 데이터셋 페이지](https://huggingface.co/datasets/stanfordnlp/imdb)에서 확인하실 수 있습니다.

In [None]:
from datasets import load_dataset

imdb = load_dataset("imdb")

README.md: 0.00B [00:00, ?B/s]

plain_text/train-00000-of-00001.parquet:   0%|          | 0.00/21.0M [00:00<?, ?B/s]

plain_text/test-00000-of-00001.parquet:   0%|          | 0.00/20.5M [00:00<?, ?B/s]

plain_text/unsupervised-00000-of-00001.p(…):   0%|          | 0.00/42.0M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating unsupervised split:   0%|          | 0/50000 [00:00<?, ? examples/s]

In [None]:
imdb

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label'],
        num_rows: 50000
    })
})

훈련세트, 테스트세트, 그리고 라벨이 지정되지 않은 unsupervised 세트를 포함하는 DatasetDict 객체를 얻을 수 있습니다. 각 데이터 세트는 text와 label을 포함하고 있습니다. 각각을 살펴볼까요?

In [None]:
# imdb['train']['text'] 슬라이싱으로 train 데이터셋의 'text' 컬럼 전체를 볼 수 있습니다.
imdb["train"]['text']

Column(['I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered "controversial" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes are few and far bet

In [None]:
# 혹은 숫자 인덱싱으로 데이터 샘플 하나를 출력할 수도 있습니다. 데이터 샘플은 text와 label로 구성되어 있습니다.
imdb["test"][0]

{'text': 'I love sci-fi and am willing to put up with a lot. Sci-fi movies/TV are usually underfunded, under-appreciated and misunderstood. I tried to like this, I really did, but it is to good TV sci-fi as Babylon 5 is to Star Trek (the original). Silly prosthetics, cheap cardboard sets, stilted dialogues, CG that doesn\'t match the background, and painfully one-dimensional characters cannot be overcome with a \'sci-fi\' setting. (I\'m sure there are those of you out there who think Babylon 5 is good sci-fi TV. It\'s not. It\'s clichéd and uninspiring.) While US viewers might like emotion and character development, sci-fi is a genre that does not take itself seriously (cf. Star Trek). It may treat important issues, yet not as a serious philosophy. It\'s really difficult to care about the characters here as they are not simply foolish, just missing a spark of life. Their actions and reactions are wooden and predictable, often painful to watch. The makers of Earth KNOW it\'s rubbish as 

데이터셋을 전처리하기 위해 텍스트를 모델이 이해할 수 있는 숫자로 변환해야 합니다. 이는 토크나이저(Tokenizer)를 통해 수행됩니다. 토크나이저에 한 문장 또는 문장 목록을 입력할 수 있으므로, 각 데이터의 첫번째, 두번째 문장을 다음과 같이 직접 토큰화할 수 있습니다:

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("distilbert/distilbert-base-uncased")

tokenized_sentence1 = tokenizer(imdb["train"]["text"][0])
tokenized_sentence2 = tokenizer(imdb["train"]["text"][1])

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

토큰화된 텍스트를 살펴보면, `input_ids`와 `attention_mask`로 구성되어있는 것을 볼 수 있습니다. `input_ids` 는 문장의 토큰에 대한 고유 정수값입니다. `attention_mask`는 `input_ids` 텐서와 동일한 모양을 가지며 0과 1로 채워진 텐서입니다. 1은 해당 토큰에 주의를 기울여야 함을 나타내고, 0은 해당 토큰에 주의를 기울이지 않아야 함을 나타냅니다. 이후 시퀀스의 길이를 맞추기 위해 들어갈 padding 부분에 주의를 기울이지 않도록 하는 역할입니다. 아직은 padding 처리를 하지 않았으므로, `attention_mask`는 1로만 채워져 있습니다.

In [None]:
tokenized_sentence1

{'input_ids': [101, 1045, 12524, 1045, 2572, 8025, 1011, 3756, 2013, 2026, 2678, 3573, 2138, 1997, 2035, 1996, 6704, 2008, 5129, 2009, 2043, 2009, 2001, 2034, 2207, 1999, 3476, 1012, 1045, 2036, 2657, 2008, 2012, 2034, 2009, 2001, 8243, 2011, 1057, 1012, 1055, 1012, 8205, 2065, 2009, 2412, 2699, 2000, 4607, 2023, 2406, 1010, 3568, 2108, 1037, 5470, 1997, 3152, 2641, 1000, 6801, 1000, 1045, 2428, 2018, 2000, 2156, 2023, 2005, 2870, 1012, 1026, 7987, 1013, 1028, 1026, 7987, 1013, 1028, 1996, 5436, 2003, 8857, 2105, 1037, 2402, 4467, 3689, 3076, 2315, 14229, 2040, 4122, 2000, 4553, 2673, 2016, 2064, 2055, 2166, 1012, 1999, 3327, 2016, 4122, 2000, 3579, 2014, 3086, 2015, 2000, 2437, 2070, 4066, 1997, 4516, 2006, 2054, 1996, 2779, 25430, 14728, 2245, 2055, 3056, 2576, 3314, 2107, 2004, 1996, 5148, 2162, 1998, 2679, 3314, 1999, 1996, 2142, 2163, 1012, 1999, 2090, 4851, 8801, 1998, 6623, 7939, 4697, 3619, 1997, 8947, 2055, 2037, 10740, 2006, 4331, 1010, 2016, 2038, 3348, 2007, 2014, 3689, 383

In [None]:
tokenized_sentence2

{'input_ids': [101, 1000, 1045, 2572, 8025, 1024, 3756, 1000, 2003, 1037, 15544, 19307, 1998, 3653, 6528, 20771, 19986, 8632, 1012, 2009, 2987, 1005, 1056, 3043, 2054, 2028, 1005, 1055, 2576, 5328, 2024, 2138, 2023, 2143, 2064, 6684, 2022, 2579, 5667, 2006, 2151, 2504, 1012, 2004, 2005, 1996, 4366, 2008, 19124, 3287, 16371, 25469, 2003, 2019, 6882, 13316, 1011, 2459, 1010, 2008, 3475, 1005, 1056, 2995, 1012, 1045, 1005, 2310, 2464, 1054, 1011, 6758, 3152, 2007, 3287, 16371, 25469, 1012, 4379, 1010, 2027, 2069, 3749, 2070, 25085, 5328, 1010, 2021, 2073, 2024, 1996, 1054, 1011, 6758, 3152, 2007, 21226, 24728, 22144, 2015, 1998, 20916, 4691, 6845, 2401, 1029, 7880, 1010, 2138, 2027, 2123, 1005, 1056, 4839, 1012, 1996, 2168, 3632, 2005, 2216, 10231, 7685, 5830, 3065, 1024, 8040, 7317, 5063, 2015, 11820, 1999, 1996, 9478, 2021, 2025, 1037, 17962, 21239, 1999, 4356, 1012, 1998, 2216, 3653, 6528, 20771, 10271, 5691, 2066, 1996, 2829, 16291, 1010, 1999, 2029, 2057, 1005, 2128, 5845, 2000, 1996

그렇다면 이제 전체 데이터를 변환할 차례입니다. 데이터를 `DatasetDict` 형태로 유지하기 위해 `map()` 메서드를 활용할 수 있습니다. `map()` 메서드는 데이터셋의 각 요소에 함수를 적용하는 방식으로 작동하므로, 입력값을 토큰화하는 함수를 정의해 보겠습니다.

In [None]:
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True)

이제 모든 데이터셋에 토큰화 함수를 한 번에 적용해 보겠습니다. `map` 함수 호출 시 `batched=True`를 사용하여 데이터셋의 여러 요소에 함수를 동시에 적용하고, 각 요소에 개별적으로 적용하지 않습니다. 이를 통해 전처리 속도를 높일 수 있습니다.

In [None]:
tokenized_imdb = imdb.map(preprocess_function, batched=True)

Map:   0%|          | 0/25000 [00:00<?, ? examples/s]

Map:   0%|          | 0/25000 [00:00<?, ? examples/s]

Map:   0%|          | 0/50000 [00:00<?, ? examples/s]

In [None]:
tokenized_imdb

DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'input_ids', 'attention_mask'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label', 'input_ids', 'attention_mask'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label', 'input_ids', 'attention_mask'],
        num_rows: 50000
    })
})

`map` 함수의 적용으로 `DatasetDict`에 `input_ids`와 `attention_mask`가 추가된 것을 볼 수 있습니다. 실제로 어떤 모습을 띄고 있는지 첫번째 문장을 확인해볼까요?

In [None]:
tokenized_imdb["train"][0]

{'text': 'I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered "controversial" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes are few and far be

현재는 패딩을 적용하지 않아서 입력데이터의 크기가 샘플마다 동일하지 않습니다.

In [None]:
samples = tokenized_imdb["train"][:8]
samples = {k: v for k, v in samples.items() if k not in ["text"]}
[len(x) for x in samples["input_ids"]]

[363, 304, 133, 185, 495, 154, 143, 388]

모든 샘플을 최대 길이로 패딩할 필요 없이, 배치 생성 시점에 배치 내 최대 길이로만 패딩을 생성해줄 수 있습니다. `DataCollatorWithPadding` 함수를 통해서 배치 처리를 하면서 배치 내 최대 길이로 동적 패딩을 할 수 있습니다. 이로 인해 패딩이 과도하게 추가된 긴 입력 데이터를 방지하고, 훈련 속도가 상당히 절약할 수 있습니다.

In [None]:
from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [None]:
batch = data_collator(samples)
{k: v.shape for k, v in batch.items()}

{'input_ids': torch.Size([8, 495]),
 'attention_mask': torch.Size([8, 495]),
 'labels': torch.Size([8])}

In [None]:
batch['attention_mask'][0]

tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

In [None]:
batch['input_ids'][0]

tensor([  101,  1045, 12524,  1045,  2572,  8025,  1011,  3756,  2013,  2026,
         2678,  3573,  2138,  1997,  2035,  1996,  6704,  2008,  5129,  2009,
         2043,  2009,  2001,  2034,  2207,  1999,  3476,  1012,  1045,  2036,
         2657,  2008,  2012,  2034,  2009,  2001,  8243,  2011,  1057,  1012,
         1055,  1012,  8205,  2065,  2009,  2412,  2699,  2000,  4607,  2023,
         2406,  1010,  3568,  2108,  1037,  5470,  1997,  3152,  2641,  1000,
         6801,  1000,  1045,  2428,  2018,  2000,  2156,  2023,  2005,  2870,
         1012,  1026,  7987,  1013,  1028,  1026,  7987,  1013,  1028,  1996,
         5436,  2003,  8857,  2105,  1037,  2402,  4467,  3689,  3076,  2315,
        14229,  2040,  4122,  2000,  4553,  2673,  2016,  2064,  2055,  2166,
         1012,  1999,  3327,  2016,  4122,  2000,  3579,  2014,  3086,  2015,
         2000,  2437,  2070,  4066,  1997,  4516,  2006,  2054,  1996,  2779,
        25430, 14728,  2245,  2055,  3056,  2576,  3314,  2107, 

데이터가 배치 내 최대 길이인 495로 패딩처리가 되었음을 확인할 수 있습니다. 데이터 준비는 끝났습니다. 이제 모델을 준비해볼까요?

### Trainer API로 모델 파인튜닝하기

transformers 라이브러리에서는 사전 훈련된 모델을 파인 튜닝할 수 있도록 Trainer 클래스를 제공합니다. `Trainer.train()`을 실행하여 간단히 파인 튜닝을 할 수 있습니다.  
하지만 Trainer를 정의하기에 앞서, 학습과 평가에 사용될 모든 하이퍼파라미터를 포함하는 `TrainingArguments` 클래스를 정의해야 합니다. 훈련된 모델과 중간 체크포인트가 저장될 디렉토리, 학습률, 배치 사이즈, 에폭 등을 정의합니다.  
> report_to 인수를 "none"으로 두지 않으면 wandb와 연결해서 학습 로그를 기록하고 확인할 수 있습니다.

In [None]:
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="my_awesome_model",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=2,
    weight_decay=0.01,
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    report_to="none",
)

훈련 도중에 모델의 성능을 확인할 수 있는 `compute_metrics()` 함수를 구현하겠습니다. 일단 Hugging face `Evaluate` 라이브러리에서 평가지표 `accuracy` 를 로드합니다.

In [None]:
import evaluate

accuracy = evaluate.load("accuracy")

Downloading builder script: 0.00B [00:00, ?B/s]

모델로부터 예측값을 받아 평가 지표(여기서는 accuracy)를 계산하는 `compute_metrics` 함수를 구현합니다. `Trainer.predict()`을 통해 반환되는 `predictions`은 (batch_size, 2) 크기의 2차원 배열입니다. 이 값들은 `predict()`에 전달한 데이터셋의 각 요소에 대한 로짓 값입니다.(모든 Transformer 모델은 로짓을 반환합니다.) 이를 레이블과 비교할 수 있는 예측 값으로 변환하려면 두 번째 축에서 최대값을 가지는 인덱스를 취해야합니다. `np.argmax`를 통해 구한 최대값 인덱스와 레이블을 비교하여 accuracy를 계산할 수 있습니다.

In [None]:
import numpy as np

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return accuracy.compute(predictions=predictions, references=labels)

이제는 사전 학습된 모델을 불러올 차례입니다. id2label과 label2id를 사용해서 예상 ID와 해당 레이블 간의 매핑을 생성할 수 있습니다. 레이블 매핑과 함께 `DistilBERT`를 로드합니다.

In [None]:
id2label = {0: "NEGATIVE", 1: "POSITIVE"}
label2id = {"NEGATIVE": 0, "POSITIVE": 1}

In [None]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(
    "distilbert/distilbert-base-uncased", num_labels=2, id2label=id2label, label2id=label2id
)

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert/distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


이 사전 학습된 모델을 로드하면, 경고가 표시되는 것을 확인할 수 있습니다. 이는 DistilBert가 SequenceClassification에 대해 사전 학습되지 않았기 때문에 사전학습된 모델의 헤드가 제거되고 시퀀스 분류에 적합한 새로운 헤드가 대신 추가 되었기 때문입니다. 따라서 prediction과 inference를 위해서 모델을 학습할 것을 권장하고 있습니다. `Trainer` 정의하여 모델 학습을 진행해봅시다.
`Trainer` 클래스에 모델, training_args, 훈련 및 검증 데이터셋, tokenizer, data_collator, compute_metrics를 전달하여 정의합니다.

In [None]:
from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_imdb["train"],
    eval_dataset=tokenized_imdb["test"],
    processing_class=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

이제 모델을 파인튜닝하기 위해서 Trainer의 `train()` 메서드를 호출합니다.
> T4 GPU 환경에서 학습이 완료되는데 50분 가량 소요됩니다.

In [None]:
trainer.train()

Epoch,Training Loss,Validation Loss,Accuracy
1,0.2243,0.198135,0.9236
2,0.1441,0.231696,0.93172


TrainOutput(global_step=3126, training_loss=0.20713384107222407, metrics={'train_runtime': 3004.8472, 'train_samples_per_second': 16.64, 'train_steps_per_second': 1.04, 'total_flos': 6556904415524352.0, 'train_loss': 0.20713384107222407, 'epoch': 2.0})

학습이 끝났다면 다음 단계로 넘어가기 전에, 위에서 설명했던 logit 값을 확인해봅시다.

In [None]:
predictions = trainer.predict(tokenized_imdb["test"])
print(predictions.predictions.shape, predictions.label_ids.shape)
print(predictions.predictions[0])

(25000, 2) (25000,)
[ 2.298935  -2.5913067]


### 모델 저장 및 추론

모델 학습이 완료되었으니, 모델이 잘 작동하는지 직접 추론을 시켜볼까요?  
여러분들이 직접 학습한 모델을 hugging face에 공유하고 싶으시다면, Hub에 로그인하고 `push_to_hub()`를 통해 모델을 공유할 수 있습니다.
```python
from huggingface_hub import notebook_login

notebook_login()
trainer.push_to_hub()
```
하지만 지금은 로컬에 모델을 저장하고 모델을 불러와서 추론하는 단계를 진행해보겠습니다. 모델 저장은 간단하게 `save_model()` 메서드에 저장할 디렉토리명을 넣어주는 것으로 진행할 수 있습니다.

In [None]:
trainer.save_model('saved_model')

다음 문장을 모델이 잘 분류하는지 확인해보겠습니다.

In [None]:
text = "This was a masterpiece. Not completely faithful to the books, but enthralling from beginning to end. Might be my favorite of the three."

hub의 모델을 불러와 사용했던 것처럼, pipeline을 사용해서 불러올 수 있습니다. model 인자에 저장한 디렉토리명을 넣어주면 됩니다.

In [None]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis", model='saved_model')
classifier(text)

Device set to use cuda:0


[{'label': 'POSITIVE', 'score': 0.993334174156189}]

혹은 학습할 때 저장한 체크포인트를 불러와서 추론을 진행할 수도 있습니다.

In [None]:
classifier = pipeline("sentiment-analysis", model='my_awesome_model/checkpoint-1563')
classifier(text)

Device set to use cuda:0


[{'label': 'POSITIVE', 'score': 0.993334174156189}]

pipeline을 직접 구현해서 진행할 수도 있습니다.  
1. text를 tokenizer로 토큰화하기
2. 토큰화된 텍스트를 모델의 input으로 집어넣어서 모델의 output logits 구하기
3. logits을 확률 값으로 변환한 후, 가장 높은 확률의 클래스를 모델의 id2label 매핑을 사용하여 텍스트 레이블로 변환하기

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('saved_model')
tokenized_txt = tokenizer(text,  return_tensors='pt')
tokenized_txt

{'input_ids': tensor([[  101,  2023,  2001,  1037, 17743,  1012,  2025,  3294, 11633,  2000,
          1996,  2808,  1010,  2021,  4372,  2705,  7941,  2989,  2013,  2927,
          2000,  2203,  1012,  2453,  2022,  2026,  5440,  1997,  1996,  2093,
          1012,   102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1]])}

In [None]:
from transformers import AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained("saved_model")
# 학습 상황이 아니므로 gradient 연산 비활성화
with torch.no_grad():
    outputs = model(**tokenized_txt)
outputs

SequenceClassifierOutput(loss=None, logits=tensor([[-2.5910,  2.4130]]), hidden_states=None, attentions=None)

In [None]:
outputs.logits

tensor([[-2.5910,  2.4130]])

In [None]:
# softmax 함수를 통해 logits을 확률값으로 변환
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

tensor([[0.0067, 0.9933]])


In [None]:
# 가장 확률이 높은 id에 대해 미리 정의한 id2label를 활용해서 텍스트 레이블로 변환하기
predicted_class_id = predictions.argmax().item()
model.config.id2label[predicted_class_id]

'POSITIVE'

한 번에 여러개의 문장에 대해서도 당연히 추론할 수 있습니다. 여러분들이 확인해보고 싶은 문장을 가져와서 추론해봅시다!

In [None]:
text1 = "Stranger Things is absolutely as good as everyone says it is. When a show is as talked about about as much as this one has been it's hard to live up to expectations. Stranger Things has not only met those expectations but has surpassed them in every way. This is the show that our Netflix on the map as far as original shows go as this was not only one of their first but their biggest. As much as I love this show it's probably time for it for end and it is. This upcoming season is going to be the last. We have literally watched this cast grow up, they were children when this show first started and now they're all in their 20's. I can't wait for this last season and going to miss it when it's gone!"
text2 = "Season 1 was pretty good. Season 2 regular OK. But they ruined everything on 3rd season turning it into a childish sunday afternoon movie, full of cliches, sketchy BD-like villans and failed attempts to make comedy wich ended up destroying all the great misterious atmosphere of the 1st season. It's a shame."

raw_text = [text1, text2]

inputs = tokenizer(raw_text,padding=True, truncation=True, return_tensors="pt")

outputs = model(**inputs)

predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
predict_label = predictions.argmax(axis=0)
print(predictions)
print(predict_label)


tensor([[0.0070, 0.9930],
        [0.9797, 0.0203]], grad_fn=<SoftmaxBackward0>)
tensor([1, 0])


In [None]:
for label in predict_label:
    print(model.config.id2label[label.item()])

POSITIVE
NEGATIVE


**2) 감정 분석(Sentiment Analysis) 멀티클래스 파인튜닝 얘제**
- 데이터셋: tweet_eval의 sentiment
- 모델: roBERTa-base

In [None]:
# 데이터셋 불러오기
from datasets import load_dataset
dataset = load_dataset("tweet_eval", "sentiment")

README.md: 0.00B [00:00, ?B/s]

sentiment/train-00000-of-00001.parquet:   0%|          | 0.00/3.78M [00:00<?, ?B/s]

sentiment/test-00000-of-00001.parquet:   0%|          | 0.00/901k [00:00<?, ?B/s]

sentiment/validation-00000-of-00001.parq(…):   0%|          | 0.00/167k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/45615 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/12284 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/2000 [00:00<?, ? examples/s]

In [None]:
# 토크나이저 / 모델 불러오기
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_name = "roberta-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

id2label = {0:"negative", 1:"neutral", 2:"positive"}
label2id = {"negative":0, "neutral":1, "positive":2}

model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3, id2label=id2label, label2id=label2id)

tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/481 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/499M [00:00<?, ?B/s]

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
# 전처리 함수
def preprocess(examples):
    return tokenizer(examples["text"], truncation=True)
    result["labels"] = examples["label"]   # 레이블 유지
    return result


tokenized_ds = dataset.map(preprocess, batched=True)

Map:   0%|          | 0/45615 [00:00<?, ? examples/s]

Map:   0%|          | 0/12284 [00:00<?, ? examples/s]

Map:   0%|          | 0/2000 [00:00<?, ? examples/s]

In [None]:
# Trainer 설정
from transformers import TrainingArguments

args = TrainingArguments(
    output_dir="roberta_tweet_sentiment",
    eval_strategy="epoch",
    learning_rate=2e-5,
    num_train_epochs=3,
    per_device_train_batch_size=32,
    per_device_eval_batch_size=32,
    report_to="none"
)

In [None]:
!pip install evaluate



In [None]:
# Trainer 생성 & 학습
from transformers import Trainer, DataCollatorWithPadding
from evaluate import load

accuracy = load("accuracy")

def compute_metrics(eval_pred):
    pred, labels = eval_pred
    return accuracy.compute(predictions=pred.argmax(-1), references=labels)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_ds["train"],
    eval_dataset=tokenized_ds["test"],
    tokenizer=tokenizer,
    data_collator=DataCollatorWithPadding(tokenizer),
    compute_metrics=compute_metrics,
)

trainer.train()

  trainer = Trainer(


Epoch,Training Loss,Validation Loss,Accuracy
1,0.6257,0.613595,0.730381
2,0.4944,0.68899,0.698144
3,0.4139,0.722651,0.710274


TrainOutput(global_step=4278, training_loss=0.5194829572523348, metrics={'train_runtime': 1423.0126, 'train_samples_per_second': 96.166, 'train_steps_per_second': 3.006, 'total_flos': 3287482931243952.0, 'train_loss': 0.5194829572523348, 'epoch': 3.0})

In [None]:
# 추론 테스트
text = "This movie was surprisingly great!"
inputs = tokenizer(text, return_tensors="pt")
inputs = {k: v.to("cuda") for k, v in inputs.items()}  # ← 입력을 GPU로 이동
outputs = model(**inputs)

pred = outputs.logits.argmax(-1).item()
print(pred)  # 2=positive, 1=neutral, 0=negative

2


**3) 질문 응답(Question Answering, QA) 모델 파인튜닝 예시**

- 모델: bert-base-uncased
- 데이터셋: squad (Stanford Question Answering Dataset)

In [None]:
# 라이브러리 설치
!pip install -U transformers datasets evaluate accelerate -q

# SQuAD 데이터셋 불러오기
from datasets import load_dataset
squad = load_dataset("squad")

# 토크나이저 및 모델 불러오기
from transformers import AutoTokenizer
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 토크나이저 및 모델 불러오기
from transformers import AutoTokenizer
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 전처리 함수 정의 (context + question → tokenized input)
def preprocess(examples):
    return tokenizer(
        examples["question"],
        examples["context"],
        truncation=True,
        max_length=384,
        stride=128,
        padding="max_length",
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
    )

    # 맵핑하여 전체 데이터 토큰화
tokenized_squad = squad.map(preprocess, batched=True, remove_columns=squad["train"].column_names)

# 모델 준비
from transformers import AutoModelForQuestionAnswering
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

# TrainingArguments 설정
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="bert_squad_qa",
    eval_strategy="epoch",
    learning_rate=3e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=2,
    weight_decay=0.01,
    report_to="none"
)

# Trainer 정의
from transformers import Trainer
from transformers import default_data_collator

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_squad["train"],
    eval_dataset=tokenized_squad["validation"],
    tokenizer=tokenizer,
    data_collator=default_data_collator,
)

# 파인튜닝
trainer.train()

In [None]:
# 라이브러리 설치
!pip install -U transformers datasets evaluate accelerate -q

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m511.6/511.6 kB[0m [31m19.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m47.7/47.7 MB[0m [31m18.6 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# SQuAD 데이터셋 불러오기
from datasets import load_dataset
squad = load_dataset("squad")

README.md: 0.00B [00:00, ?B/s]

plain_text/train-00000-of-00001.parquet:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

plain_text/validation-00000-of-00001.par(…):   0%|          | 0.00/1.82M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/87599 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10570 [00:00<?, ? examples/s]

In [None]:
# 토크나이저 및 모델 불러오기
from transformers import AutoTokenizer
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

In [None]:
# 전처리 함수 정의 (context + question → tokenized input)
def preprocess_train(examples):
    questions = [q.strip() for q in examples["question"]]

    tokenized = tokenizer(
        questions,
        examples["context"],
        max_length=384,
        truncation="only_second",
        stride=128,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length"
    )

    sample_mapping = tokenized.pop("overflow_to_sample_mapping")
    offset_mapping = tokenized.pop("offset_mapping")

    start_positions = []
    end_positions = []

    for i, offsets in enumerate(offset_mapping):
        sample_idx = sample_mapping[i]
        answer = examples["answers"][sample_idx]

        if len(answer["text"]) == 0:
            start_positions.append(0)
            end_positions.append(0)
            continue

        start_char = answer["answer_start"][0]
        end_char = start_char + len(answer["text"][0])

        sequence_ids = tokenized.sequence_ids(i)

        # context 영역만 탐색
        context_start = sequence_ids.index(1)
        context_end = len(sequence_ids) - sequence_ids[::-1].index(1) - 1

        # answer span이 context에 없으면 (truncation으로 잘린 경우)
        if not (offsets[context_start][0] <= start_char and offsets[context_end][1] >= end_char):
            start_positions.append(0)
            end_positions.append(0)
        else:
            # 토큰 시작/끝 찾기
            start_pos = end_pos = None
            for idx in range(context_start, context_end + 1):
                if offsets[idx][0] <= start_char < offsets[idx][1]:
                    start_pos = idx
                if offsets[idx][0] < end_char <= offsets[idx][1]:
                    end_pos = idx
            start_positions.append(start_pos)
            end_positions.append(end_pos)

    tokenized["start_positions"] = start_positions
    tokenized["end_positions"] = end_positions

    return tokenized

In [None]:
# 맵핑하여 전체 데이터 토큰화
tokenized_squad = squad.map(preprocess_train, batched=True, remove_columns=squad["train"].column_names)

Map:   0%|          | 0/87599 [00:00<?, ? examples/s]

Map:   0%|          | 0/10570 [00:00<?, ? examples/s]

In [None]:
# 모델 준비
from transformers import AutoModelForQuestionAnswering
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

Some weights of BertForQuestionAnswering were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
# TrainingArguments 설정
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="bert_squad_qa",
    eval_strategy="epoch",
    learning_rate=3e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=2,
    weight_decay=0.01,
    report_to="none"
)

In [None]:
# Trainer 정의
from transformers import Trainer
from transformers import default_data_collator

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_squad["train"],
    eval_dataset=tokenized_squad["validation"],
    tokenizer=tokenizer,
    data_collator=default_data_collator,
)

  trainer = Trainer(


In [None]:
# 파인튜닝
trainer.train()

Epoch,Training Loss,Validation Loss


In [None]:
# 추론 테스트
question = "Where does the pope live?"
context = "The pope lives in Vatican City, a small independent state inside Rome."

inputs = tokenizer(question, context, return_tensors="pt")
outputs = model(**inputs)

start = outputs.start_logits.argmax()
end = outputs.end_logits.argmax()

answer = tokenizer.decode(inputs["input_ids"][0][start:end+1])
print("답변:", answer)

**4) 뉴스 토픽 분류(Topic Classification) 얘시**

- 데이터셋: ag_news
- 모델: distilroberta-base

In [None]:
# 데이터 로드
dataset = load_dataset("ag_news")

In [None]:
# 모델 & 토크나이저
model_name = "distilroberta-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForSequenceClassification.from_pretrained(
    model_name, num_labels=4
)

In [None]:
# 전처리
def preprocess(examples):
    return tokenizer(examples["text"], truncation=True)

tokenized = dataset.map(preprocess, batched=True)

In [None]:
# 학습 설정
args = TrainingArguments(
    output_dir="distilroberta_agnews",
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    learning_rate=2e-5,
    num_train_epochs=2,
    eval_strategy="epoch",
    report_to="none"
)

In [None]:
# Trainer 생성 & 학습
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized["train"],
    eval_dataset=tokenized["test"],
    tokenizer=tokenizer,
    data_collator=DataCollatorWithPadding(tokenizer),
)

trainer.train()

In [None]:
# 추론
text = "Stock markets soared today after unexpected economic reports."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
label = outputs.logits.argmax().item()
print("Predicted label:", label)