# BERT Overview


BERT(Bidirectional Encoder Representations from Transformers)는 Google에서 개발한 자연어 처리 모델이다. 트랜스포머(Transformer) 구조를 기반으로 하며, 텍스트의 전후 관계를 동시에 고려하여 문맥을 이해하는 데 강점이 있다. 트랜스포머는 **Self-Attention 메커니즘**을 활용해 입력 문장 내 모든 단어 간의 연관성을 계산한다.

기존 NLP 모델들은 주로 단방향(왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽)의 문맥만을 학습했지만, BERT는 양방향성을 통해 문장의 의미를 더 깊이 이해할 수 있다.

![](https://d.pr/i/okegVU+)

![](https://d.pr/i/bWZKkU+)

**1. BERT의 핵심 특징**
- **양방향성(Bidirectionality):** 양방향 Transformer Encoder를 사용하여 입력 데이터의 전후 맥락을 동시에 학습한다.
- **사전학습(Pre-training)과 미세조정(Fine-tuning):** 대규모 코퍼스에서 사전학습한 후, 특정 작업에 맞게 미세조정 가능하다.
- **전이학습(Transfer Learning):** 사전학습된 모델을 다양한 NLP 작업에 재사용하여 높은 성능을 얻는다.
- **Masked Language Model (MLM):** 입력 토큰의 일부를 마스킹하고 이를 예측하는 방법으로 학습한다.
- **Next Sentence Prediction (NSP):** 두 문장이 연속적인 문장인지 여부를 예측하도록 학습한다.

**2. BERT 입력 표현 방식**

![](https://d.pr/i/HW063x+)

BERT는 입력 문장을 다음 세 가지 임베딩의 합으로 표현한다.
- **Token Embedding**: WordPiece 토크나이저로 분할된 각 토큰의 임베딩. 자주 등장하는 단어는 그대로, 드물거나 긴 단어는 sub-word 단위로 분할하여 OOV(Out-Of-Vocabulary) 문제를 해결한다.
- **Segment Embedding**: 문장 구분 임베딩. 두 문장이 입력될 경우 첫 번째 문장은 0, 두 번째 문장은 1로 구분한다.
- **Position Embedding**: 각 토큰의 순서 정보를 담는 임베딩. 트랜스포머 구조가 순서 정보를 직접 반영하지 못하기 때문에 추가된다.
- 토큰 설명
  1. **[CLS] 토큰:** 문장의 시작을 나타내는 특별 토큰으로, 분류 작업에서 문장 전체의 표현으로 사용된다.
  2. **[SEP] 토큰:** 문장 또는 문장 쌍을 구분하는 역할을 한다.


**3. BERT의 사전학습 방법**

1. **Masked Language Model (MLM):**
   - 입력 문장의 일부 토큰을 `[MASK]`로 대체한다.
   - 모델은 해당 마스크된 단어를 예측하는 작업을 통해 단어 간의 문맥을 학습한다.
   - 예시:  
     입력: "The cat sat on the [MASK]."  
     출력: "mat"
   
2. **Next Sentence Prediction (NSP):**
   - 두 문장을 입력으로 받아 두 문장이 실제로 연속적인 문장인지 예측한다.
   - 예시:
     - 문장 A: "I love programming."
     - 문장 B: "It is very satisfying."
     - 예측: True

**4. BERT의 주요 사용 사례**
- **텍스트 분류:** 감성 분석, 주제 분류 등
- **문장 유사도:** 질문과 답변 매칭, 검색 엔진 최적화
- **문장 생성 및 완성:** 자연어 생성, 채팅봇
- **Named Entity Recognition (NER):** 텍스트에서 개체(인물, 장소, 조직 등) 추출
- **기계 번역:** 언어 간 텍스트 변환
- **질의응답 시스템(QA):** 문맥 기반 질문에 대한 답변 생성

**5. BERT 모델 구조**

| 모델명      | 인코더 레이어 수(L) | 히든 차원(H) | 어텐션 헤드 수(A) | 파라미터 수      |
|-------------|---------------------|--------------|-------------------|------------------|
| BERT-base   | 12                  | 768          | 12                | 약 1억 1천만 개  |
| BERT-large  | 24                  | 1024         | 16                | 약 3억 4천만 개  |

- **BERT-base**: L=12, H=768, A=12, 110M 파라미터
- **BERT-large**: L=24, H=1024, A=16, 340M 파라미터

![https://www.weak-learner.com/blog/2019/08/16/bert/](https://d.pr/i/tGS8uA+)

- **입력 임베딩:** 토큰, 세그먼트, 포지션 임베딩의 합
- **Transformer Encoder Layers:**
  - 총 12층(BERT Base) 또는 24층(BERT Large)으로 구성
  - 각 층은 Multi-head Attention과 Feedforward Neural Network로 이루어짐
- **출력:**
  - `[CLS]`의 출력은 전체 문장의 의미를 나타내고, 나머지 토큰 출력은 각 단어의 문맥 표현을 나타낸다.


**6. BERT의 변형 모델**
1. **DistilBERT:** BERT의 경량화 버전으로, 속도는 빠르지만 성능은 유지.
2. **ALBERT:** 매개변수를 공유해 메모리 효율을 높이고 속도를 개선.
3. **RoBERTa:** 더 긴 학습과 큰 데이터로 학습한 BERT 변형.
4. **TinyBERT:** 모바일 및 임베디드 환경을 위한 경량화 모델.
5. **SpanBERT:** Span-level 예측을 통해 문맥 이해를 강화.
6. **Electra:** Mask 대신 토큰을 대체하여 학습 효율을 높임.

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

## Tokenizer

In [2]:
%pip install transformers -q

Note: you may need to restart the kernel to use updated packages.


In [None]:
from transformers import BertTokenizer

model_name = 'bert-base-uncased'

tokenizer = BertTokenizer.from_pretrained(model_name)  # 해당 모델의 토크나이저(VOCAB/규칙) 로드
tokenizer

  from .autonotebook import tqdm as notebook_tqdm


BertTokenizer(name_or_path='bert-base-uncased', vocab_size=30522, model_max_length=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True, added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

In [4]:
# tokenizer.encode() -> input_ids
text = 'Here is the sentence I want embedding for.'
tokenizer.encode(text)  # 토큰화 ([CLS] 문장 -> 정수 ID [SEP] 리스트)

[101, 2182, 2003, 1996, 6251, 1045, 2215, 7861, 8270, 4667, 2005, 1012, 102]

In [5]:
# tokenizer.tokenize() -> tokens
print(tokenizer.tokenize(text))  # 문장을 WordPiece 토큰 리스트로 분리해 출력

['here', 'is', 'the', 'sentence', 'i', 'want', 'em', '##bed', '##ding', 'for', '.']


In [None]:
# tokenizer() -> {input_ids, attention_mask, token_type_ids}
tokenizer(text)

{'input_ids': [101, 2182, 2003, 1996, 6251, 1045, 2215, 7861, 8270, 4667, 2005, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

## Masked LM

In [7]:
from transformers import BertTokenizer, BertForMaskedLM

model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForMaskedLM.from_pretrained(model_name)   # Masked LM 헤드가 포함된 BERT 모델 로드 
model

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


BertForMaskedLM(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwi

In [8]:
# 토큰처리 - 모델입력 -> mask 토큰 추론
text = 'Soccer is a really fun [MASK].'

tokens = tokenizer.tokenize(text)  # 토큰 리스트론 분해
print(tokens)
inputs = tokenizer(text, return_tensors='pt') # 모델 입력용 텐서 생성 : pt(pytorch tensor)
inputs

['soccer', 'is', 'a', 'really', 'fun', '[MASK]', '.']


{'input_ids': tensor([[ 101, 4715, 2003, 1037, 2428, 4569,  103, 1012,  102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [9]:
# special token 확인
print('cls: ', tokenizer.cls_token_id)
print('sep: ', tokenizer.sep_token_id)
print('mask: ', tokenizer.mask_token_id)

cls:  101
sep:  102
mask:  103


In [10]:
output = model(**inputs)
output # logits

MaskedLMOutput(loss=None, logits=tensor([[[ -6.8100,  -6.7592,  -6.7455,  ...,  -6.1253,  -5.9923,  -4.0501],
         [ -5.6092,  -5.9443,  -5.7752,  ...,  -4.8540,  -5.2307,  -2.8161],
         [-11.0772, -10.7695, -10.7907,  ...,  -9.9140,  -7.9280,  -8.7580],
         ...,
         [ -8.0383,  -8.1772,  -8.0259,  ...,  -8.6722,  -6.6941,  -8.8274],
         [-13.4006, -13.3164, -13.4020,  ..., -11.5507, -11.1491,  -8.4797],
         [-13.4999, -13.6630, -13.3619,  ..., -13.1450, -12.0269,  -9.0877]]],
       grad_fn=<ViewBackward0>), hidden_states=None, attentions=None)

In [10]:
# pipeline
from transformers import FillMaskPipeline  # [MASK] 채우기 전용 파이프라인 클래스

pipe = FillMaskPipeline(model=model, tokenizer=tokenizer)

Device set to use cpu


In [None]:
pipe(text)  # text 문장의 [MASK]를 채울 후보 단어 (top-k : default 5) 예측 결과 반환

[{'score': 0.7672328352928162,
  'token': 4368,
  'token_str': 'sport',
  'sequence': 'soccer is a really fun sport.'},
 {'score': 0.16400203108787537,
  'token': 2208,
  'token_str': 'game',
  'sequence': 'soccer is a really fun game.'},
 {'score': 0.0157049261033535,
  'token': 2518,
  'token_str': 'thing',
  'sequence': 'soccer is a really fun thing.'},
 {'score': 0.0071001434698700905,
  'token': 2154,
  'token_str': 'day',
  'sequence': 'soccer is a really fun day.'},
 {'score': 0.0061270310543477535,
  'token': 4023,
  'token_str': 'activity',
  'sequence': 'soccer is a really fun activity.'}]

In [12]:
pipe("I went to [MASK] this morning.")

[{'score': 0.3044922351837158,
  'token': 2147,
  'token_str': 'work',
  'sequence': 'i went to work this morning.'},
 {'score': 0.25700798630714417,
  'token': 2793,
  'token_str': 'bed',
  'sequence': 'i went to bed this morning.'},
 {'score': 0.08158311247825623,
  'token': 2082,
  'token_str': 'school',
  'sequence': 'i went to school this morning.'},
 {'score': 0.07317688316106796,
  'token': 3637,
  'token_str': 'sleep',
  'sequence': 'i went to sleep this morning.'},
 {'score': 0.06206965819001198,
  'token': 2465,
  'token_str': 'class',
  'sequence': 'i went to class this morning.'}]

## AutoTokenizer/AutoModel
Hugging Face Transformers 라이브러리에서 사전학습(pretrained)된 다양한 NLP 모델을 쉽게 불러와 사용할 수 있도록 도와주는 자동화 클래스이다.

반드시 같은 모델 이름을 사용하여 토크나이저와 모델을 로드해야 한다. 서로 다른 모델의 토크나이저와 모델을 함께 쓰면 입력 형식이 달라져 결과가 이상해질 수 있다.

### AutoTokenizer
아래 표는 Hugging Face Transformers에서 AutoTokenizer가 각 모델별로 내부적으로 어떤 구체적인 토크나이저 클래스를 사용하는지 정리한 것이다. 이 표를 참고하면, AutoTokenizer를 사용할 때 실제로 어떤 토크나이저가 인스턴스화되는지 쉽게 알 수 있다.

| 모델명(키워드)      | 실제 토크나이저 클래스                 |
|--------------------|--------------------------------------|
| bert               | BertTokenizer, BertTokenizerFast      |
| roberta            | RobertaTokenizer, RobertaTokenizerFast|
| gpt2               | GPT2Tokenizer, GPT2TokenizerFast      |
| albert             | AlbertTokenizer, AlbertTokenizerFast  |
| distilbert         | DistilBertTokenizer, DistilBertTokenizerFast |
| electra            | ElectraTokenizer, ElectraTokenizerFast|
| xlnet              | XLNetTokenizer                        |
| bart               | BartTokenizer, BartTokenizerFast      |
| bloom              | BloomTokenizerFast                    |
| deberta            | DebertaTokenizer, DebertaTokenizerFast|
| deberta-v2         | DebertaV2Tokenizer, DebertaV2TokenizerFast|
| camembert          | CamembertTokenizer, CamembertTokenizerFast|
| t5                 | T5Tokenizer                           |
| byT5               | ByT5Tokenizer                         |
| ctrl               | CTRLTokenizer                         |
| blenderbot         | BlenderbotTokenizer, BlenderbotTokenizerFast|
| blenderbot-small   | BlenderbotSmallTokenizer              |
| pegasus            | PegasusTokenizer, PegasusTokenizerFast|
| bigbird            | BigBirdTokenizer, BigBirdTokenizerFast|
| codegen            | CodeGenTokenizer, CodeGenTokenizerFast|
| llama              | LlamaTokenizer, LlamaTokenizerFast    |
| clip               | CLIPTokenizer, CLIPTokenizerFast      |
| wav2vec2           | Wav2Vec2CTCTokenizer                  |
| canine             | CanineTokenizer                       |

- "Fast"가 붙은 클래스는 Rust 기반의 빠른 토크나이저 구현체이며, 일반적으로 AutoTokenizer는 가능한 경우 Fast 버전을 우선 사용한다.
- 모델 이름에 따라 자동으로 해당 토크나이저가 선택된다. 예를 들어, "bert-base-uncased" 모델을 사용하면 BertTokenizer 또는 BertTokenizerFast가 자동으로 로드된다.


### AutoModel

| **AutoModel 계열**                          | **구체화된 클래스 예시**                                  | **출력 구조**                           | **주요 용도**                          |
|---------------------------------------------|----------------------------------------------------------|-----------------------------------------|----------------------------------------|
| AutoModel                                   | BertModel, RobertaModel, DistilBertModel, AlbertModel    | 임베딩(은닉 상태)                        | 특징 추출, 커스텀 태스크                |
| AutoModelForMaskedLM                        | BertForMaskedLM, RobertaForMaskedLM                      | 임베딩 + MLM 헤드                        | 마스킹된 단어 예측                     |
| AutoModelForSequenceClassification          | BertForSequenceClassification, RobertaForSequenceClassification, DistilBertForSequenceClassification, AlbertForSequenceClassification, XLNetForSequenceClassification | 임베딩 + 분류 헤드                      | 문장/문서 분류, 감정 분석              |
| AutoModelForTokenClassification             | BertForTokenClassification, RobertaForTokenClassification, DistilBertForTokenClassification, AlbertForTokenClassification | 임베딩 + 토큰 분류 헤드                  | 개체명 인식(NER), POS 태깅             |
| AutoModelForQuestionAnswering               | BertForQuestionAnswering, RobertaForQuestionAnswering, DistilBertForQuestionAnswering, AlbertForQuestionAnswering, XLNetForQuestionAnswering | 임베딩 + QA 헤드                        | 질의응답(문서 내 정답 위치)            |
| AutoModelForNextSentencePrediction          | BertForNextSentencePrediction                            | 임베딩 + NSP 헤드                        | 문장 간 관계 추론(NSP)                 |
| AutoModelForMultipleChoice                  | BertForMultipleChoice, RobertaForMultipleChoice, XLNetForMultipleChoice | 임베딩 + MC 헤드                         | 문맥 기반 질문 답변(Multiple Choice QA)|
| AutoModelForCausalLM                        | GPT2LMHeadModel, BertLMHeadModel, RobertaForCausalLM, XLNetLMHeadModel | 임베딩 + 언어 생성 헤드                  | 텍스트 생성, 언어 모델링               |
| AutoModelForSeq2SeqLM                       | BartForConditionalGeneration, MarianMTModel, T5ForConditionalGeneration, PegasusForConditionalGeneration | 인코더-디코더 구조                       | 번역, 요약, 질문 생성                  |
| AutoModelForImageClassification             | CLIPModel, ViTForImageClassification                     | 이미지 임베딩 + 분류 헤드                 | 이미지 분류, 이미지-텍스트 매칭        |
| AutoModelForVision2Seq                      | BlipForConditionalGeneration, GitForCausalLM             | 이미지 인코더 + 텍스트 디코더             | 이미지 캡셔닝, 멀티모달 생성           |





In [13]:
from transformers import AutoTokenizer, AutoModelForMaskedLM

model_name = 'bert-base-uncased'  # 사용할 사전학습 모델 이름
tokenizer = AutoTokenizer.from_pretrained(model_name)     # 모델에 맞는 토크나이저 자동 로드
model = AutoModelForMaskedLM.from_pretrained(model_name)  # 모델에 맞는 MaskedLM모델 자동 로드

print(tokenizer.__class__.__name__)  # 실제 로드된 토크나이저 클래스 이름
print(model.__class__.__name__)      # 실제 로드된 모델 클래스 이름

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


BertTokenizerFast
BertForMaskedLM


## Next Sentence Prediction

In [15]:
from transformers import BertTokenizer, BertForNextSentencePrediction

model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForNextSentencePrediction.from_pretrained(model_name)    # NSP 헤드가 포함된 BERT 모델 로드

print(tokenizer.__class__.__name__)  # 실제 로드된 토크나이저 클래스 이름
print(model.__class__.__name__)      # 실제 로드된 모델 클래스 이름

BertTokenizer
BertForNextSentencePrediction


In [16]:
from transformers import AutoTokenizer, AutoModelForNextSentencePrediction

model_name = 'bert-base-uncased'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForNextSentencePrediction.from_pretrained(model_name)

print(tokenizer.__class__.__name__)  # 실제 로드된 토크나이저 클래스 이름
print(model.__class__.__name__)      # 실제 로드된 모델 클래스 이름

BertTokenizerFast
BertForNextSentencePrediction


In [17]:
sentence1 = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
sentence2 = "pizza is eaten with the use of a knife and fork. In casual settings, however, it is cut into wedges to be eaten while held in the hand."

inputs = tokenizer(sentence1, sentence2, return_tensors='pt')  # 두 문장을 한 쌍으로 인코딩 ([CLS] sentence1 [SEP] sentence2 [SEP])
inputs

{'input_ids': tensor([[  101,  1999,  3304,  1010, 10733,  2366,  1999,  5337, 10906,  1010,
          2107,  2004,  2012,  1037,  4825,  1010,  2003,  3591,  4895, 14540,
          6610,  2094,  1012,   102, 10733,  2003,  8828,  2007,  1996,  2224,
          1997,  1037,  5442,  1998,  9292,  1012,  1999, 10017, 10906,  1010,
          2174,  1010,  2009,  2003,  3013,  2046, 17632,  2015,  2000,  2022,
          8828,  2096,  2218,  1999,  1996,  2192,  1012,   102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [18]:
import pandas as pd

token_sent1 = tokenizer.tokenize(sentence1)  # 문장1을 WordPiece 토큰으로 분해
token_sent2 = tokenizer.tokenize(sentence2)  # 문장2을 WordPiece 토큰으로 분해
tokens = ['[CLS]'] + token_sent1 + ['[SEP]'] + token_sent2 + ['[SEP]']
tokens

['[CLS]',
 'in',
 'italy',
 ',',
 'pizza',
 'served',
 'in',
 'formal',
 'settings',
 ',',
 'such',
 'as',
 'at',
 'a',
 'restaurant',
 ',',
 'is',
 'presented',
 'un',
 '##sl',
 '##ice',
 '##d',
 '.',
 '[SEP]',
 'pizza',
 'is',
 'eaten',
 'with',
 'the',
 'use',
 'of',
 'a',
 'knife',
 'and',
 'fork',
 '.',
 'in',
 'casual',
 'settings',
 ',',
 'however',
 ',',
 'it',
 'is',
 'cut',
 'into',
 'wedge',
 '##s',
 'to',
 'be',
 'eaten',
 'while',
 'held',
 'in',
 'the',
 'hand',
 '.',
 '[SEP]']

In [19]:
inputs['input_ids'].shape

torch.Size([1, 58])

In [22]:
inputs['token_type_ids']

tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])

In [None]:
pd.set_option('display.max_columns', None) # 컬럼생략 안함(전부 출력)

pd.DataFrame([
    tokens,                                        # 사람이 읽는 토크 시퀀스
    inputs['input_ids'].squeeze(0).numpy(),        # (1, L) -> (L,) 줄이고 ID 배열 표시
    inputs['token_type_ids'].squeeze(0).numpy(),   # (1, L) -> (L,) 줄이고 문장 구분 ID 표시 (0=A, 1=B)
], index=['tokens', 'input_ids', 'token_type_ids'])


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57
tokens,[CLS],in,italy,",",pizza,served,in,formal,settings,",",such,as,at,a,restaurant,",",is,presented,un,##sl,##ice,##d,.,[SEP],pizza,is,eaten,with,the,use,of,a,knife,and,fork,.,in,casual,settings,",",however,",",it,is,cut,into,wedge,##s,to,be,eaten,while,held,in,the,hand,.,[SEP]
input_ids,101,1999,3304,1010,10733,2366,1999,5337,10906,1010,2107,2004,2012,1037,4825,1010,2003,3591,4895,14540,6610,2094,1012,102,10733,2003,8828,2007,1996,2224,1997,1037,5442,1998,9292,1012,1999,10017,10906,1010,2174,1010,2009,2003,3013,2046,17632,2015,2000,2022,8828,2096,2218,1999,1996,2192,1012,102
token_type_ids,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1


In [31]:
# tokenizer - model 직접 사용
output = model(**inputs)    # NSP forward 수행 -> logits 포함한 출력 객체 반환
print(output)
print(output[0])

prob = F.softmax(output[0], dim=-1)  # logits(2클래스) -> 확률로 변환
print(prob)                          # [IsNext, NotNext] 확률 출력

pred = torch.argmax(prob, dim=-1).item()  # 확률이 더 큰 클래스 인덱스 선택
print(pred)

NextSentencePredictorOutput(loss=None, logits=tensor([[-3.0729,  5.9056]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)
tensor([[-3.0729,  5.9056]], grad_fn=<AddmmBackward0>)
tensor([[1.2606e-04, 9.9987e-01]], grad_fn=<SoftmaxBackward0>)
1


In [32]:
sentence3 = "The sky is blue due to the shorter wavelength of blue light."

inputs = tokenizer(sentence1, sentence3, return_tensors='pt')
output = model(**inputs)
print(output[0])

prob = F.softmax(output[0], dim=-1)

pred = torch.argmax(prob, dim=-1).item()
print(pred)

tensor([[-3.0729,  5.9056]], grad_fn=<AddmmBackward0>)
1


In [35]:
# NSP로 문장2 후보들 중 "가장 이어질만한 문장" 순위 매기기
candidates = [
    sentence2,
    sentence3,
    "Pizza is one of the most popular foods in the world.",
    "I enjoy playing football on weekends."
]

scores = []                                                # (IsNext, 후보문장) 저장 리스트
for s2 in candidates:
    inp = tokenizer(sentence1, s2, return_tensors='pt')
    out = model(**inp)
    prob = F.softmax(out.logits, dim=-1).squeeze(0)        # logits(1, 2) -> 확률(2, ) 변환
    isnext = float(prob[0])                                # IsNext(이어짐) 확률만 추출
    scores.append((isnext, s2))

scores.sort(reverse=True, key=lambda x: x[0])                            # IsNext 확률 낮은 순부터 정렬
for p, s2 in scores:
    print(f"IsNext={p:.4f} | {s2[:60]}...")

IsNext=1.0000 | pizza is eaten with the use of a knife and fork. In casual s...
IsNext=1.0000 | Pizza is one of the most popular foods in the world....
IsNext=0.0001 | The sky is blue due to the shorter wavelength of blue light....
IsNext=0.0000 | I enjoy playing football on weekends....
