**BERT 모델 불러오기**

In [1]:
from transformers import BertModel, BertTokenizer
import torch

# 1. BERT 토크나이저와 모델을 로드
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]



model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

In [3]:
# 2. 특수 토큰 불러오기
special_tokens = tokenizer.special_tokens_map

# 결과 출력
special_tokens

{'unk_token': '[UNK]',
 'sep_token': '[SEP]',
 'pad_token': '[PAD]',
 'cls_token': '[CLS]',
 'mask_token': '[MASK]'}

**1.BERT Tokenizer의 특수 토큰**

아래 코드에서 특수 토큰을 불러오는 함수를 작성하고 각 토큰이 무엇을 의미하는지 적어주세요

- [UNK] :"Unknown" 토큰입니다. 모델이 해당 단어를 사전에 알 수 없을 때 사용합니다.
- [SEP] :"Separation" 토큰입니다. 문장을 구분할 때 사용됩니다. 예를 들어, 문장 간의 경계를 표시하거나, 문장 쌍이 입력으로 들어갈 때 문장 사이에 삽입됩니다.
- [PAD] :"Padding" 토큰입니다. 고정된 길이로 입력을 맞추기 위해 짧은 문장의 끝에 패딩할 때 사용됩니다.
- [CLS] :"Classification" 토큰입니다. 문장 분류와 같은 작업에서 입력 문장의 맨 앞에 추가되는 특수 토큰입니다. 모델은 [CLS] 토큰의 출력을 통해 문장 수준의 특성을 추출합니다.
- [MASK] :"Mask" 토큰입니다. 마스크드 랭귀지 모델링(MLM) 작업에서 사용되며, 일부 단어를 [MASK]로 가리고 모델이 해당 단어를 예측하도록 학습시킵니다.

**tokenizer를 이용해 문장을 토큰화**

토큰화를 통해 문자를 숫자로 변환하여 컴퓨터가 이해할 수 있도록 한다.

In [4]:
# 입력 문장
sentence = "Hello, this is a sentence for tokenization."

# 문장 토큰화 및
inputs = tokenizer(sentence, return_tensors="pt")

# 토큰 ID를 다시 토큰으로 변환
tokens = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0].tolist())  # 텐서를 리스트로 변환

print("Token IDs:", inputs['input_ids'])
print("Tokens:", tokens)

Token IDs: tensor([[  101,  7592,  1010,  2023,  2003,  1037,  6251,  2005, 19204,  3989,
          1012,   102]])
Tokens: ['[CLS]', 'hello', ',', 'this', 'is', 'a', 'sentence', 'for', 'token', '##ization', '.', '[SEP]']


**2. 토큰화**
토큰화 이후에 [CLS] 토큰과 [SEP] 토큰이 추가된 이유를 작성하세요

- [CLS] 토큰이 추가된 이유 :문장 수준의 특성 추출: BERT 모델은 문장이나 문장 쌍의 분류 작업에서 [CLS] 토큰을 통해 문장의 전체적인 의미를 압축한 표현을 학습합니다. 이 토큰은 항상 입력의 첫 번째 위치에 추가되며, 문장 분류, 감정 분석 등과 같은 작업에서 중요한 역할을 합니다. 최종적으로 이 [CLS] 토큰의 출력 벡터는 문장에 대한 정보를 담고 있어, 분류 레이어에 전달되어 사용됩니다.
- [SEP] 토큰이 추가된 이유 :문장 구분: [SEP] 토큰은 문장 간의 경계를 표시하는 데 사용됩니다. 특히, BERT 모델은 문장 쌍을 입력으로 받을 수 있으며, 두 문장 간의 관계(예: 문장 A와 문장 B가 같은 의미인지)를 예측하는 작업에서 두 문장을 구분할 필요가 있습니다. 이때 [SEP] 토큰이 문장 A와 문장 B 사이에 삽입되어 문장 구분 역할을 합니다.
단일 문장에서도 사용: 단일 문장을 입력으로 받는 경우에도 [SEP] 토큰이 마지막에 추가됩니다. 이는 BERT의 입력 형식에서 항상 필요한 규칙입니다.

**감성 분류를 위한 사전 학습된 BERT 모델을 이용해 감성분류하기**

In [5]:
import torch
from transformers import BertForSequenceClassification
from torch.nn.functional import softmax

# 감성 분류를 위한 사전 학습된 모델
model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
model = BertForSequenceClassification.from_pretrained(model_name)

config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/669M [00:00<?, ?B/s]

In [6]:
tokenizer = BertTokenizer.from_pretrained(model_name)

# sentence에 대해 BERT를 이용해 감성 분류하는 함수
def sentiment_analysis(sentence):

    ############### EDIT###############
    # 1. 입력 문장을 토큰화하고 텐서 형식으로 변환
    inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)

    # 2. 모델을 이용해 예측 수행 (with torch.no_grad()로 그래디언트 계산 비활성화)
    with torch.no_grad():
        outputs = model(**inputs)

    # 3. 출력 결과에서 로짓(logits)을 가져와 소프트맥스 함수로 확률로 변환
    logits = outputs.logits
    probs = softmax(logits, dim=1)

    # 4. 각 클래스의 확률을 리스트로 변환
    probs_list = probs[0].tolist()

    ###################################

    # 클래스 레이블 정의
    class_label = ['매우 부정적', '부정적', '중립적', '긍정적', '매우 긍정적']

    # 결과 출력 (소수점 2자리로 출력)
    for i, prob in enumerate(probs_list):
        print(f"{class_label[i]}일 확률: {prob:.2f}")

tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

**3. BERT를 이용하여 각각 class에 맞는 sentence 작성해보기**

1. 매우 부정적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요
2. 부정적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요
3. 중립적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요
4. 긍정적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요
5. 매우 긍정적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요

In [7]:
# 매우 부정적인 문장 작성
sentence = "This is the worst experience I've ever had. I hate everything about it."

# 감성분석 수행
sentiment_analysis(sentence)


매우 부정적일 확률: 0.95
부정적일 확률: 0.05
중립적일 확률: 0.00
긍정적일 확률: 0.00
매우 긍정적일 확률: 0.00


In [8]:
# 부정적인 문장 작성
sentence = "I am disappointed with the service. It was not what I expected."

# 감성분석 수행
sentiment_analysis(sentence)


매우 부정적일 확률: 0.21
부정적일 확률: 0.59
중립적일 확률: 0.20
긍정적일 확률: 0.00
매우 긍정적일 확률: 0.00


In [9]:
# 중립적인 문장 작성
sentence = "The product is okay. It does the job, but nothing special."

# 감성분석 수행
sentiment_analysis(sentence)


매우 부정적일 확률: 0.00
부정적일 확률: 0.06
중립적일 확률: 0.84
긍정적일 확률: 0.09
매우 긍정적일 확률: 0.00


In [11]:
# 긍정적인 문장 작성
sentence = "I'm good with the service. It met my expectations."

# 감성분석 수행
sentiment_analysis(sentence)


매우 부정적일 확률: 0.00
부정적일 확률: 0.01
중립적일 확률: 0.14
긍정적일 확률: 0.52
매우 긍정적일 확률: 0.33


In [12]:
# 매우 긍정적인 문장 작성
sentence = "This is the best product I've ever used! I'm extremely satisfied and would highly recommend it."

# 감성분석 수행
sentiment_analysis(sentence)


매우 부정적일 확률: 0.00
부정적일 확률: 0.00
중립적일 확률: 0.00
긍정적일 확률: 0.03
매우 긍정적일 확률: 0.97


**4. BERT의 감성 분류 기준에 대해 생각을 적어보기**


BERT가 어떤 요소에 따라 감성 분류 기준을 나누는지에 대해 적어보세요

내가 생각하는 분류 기준 :

단어의 감정적 의미: BERT는 문장을 구성하는 단어들의 감정적 성격에 따라 감성을 분류합니다. 예를 들어, "best", "love", "amazing"과 같은 긍정적인 단어들은 긍정적 감성을, "worst", "hate", "disappointed"와 같은 부정적인 단어들은 부정적 감성을 반영합니다.

문맥 이해: BERT는 단순히 단어 자체만으로 감정을 분류하지 않고, 문맥을 고려하여 단어의 의미를 파악합니다. 예를 들어, "I am not happy"는 부정적 문장이지만 "happy"라는 단어만 보면 긍정적일 수 있습니다. 이처럼 BERT는 문맥에 따라 단어의 의미를 이해하고 이를 통해 감정을 분류합니다.

강조되는 표현: "very", "extremely", "absolutely"와 같은 강조 표현이 문장에 포함되면 감정의 강도가 더 강하게 나타나며, BERT는 이를 반영하여 감정 분류를 할 수 있습니다. 예를 들어 "very disappointed"는 "disappointed"보다 더 강한 부정적인 감정으로 인식될 수 있습니다.

문장 구조: 문장의 전체 구조도 중요한 기준입니다. 긍정적인 표현이 있더라도 부정적인 부사나 접속사(예: "but", "however")가 있으면 문장의 감정적 의미가 바뀔 수 있습니다. BERT는 이러한 문장 구조의 변화도 반영합니다.

감정적 대명사 및 대상: 감정적인 대명사("I", "you", "we")나 대상이 특정 감정과 함께 나타날 때, 해당 감정을 반영하여 분류합니다. 예를 들어, "I love this product"와 "They love this product"는 감정의 주체가 다르지만, 전반적인 감정은 긍정적으로 인식됩니다.