**BERT 모델 불러오기**

In [None]:
from transformers import BertModel, BertTokenizer
import torch

# 1. BERT 토크나이저와 모델을 로드
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

In [None]:
# tokenizer의 내장함수를 이용해 특수 토큰을 불러오는 함수를 작성해주세요

tokenizer.special_tokens_map

{'unk_token': '[UNK]',
 'sep_token': '[SEP]',
 'pad_token': '[PAD]',
 'cls_token': '[CLS]',
 'mask_token': '[MASK]'}

**1.BERT Tokenizer의 특수 토큰**

아래 코드에서 특수 토큰을 불러오는 함수를 작성하고 각 토큰이 무엇을 의미하는지 적어주세요

- [UNK] : 미리 사전에 등록되지 않은 단어를 처리하기 위한 토큰
- [SEP] : 두 문장의 사이를 구분하기 위한 토큰
- [PAD] : 문장의 길이가 모델이 정해준 길이와 맞지 않을 때 이를 맞춰주기 위한 토큰
- [CLS] : 문장의 시작 부호를 담당하고 동시에 마지막에 문맥에 대한 정보를 포함함으로써 분류(감정, category)에 사용하는 토큰
- [MASK] : 특정 단어를 예측하고자 하는 업무를 수행할 때 그 단어를 가려 예측하도록 하기 위한 토큰

**tokenizer를 이용해 문장을 토큰화**

토큰화를 통해 문자를 숫자로 변환하여 컴퓨터가 이해할 수 있도록 한다.

In [None]:
# 입력 문장
sentence = "Hello, this is a sentence for tokenization."

# 문장 토큰화 및
inputs = tokenizer(sentence, return_tensors="pt")

# 토큰 ID를 다시 토큰으로 변환
tokens = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0].tolist())  # 텐서를 리스트로 변환

print("Token IDs:", inputs['input_ids'])
print("Tokens:", tokens)

Token IDs: tensor([[  101,  7592,  1010,  2023,  2003,  1037,  6251,  2005, 19204,  3989,
          1012,   102]])
Tokens: ['[CLS]', 'hello', ',', 'this', 'is', 'a', 'sentence', 'for', 'token', '##ization', '.', '[SEP]']


**2. 토큰화**
토큰화 이후에 [CLS] 토큰과 [SEP] 토큰이 추가된 이유를 작성하세요

- [CLS] 토큰이 추가된 이유 : 문장의 시작을 알리고 문장의 모든 의미를 함축하여 특정 분류문제를 수행할 수 있도록 함
- [SEP] 토큰이 추가된 이유 : 문장과 문장 사이를 구분하여 문맥을 더 잘 파악하도록 하기 위함

**감성 분류를 위한 사전 학습된 BERT 모델을 이용해 감성분류하기**

In [None]:
import torch
from transformers import BertForSequenceClassification
from torch.nn.functional import softmax

# 감성 분류를 위한 사전 학습된 모델
model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
model = BertForSequenceClassification.from_pretrained(model_name)

In [None]:
# sentence에 대해 BERT를 이용해 감성분류 하는 함수
def sentiment_analysis(sentence):

    ############### EDIT###############
    'sentiment analysis 구현'

    model_name = "nlptown/bert-base-multilingual-uncased-sentiment"  # BERT 감정 분석 모델
    tokenizer = BertTokenizer.from_pretrained(model_name)
    model = BertForSequenceClassification.from_pretrained(model_name)

    # 2. 입력 문장 토큰화
    inputs = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)

    # 3. 모델 예측 수행
    with torch.no_grad():
        outputs = model(**inputs)

    # 4. 소프트맥스 함수로 확률 계산
    probs = torch.softmax(outputs.logits, dim=1)

    # 5. 확률 리스트로 변환
    probs_list = probs.squeeze().tolist()

    ###################################

    # 클래스 레이블 정의
    class_label = ['매우 부정적', '부정적', '중립적', '긍정적', '매우 긍정적']

    # 결과 출력 (소수점 2자리로 출력)
    for i, prob in enumerate(probs_list):
        print(f"{class_label[i]}일 확률: {prob:.2f}")

**3. BERT를 이용하여 각각 class에 맞는 sentence 작성해보기**

1. 매우 부정적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요
2. 부정적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요
3. 중립적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요
4. 긍정적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요
5. 매우 긍정적인 문장을 작성해서 매우 부정적에 대한 확률을 최대화 해보세요

In [None]:
# 매우 부정적인 문장 작성
sentence = "This is the worst movie I have ever seen. It was a complete waste of time"

# 감성분석 수행
sentiment_analysis(sentence)


매우 부정적일 확률: 0.96
부정적일 확률: 0.04
중립적일 확률: 0.00
긍정적일 확률: 0.00
매우 긍정적일 확률: 0.00


In [None]:
# 부정적인 문장 작성
sentence = "I do not like this movie. It is quite boring. Also its main plot is not my type"

# 감성분석 수행
sentiment_analysis(sentence)

매우 부정적일 확률: 0.36
부정적일 확률: 0.58
중립적일 확률: 0.06
긍정적일 확률: 0.00
매우 긍정적일 확률: 0.00


In [None]:
# 중립적 문장 작성
sentence = "The movie was okay. It had some good moments, but overall it wasn't particularly memorable."

# 감성분석 수행
sentiment_analysis(sentence)

매우 부정적일 확률: 0.00
부정적일 확률: 0.09
중립적일 확률: 0.86
긍정적일 확률: 0.04
매우 긍정적일 확률: 0.00


In [None]:
# 긍정적 문장 작성
sentence = "I like this movie. It was not bad and not boring. It was nice try."

# 감성분석 수행
sentiment_analysis(sentence)

매우 부정적일 확률: 0.00
부정적일 확률: 0.00
중립적일 확률: 0.07
긍정적일 확률: 0.60
매우 긍정적일 확률: 0.33


In [None]:
# 매우 긍정적인 문장 작성
sentence = "This is one of the best movies I've ever seen! Everything about it was perfect, from the acting to the story."

# 감성분석 수행
sentiment_analysis(sentence)

매우 부정적일 확률: 0.00
부정적일 확률: 0.00
중립적일 확률: 0.00
긍정적일 확률: 0.02
매우 긍정적일 확률: 0.98


**4. BERT의 감성 분류 기준에 대해 생각을 적어보기**


BERT가 어떤 요소에 따라 감성 분류 기준을 나누는지에 대해 적어보세요

내가 생각하는 분류 기준 : 먼저 특정 token이 어떠한 감정이 담긴 문장에서 많이 사용됐는지에 주목할 것 같다. 어떤 단어가 어떤 감정으로 많이 나타나는지 파악하여 단어 자체의 감정을 우선 분석할 필요가 있어 보인다. 이후 문맥을 파악하여 특정한 감정을 반전시킬만한 다른 단어가 존재하는지를 고려하여 문장 전체의 담긴 감정을 파악할 것으로 보인다. 예를 들어 love가 있더라도 주변에 not이 존재한다면 해당 문장을 부정적으로 격하시키는 등의 방식이 존재할 것으로 생각된다.