### 샘플코드 체험하기

In [None]:
from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model = BertModel.from_pretrained("bert-base-multilingual-cased")

text = "Replace me by any text you'd like."  # 임베딩할 문장
encoded_input = tokenizer(text, return_tensors='pt')  # 단어 토크나이징
output = model(**encoded_input)  # 임베딩 벡터


  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [12]:
# 탐색 1. Tokenizer
print(type(encoded_input))
print(encoded_input.keys())
print(encoded_input["input_ids"])
print(encoded_input["token_type_ids"])
print(encoded_input["attention_mask"])


<class 'transformers.tokenization_utils_base.BatchEncoding'>
dict_keys(['input_ids', 'token_type_ids', 'attention_mask'])
tensor([[  101, 72337, 72654, 10911, 10155, 11178, 15541, 13028,   112,   172,
         11850,   119,   102]])
tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])


In [None]:
# 탐색 2. model에 넣어줘야 하는 값
# model(**encoded_input)
# 입력값이 딕셔너리여야 하며 그 키는 input_ids, token_type_ids, attention_mask
# 즉, 모델에 대한 입력값은 tokenizer의 결과 출력값임

In [13]:
# 탐색 3. model
model

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(119547, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=Fals

In [14]:
print(output)

BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[ 0.2524, -0.5321,  0.4496,  ...,  1.1428, -0.6238, -0.0745],
         [ 0.5374,  0.0701,  0.4880,  ...,  1.0800, -0.5560, -0.5564],
         [ 0.4686, -0.3286,  0.4782,  ...,  1.1656, -0.7389, -0.3920],
         ...,
         [ 0.4822, -1.0822,  0.9026,  ...,  1.8029, -1.1343, -0.1034],
         [ 0.1283, -0.6550,  0.3723,  ...,  0.7817, -0.9173, -0.0401],
         [ 0.1645, -0.5239,  0.6638,  ...,  0.7964, -0.7326, -0.2642]]],
       grad_fn=<NativeLayerNormBackward0>), pooler_output=tensor([[ 0.3479, -0.0466,  0.4564, -0.2464, -0.0563,  0.5865,  0.4807,  0.2475,
         -0.5663,  0.4260,  0.0136, -0.3356, -0.3281,  0.0391,  0.3874, -0.4077,
          0.8111,  0.2171,  0.4523, -0.5184, -0.9998, -0.5465, -0.1472, -0.5278,
         -0.5858,  0.3390, -0.4160,  0.3991,  0.4012, -0.4298,  0.1618, -0.9998,
          0.7481,  0.7902,  0.3325, -0.4037,  0.1348,  0.2374,  0.2554, -0.1603,
         -0.3249,  0.0911, -0.49

In [7]:
import torch
from sklearn.metrics.pairwise import cosine_similarity

# 비교할 문장
sentence1 = "나는 오늘 날씨가 좋아서 기분이 좋다."
sentence2 = "맑은 하늘을 보니 기분이 상쾌하다."
sentence3 = "허깅페이스 모델 활용 방법을 배우고 있다."
sentence4 = "BERT는 구글에서 개발한 자연어 처리 모델로, Transformer 기반의 사전 학습된 모델이다."

# 토큰화 및 임베딩 추출 함수
def get_embedding(text):
    encoded_input = tokenizer(text, return_tensors='pt')
    with torch.no_grad():
        output = model(**encoded_input)
    return output.last_hidden_state[:, 0, :].squeeze().cpu().numpy()

# 문장 임베딩 생성
embedding1 = get_embedding(sentence1)
embedding2 = get_embedding(sentence2)
embedding3 = get_embedding(sentence3)
embedding4 = get_embedding(sentence4)

# 코사인 유사도 계산
similarity = cosine_similarity([embedding1], [embedding2])[0][0]
print(f"문장 유사도: {similarity:.4f}")

similarity = cosine_similarity([embedding1], [embedding3])[0][0]
print(f"문장 유사도: {similarity:.4f}")

similarity = cosine_similarity([embedding1], [embedding4])[0][0]
print(f"문장 유사도: {similarity:.4f}")


문장 유사도: 0.9452
문장 유사도: 0.9084
문장 유사도: 0.8817


### 데이터 학습하기

In [15]:
# 데이터 불러오기
import pandas as pd

data = pd.read_csv("./data/배달의민족댓글2.csv", index_col=0).dropna().reset_index(drop=True)
data

Unnamed: 0,text,score
0,"배달의민족 주문시 리뷰를 자주 참고하는 편입니다. 한가지 건의사항이 있다면 최신순,...",4
1,내가 주문했던 과거목록에서도 검색기능이 있었으면 좋겠어요.. 분명 이 가게에 시킨 ...,5
2,"검색 화면에서 전체/배달/포장 탭 중 배달 탭을 스크롤 내리면서 볼 때, 아래로 스...",1
3,배달팁 낮은 순으로 정렬하면 0~4000원 이런식으로 된 가게가 가장 위로 올라옵니...,2
4,최근 업데이트가 안드로이드5사양 정도에서는 안되는것 같습니다.. 배민 어플 실행시 ...,3
...,...,...
995,갑자기 로그아웃 되더니 비밀번호 변경 실패 메세지가 계속 뜨네요. 휴대폰 번호로 인...,1
996,기사님이 상품 픽업을 하셨는지 표시되면 더 좋을 것 같습니다. 가게에서 조리가 늦게...,3
997,요즘 요기요 보다 배민을 많이 쓰는 사람입니다 전화보다 앱을 써서 좀더 간편하고 다...,3
998,취소 됐으면 적어도 전화 주는 제도는 있어야하는거 아닌가요? 주문해놓고 다른거 하는...,1


In [None]:
# 데이터 전처리

import numpy as np
import re

# score 3이상이면 긍정(1), 그 외에는 부정(0)
data["label"] = np.where(data["score"] >= 3, 1, 0)
data["review"] = data["text"].apply(lambda x: re.sub("[^0-9a-zA-Z가-힣\s+]", " ", x))
data


Unnamed: 0,text,score,label,review
0,"배달의민족 주문시 리뷰를 자주 참고하는 편입니다. 한가지 건의사항이 있다면 최신순,...",4,1,배달의민족 주문시 리뷰를 자주 참고하는 편입니다 한가지 건의사항이 있다면 최신순 ...
1,내가 주문했던 과거목록에서도 검색기능이 있었으면 좋겠어요.. 분명 이 가게에 시킨 ...,5,1,내가 주문했던 과거목록에서도 검색기능이 있었으면 좋겠어요 분명 이 가게에 시킨 ...
2,"검색 화면에서 전체/배달/포장 탭 중 배달 탭을 스크롤 내리면서 볼 때, 아래로 스...",1,0,검색 화면에서 전체 배달 포장 탭 중 배달 탭을 스크롤 내리면서 볼 때 아래로 스...
3,배달팁 낮은 순으로 정렬하면 0~4000원 이런식으로 된 가게가 가장 위로 올라옵니...,2,0,배달팁 낮은 순으로 정렬하면 0 4000원 이런식으로 된 가게가 가장 위로 올라옵니...
4,최근 업데이트가 안드로이드5사양 정도에서는 안되는것 같습니다.. 배민 어플 실행시 ...,3,1,최근 업데이트가 안드로이드5사양 정도에서는 안되는것 같습니다 배민 어플 실행시 ...
...,...,...,...,...
995,갑자기 로그아웃 되더니 비밀번호 변경 실패 메세지가 계속 뜨네요. 휴대폰 번호로 인...,1,0,갑자기 로그아웃 되더니 비밀번호 변경 실패 메세지가 계속 뜨네요 휴대폰 번호로 인...
996,기사님이 상품 픽업을 하셨는지 표시되면 더 좋을 것 같습니다. 가게에서 조리가 늦게...,3,1,기사님이 상품 픽업을 하셨는지 표시되면 더 좋을 것 같습니다 가게에서 조리가 늦게...
997,요즘 요기요 보다 배민을 많이 쓰는 사람입니다 전화보다 앱을 써서 좀더 간편하고 다...,3,1,요즘 요기요 보다 배민을 많이 쓰는 사람입니다 전화보다 앱을 써서 좀더 간편하고 다...
998,취소 됐으면 적어도 전화 주는 제도는 있어야하는거 아닌가요? 주문해놓고 다른거 하는...,1,0,취소 됐으면 적어도 전화 주는 제도는 있어야하는거 아닌가요 주문해놓고 다른거 하는...


In [27]:
# 데이터 분할하기
from sklearn.model_selection import train_test_split

trainX, testX, trainY, testY = train_test_split(
    data["review"], data["label"], test_size=0.2, random_state=42
)

trainX, valX, trainY, valY = train_test_split(
    trainX, trainY, test_size=0.1, random_state=42
)


In [28]:

print(f"TrainX: {trainX.shape}, TrainY: {trainY.shape}")
print(f"ValX: {valX.shape}, ValY: {valY.shape}")
print(f"TestX: {testX.shape}, TestY: {testY.shape}")


TrainX: (720,), TrainY: (720,)
ValX: (80,), ValY: (80,)
TestX: (200,), TestY: (200,)


In [None]:
# 학습 데이터 만들기
# CustomDataset Class를 만든다
# __len__: 데이터의 개수 반환
# __getitem__: 학습데이터 1개의 x,y쌍을 반환
#               -> tokenizer()의 출력(딕셔너리) + label키를 추가


#### 테스트1 - 샘플코드 그대로

In [48]:
import torch 
from torch.utils.data import Dataset, DataLoader 

class CustomDataset(Dataset):
    def __init__(self, texts, labels, tokenizer):
        self.texts = texts.tolist() 
        self.labels = labels.tolist()
        self.tokenizer = tokenizer

    def tokenize(self, text):
        encoded_output = self.tokenizer(
            text, 
            return_tensors='pt'
        )
        return encoded_output
            
    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        # 데이터 가져오기
        text = self.texts[idx]
        label = self.labels[idx]

        # 토크나이징
        encoding = self.tokenize(text)

        # 라벨 추가
        # encoding["label"] = torch.tensor(label, dtype=torch.long)

        return {
            "input_ids": encoding["input_ids"].flatten(),
            "attention_mask": encoding["attention_mask"].flatten(),
            "token_type_ids": encoding["token_type_ids"].flatten(),
            "label": torch.tensor(label, dtype=torch.long)
        }
        

In [49]:
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

train_dataset = CustomDataset(trainX, trainY, tokenizer)
print(len(train_dataset))
# print(train_dataset[0])
print(train_dataset[0]["input_ids"].shape)
print(train_dataset[0]["attention_mask"].shape)
print(train_dataset[0]["token_type_ids"].shape)
print(train_dataset[1]["input_ids"].shape)
print(train_dataset[1]["attention_mask"].shape)
print(train_dataset[1]["token_type_ids"].shape)
print(train_dataset[2]["input_ids"].shape)
print(train_dataset[2]["attention_mask"].shape)
print(train_dataset[2]["token_type_ids"].shape)

720
torch.Size([74])
torch.Size([74])
torch.Size([74])
torch.Size([42])
torch.Size([42])
torch.Size([42])
torch.Size([65])
torch.Size([65])
torch.Size([65])


#### 테스트2 -조건 추가

In [50]:
import torch 
from torch.utils.data import Dataset, DataLoader 

class CustomDataset(Dataset):
    def __init__(self, texts, labels, tokenizer):
        self.texts = texts.tolist() 
        self.labels = labels.tolist()
        self.tokenizer = tokenizer

    def tokenize(self, text):
        encoded_output = self.tokenizer(
            text, 
            max_length = 128,
            padding="max_length",
            truncation=True,
            add_special_tokens=True,
            return_token_type_ids=True,
            return_attention_mask=True,
            return_tensors='pt'
        )
        return encoded_output
            
    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        # 데이터 가져오기
        text = self.texts[idx]
        label = self.labels[idx]

        # 토크나이징
        encoding = self.tokenize(text)

        # 라벨 추가
        # encoding["label"] = torch.tensor(label, dtype=torch.long)

        return {
            "input_ids": encoding["input_ids"],
            "attention_mask": encoding["attention_mask"],
            "token_type_ids": encoding["token_type_ids"],
            "label": torch.tensor(label, dtype=torch.long)
        }

In [54]:
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

train_dataset = CustomDataset(trainX, trainY, tokenizer)
print(len(train_dataset))
# print(train_dataset[0])
print(train_dataset[0]["input_ids"].shape)
print(train_dataset[0]["attention_mask"].shape)
print(train_dataset[0]["token_type_ids"].shape)

720
torch.Size([1, 128])
torch.Size([1, 128])
torch.Size([1, 128])


In [55]:
batch_size = 8

train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
for x in train_loader:
    print(x["input_ids"].shape)
    print(x["attention_mask"].shape)
    print(x["token_type_ids"].shape)

torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1, 128])
torch.Size([8, 1

#### 테스트3

In [57]:
import torch 
from torch.utils.data import Dataset, DataLoader 

class CustomDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_length):
        self.texts = texts.tolist() 
        self.labels = labels.tolist()
        self.tokenizer = tokenizer
        self.max_length = max_length

    def tokenize(self, text):
        encoded_output = self.tokenizer(
            text, 
            max_length = self.max_length,
            padding="max_length",
            truncation=True,
            add_special_tokens=True,
            return_token_type_ids=True,
            return_attention_mask=True,
            return_tensors='pt'
        )
        return encoded_output
            
    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        # 데이터 가져오기
        text = self.texts[idx]
        label = self.labels[idx]

        # 토크나이징
        encoding = self.tokenize(text)

        # 라벨 추가
        # encoding["label"] = torch.tensor(label, dtype=torch.long)

        return {
            "input_ids": encoding["input_ids"].flatten(),
            "attention_mask": encoding["attention_mask"].flatten(),
            "token_type_ids": encoding["token_type_ids"].flatten(),
            "label": torch.tensor(label, dtype=torch.long)
        }

In [61]:
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

train_dataset = CustomDataset(trainX, trainY, tokenizer, max_length=128)
print(len(train_dataset))
# print(train_dataset[0])
print(train_dataset[0]["input_ids"])
print(train_dataset[0]["attention_mask"])  # 패딩 여부 표시
print(train_dataset[0]["token_type_ids"])  # 여러 문장인 경우

720
tensor([   101,   9689,  25934,  10739,    100,    100,   9524,  26737, 119221,
         21711, 119217,   9330,  89851,   9576,  16605,   9485,  96618,   9706,
         16439,  11664,  10244,  37712,  43739,   9706,  16439,  12424,   9258,
         34907,  10530,   9665,  18227,  35506,  25503,   9524,  14153, 118800,
         77884,  48549,   9995, 118992, 118965,  11018,   8898,  16605,  12092,
          9357, 119199,  12453,  48549,  62849,  15303,   9580,  46520,  12030,
        119219,   9524, 119118,  41850,   9435,  35465,  43739,  80956,   9641,
         10739,  90587,   9668,  34907,   9536,  10622,   9521,   9511,  14153,
           100,    102,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,      0,      0,      0,      0,      0,      0,
             0,      0,      0,     

In [62]:
batch_size = 8

train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
for x in train_loader:
    print(x["input_ids"].shape)
    print(x["attention_mask"].shape)
    print(x["token_type_ids"].shape)
    break


torch.Size([8, 128])
torch.Size([8, 128])
torch.Size([8, 128])


#### 정리

In [63]:
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

max_length = 128
train_dataset = CustomDataset(trainX, trainY, tokenizer, max_length)
val_dataset = CustomDataset(valX, valY, tokenizer, max_length)
test_dataset = CustomDataset(testX, testY, tokenizer, max_length)


In [70]:
batch_size = 8
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

for x in train_loader:
    print(x)
    break


{'input_ids': tensor([[  101,  9946, 13764,  ...,     0,     0,     0],
        [  101,  9689, 25934,  ...,     0,     0,     0],
        [  101,  9599, 12310,  ...,     0,     0,     0],
        ...,
        [  101,  9654, 12945,  ..., 11018, 71439,   102],
        [  101,  9930, 10622,  ..., 28188, 77884,   102],
        [  101,  9926, 22333,  ...,     0,     0,     0]]), 'attention_mask': tensor([[1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        ...,
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 0, 0, 0]]), 'token_type_ids': tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        ...,
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0]]), 'label': tensor([1, 1, 1, 1, 0, 1, 0, 0])}


### 모델 불러오기

In [None]:
from transformers import BertForSequenceClassification

num_labels = 2

model = BertForSequenceClassification.from_pretrained(
    "bert-base-multilingual-cased",
    num_labels=num_labels
)
model


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1

### 전이학습

In [67]:
device = "cuda" if torch.cuda.is_available() else "cpu"
print(device)
model = model.to(device)

cuda


In [88]:
from torch.optim import AdamW
from transformers import get_linear_schedule_with_warmup
from torch.nn.utils import clip_grad_norm_

# 하이퍼 파라미터 설정
epochs = 100
optimizer = AdamW(model.parameters(), lr=1e-5)

# 스케쥴러 설정
# 워밍업 단계(학습률을 선형적으로 증가) / 학습 단계(학습률을 선형적으로 감소)
total_steps = len(train_loader) * epochs
scheduler = get_linear_schedule_with_warmup(
    optimizer,
    num_warmup_steps=0,
    num_training_steps=total_steps
)

# 손실 및 정확도 저장용
history = {
    "train_loss": [],
    "train_acc": [],
    "val_loss": [],
    "val_acc": []
}

patience = 5
patience_cnt = 0
last_loss_val = float('inf')
best_loss_val = float('inf')

for epoch in range(epochs):
    ### Train ###
    model.train()
    
    loss_train = 0.0
    correct_train = 0  # 훈련 데이터 정확도 계산
    total_train = 0
    
    for batch in train_loader:
        # GPU 보내기
        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        token_type_ids = batch["token_type_ids"].to(device)
        labels = batch["label"].to(device, dtype=torch.long)

        # 학습과정
        optimizer.zero_grad()
        outputs = model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            token_type_ids=token_type_ids,
            labels=labels
        )
        loss = outputs.loss
        loss.backward()
        clip_grad_norm_(model.parameters(), max_norm=1.0)  # 기울기 폭발 방지
        optimizer.step()
        scheduler.step()
        
        # 손실 및 정확도 계산
        loss_train += loss.item() * batch_size
        preds = outputs.logits.argmax(dim=1)
        correct_train += (preds == labels).sum().item()
        total_train += labels.size(0)

    # 평균 손실 및 정확도 저장
    train_loss = loss_train / len(train_dataset)
    train_accuracy = correct_train / total_train
    history["train_loss"].append(train_loss)
    history["train_acc"].append(train_accuracy)
    
    ### Validation ###
    model.eval()
    
    loss_val = 0.0
    correct_val = 0  # 검증 데이터 정확도 계산
    total_val = 0

    with torch.no_grad():
        for batch in val_loader:
            # GPU 보내기
            input_ids = batch["input_ids"].to(device)
            attention_mask = batch["attention_mask"].to(device)
            token_type_ids = batch["token_type_ids"].to(device)
            labels = batch["label"].to(device, dtype=torch.long)

            # 예측
            outputs = model(
                input_ids=input_ids,
                attention_mask=attention_mask,
                token_type_ids=token_type_ids,
                labels=labels
            )
            loss = outputs.loss
            
            # 손실 및 정확도 계산
            loss_val += loss.item() * batch_size
            preds = outputs.logits.argmax(dim=1)
            correct_val += (preds == labels).sum().item()
            total_val += labels.size(0)

    # 평균 손실 및 정확도 저장
    val_loss = loss_val / len(val_dataset)
    val_accuracy = correct_val / total_val
    history["val_loss"].append(val_loss)
    history["val_acc"].append(val_accuracy)

    ### Early Stopping ###
    if val_loss < last_loss_val:
        patience_cnt = 0
    else:
        patience_cnt += 1
        print(f"개선 없음 - Early Stopping 카운터: {patience_cnt}/{patience}")
        if patience_cnt == patience:
            print("Early Stopping!")
            break
    last_loss_val = val_loss
    
    # Best 모델 저장
    if val_loss < best_loss_val:
        best_loss_val = val_loss
        model_name = f"bert_{epoch}"
        torch.save(model.state_dict(), f"{model_name}.pth")
        print(f"Best model saved: {model_name}")
        
    # 출력
    print(
        f"Epoch: {epoch}\t"
        f"Train Loss: {train_loss:.4f}, Train Acc: {100 * train_accuracy:.2f}% | "
        f"Val Loss: {val_loss:.4f}, Val Acc: {100 * val_accuracy:.2f}%"
    )


Best model saved: bert_0
Epoch: 0	Train Loss: 0.1027, Train Acc: 0.9792 | Val Loss: 1.6662, Val Acc: 0.7625
Best model saved: bert_1
Epoch: 1	Train Loss: 0.1441, Train Acc: 0.9750 | Val Loss: 1.5497, Val Acc: 0.7625
개선 없음 - Early Stopping 카운터: 1/5
Epoch: 2	Train Loss: 0.0534, Train Acc: 0.9903 | Val Loss: 1.7842, Val Acc: 0.7250
Best model saved: bert_3
Epoch: 3	Train Loss: 0.0660, Train Acc: 0.9875 | Val Loss: 1.3020, Val Acc: 0.8250
개선 없음 - Early Stopping 카운터: 1/5
Epoch: 4	Train Loss: 0.0433, Train Acc: 0.9917 | Val Loss: 1.6420, Val Acc: 0.7875
개선 없음 - Early Stopping 카운터: 2/5
Epoch: 5	Train Loss: 0.0615, Train Acc: 0.9917 | Val Loss: 1.8206, Val Acc: 0.7125
개선 없음 - Early Stopping 카운터: 3/5
Epoch: 6	Train Loss: 0.0788, Train Acc: 0.9861 | Val Loss: 2.2907, Val Acc: 0.7125
Epoch: 7	Train Loss: 0.0311, Train Acc: 0.9944 | Val Loss: 2.1132, Val Acc: 0.7375
Epoch: 8	Train Loss: 0.0309, Train Acc: 0.9958 | Val Loss: 1.8129, Val Acc: 0.7625
개선 없음 - Early Stopping 카운터: 1/5
Epoch: 9	Train Los

KeyboardInterrupt: 

### 성능평가

In [92]:
# 예측 -- 이 모델의 성능을 평가하기 위한 코드
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
model.eval()

loss_test = 0.0
corr_test = 0.0
with torch.no_grad():
    for batch in test_loader:
        # GPU 보내기
        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        token_type_ids = batch["token_type_ids"].to(device)
        labels = batch["label"].to(device)
        
        # 예측
        outputs = model(
            input_ids = input_ids,
            attention_mask = attention_mask,
            token_type_ids = token_type_ids,
            labels = labels
        )
        
        loss = outputs.loss
        loss_test += loss.item() * batch_size
        
        pred = outputs.logits.argmax(dim=1)
        corr_test += (pred == labels).sum().item()

print(f"Test Loss: {loss_test / len(test_dataset):.4f}, Test Acc: {100 * corr_test / len(test_dataset):.2f}%")


Test Loss: 1.6225, Test Acc: 78.00%


In [None]:
### 모델 가져오기

import torch
from transformers import BertForSequenceClassification

num_labels = 2

model = BertForSequenceClassification.from_pretrained(
    "bert-base-multilingual-cased",
    num_labels=num_labels
)

model.load_state_dict(torch.load("bert_3.pth"))


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


<All keys matched successfully>

### 새로운 데이터 예측

In [106]:
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

# text = "이번엔 정말 맛있었어요!!"
# text = "배달이 너무 느려요. 다시는 안시킬것 같아요."
# text = "참 대단한 집입니다. 떡볶이에서 고무장화 맛이 나요 :)"
# text = "맛있으면 짖는 개 왈왈왈왈 와라와라왈왈 으르르르르르르르르왈왈"
text = "맛없으면 짖는 개 왈왈왈왈 와라와라왈왈 으르르르르르르르르왈왈"
max_length = 128

encoded_input = tokenizer(
    text, 
    max_length=max_length,
    padding="max_length",
    truncation=True,
    add_special_tokens=True,
    return_token_type_ids=True,
    return_attention_mask=True,
    return_tensors='pt'
)

encoded_input = encoded_input.to(device)
output = model(**encoded_input)
print(output.logits.argmax(dim=1))

tensor([0], device='cuda:0')
