In [1]:
import numpy as np
import pandas as pd
import re
import tensorflow as tf
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
from sklearn.model_selection import train_test_split
from transformers import BertTokenizer, BertForSequenceClassification, AdamW
from torch.utils.data import Dataset, DataLoader
import torch

def clean_text(text):
    # 정규 표현식으로 'RT'와 '#', '@'로 시작하는 단어를 찾아 제거
    text = re.sub(r'\bRT\b', '', text)  # 'RT' 단독 제거
    text = re.sub(r'@\S*', '', text)    # '@'로 시작하는 단어 제거
    text = re.sub(r'#\S*', '', text)    # '#'로 시작하는 단어 제거
    text = re.sub(r'&\S*', '', text)    # '&'로 시작하는 단어 제거
    text = re.sub(r'https?://\S*', '', text)    # 'http'로 시작하는 단어 제거

    # 특수 기호 제거 (알파벳, 숫자, 공백 외의 문자 제거)
    # text = re.sub(r'[^a-zA-Z0-9\s]', '', text) 

    # 중복된 공백 제거
    text = re.sub(r'\s+', ' ', text).strip()
    text = text.lower()
    return text

print("PyTorch 버전:", torch.__version__)
print("CUDA 사용 가능 여부:", torch.cuda.is_available())
print("PyTorch에서 사용하는 CUDA 버전:", torch.version.cuda)
torch.set_default_device("cuda")
# GPU용 Generator 생성
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device)

PyTorch 버전: 2.5.1+cu118
CUDA 사용 가능 여부: True
PyTorch에서 사용하는 CUDA 버전: 11.8


In [2]:
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=3)
state_dict = torch.load("final_model_weights.pth", weights_only=True)  # 가중치 로드
model.load_state_dict(state_dict)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


<All keys matched successfully>

In [3]:
data = pd.read_csv("cleaned_data.csv", sep=';', on_bad_lines='skip')
texts = data['text'].tolist()
labels = data['type'].tolist()
# BERT 토크나이저
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

In [4]:
torch.cuda.empty_cache()  # PyTorch가 사용하지 않는 메모리 반환

# 평가
model.eval()
test_texts = texts
test_encodings = tokenizer(test_texts, truncation=True, padding=True, max_length=128, return_tensors="pt")
total = len(test_texts)

# 데이터셋 정의
class CustomDataset(Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels[idx], dtype=torch.long)
        return item
batch_size=32

test_dataset = CustomDataset(test_encodings, labels)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

correct = 0
correct_indices = []

with torch.no_grad():
    for batch_idx, batch in enumerate(test_loader):
        # 배치 데이터 가져오기
        input_ids = batch["input_ids"]
        attention_mask = batch["attention_mask"]
        labels = batch["labels"]
        
        # 모델 예측
        outputs = model(input_ids=input_ids, attention_mask=attention_mask)
        logits = outputs.logits # [batch_size, 1] -> [batch_size]
        # 소프트맥스 확률 계산
        probabilities = torch.softmax(logits, dim=-1)  # [batch_size, num_classes]
        # 가장 큰 확률의 클래스 인덱스를 예측
        predictions = torch.argmax(probabilities, dim=-1)
        # 정확도 계산
        correct += (predictions == labels.int()).sum().item()
        
        # 올바른 데이터의 인덱스 확인
        batch_correct_indices = torch.where(predictions == labels.int())[0].tolist()

        # 전체 데이터셋 인덱스로 변환
        global_indices = [batch_idx * batch_size + idx for idx in batch_correct_indices]
        correct_indices.extend(global_indices)

# 원본 데이터에서 올바른 데이터만 필터링
filtered_data = data.iloc[correct_indices]

# CSV로 저장
csv_file_path = "filtered_data/filtered_data0.csv"
filtered_data.to_csv(csv_file_path, sep=';', index=False)
        
print("Accuracy: ", correct/total)

KeyboardInterrupt: 