In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import re

# 가짜 데이터 생성
np.random.seed(42)
num_samples = 1000
texts = ["This is a positive review." if i % 2 == 0 else "This is a negative review." for i in range(num_samples)]
labels = [1 if i % 2 == 0 else 0 for i in range(num_samples)]

# 데이터 분할
train_texts, val_texts, train_labels, val_labels = train_test_split(texts, labels, test_size=0.2, random_state=42)

# 데이터 전처리 함수
def preprocess_text(text):
    text = text.lower()  # 소문자 변환
    text = re.sub(r'[^a-z0-9\\s]', '', text)  # 특수 문자 제거
    return text

# 전처리 적용
train_texts = [preprocess_text(text) for text in train_texts]
val_texts = [preprocess_text(text) for text in val_texts]

# 전처리된 데이터 확인
print("전처리된 훈련 데이터 예시:", train_texts[:5])
print("전처리된 검증 데이터 예시:", val_texts[:5])


전처리된 훈련 데이터 예시: ['thisisanegativereview', 'thisisanegativereview', 'thisisanegativereview', 'thisisanegativereview', 'thisisapositivereview']
전처리된 검증 데이터 예시: ['thisisanegativereview', 'thisisanegativereview', 'thisisapositivereview', 'thisisapositivereview', 'thisisanegativereview']


In [2]:
from transformers import BertTokenizer
import torch

# BERT 토크나이저 로드
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 텍스트 토큰화 및 패딩
def tokenize_and_pad(texts, tokenizer, max_len):
    encodings = tokenizer(texts, truncation=True, padding=True, max_length=max_len, return_tensors='pt')
    return encodings

max_len = 20
train_encodings = tokenize_and_pad(train_texts, tokenizer, max_len)
val_encodings = tokenize_and_pad(val_texts, tokenizer, max_len)

# 결과 확인
print("토큰화 및 패딩된 훈련 데이터 예시:")
print(train_encodings['input_ids'][:5])
print("토큰화 및 패딩된 검증 데이터 예시:")
print(val_encodings['input_ids'][:5])


토큰화 및 패딩된 훈련 데이터 예시:
tensor([[  101,  2023, 29196, 29107,  6024,  2890,  8584,   102,     0,     0],
        [  101,  2023, 29196, 29107,  6024,  2890,  8584,   102,     0,     0],
        [  101,  2023, 29196, 29107,  6024,  2890,  8584,   102,     0,     0],
        [  101,  2023, 29196, 29107,  6024,  2890,  8584,   102,     0,     0],
        [  101,  2023, 14268,  6873, 28032, 16402,  6777,  2666,  2860,   102]])
토큰화 및 패딩된 검증 데이터 예시:
tensor([[  101,  2023, 29196, 29107,  6024,  2890,  8584,   102,     0,     0],
        [  101,  2023, 29196, 29107,  6024,  2890,  8584,   102,     0,     0],
        [  101,  2023, 14268,  6873, 28032, 16402,  6777,  2666,  2860,   102],
        [  101,  2023, 14268,  6873, 28032, 16402,  6777,  2666,  2860,   102],
        [  101,  2023, 29196, 29107,  6024,  2890,  8584,   102,     0,     0]])
