In [1]:
import pandas as pd
from torch.utils.data import Dataset, DataLoader

class GPTDataset(Dataset):
    def __init__(self, tokenizer, file_path):
        print(f"Loading data from: {file_path}")  # 디버깅 출력
        data = pd.read_csv(file_path)
        print(f"Data columns: {data.columns}")  # 데이터 컬럼 출력

        # 'Category'와 'Text' 컬럼을 사용하여 concats 리스트 생성
        concats = [
            str(category) + "|" + str(text) for category, text in zip(data["Category"], data["Text"])
        ]

        print(f"Concatenated data sample: {concats[:5]}")  # 첫 5개의 데이터 확인

        self.item = tokenizer(
            concats,
            return_tensors="pt",
            padding="max_length",
            truncation=True,
            max_length=32,
        )["input_ids"]
        self.length = len(concats)  # concats 리스트의 길이로 길이 설정
        print(f"Dataset length: {self.length}")  # 데이터셋 길이 출력

    def __getitem__(self, i):
        return self.item[i]

    def __len__(self):
        return self.length

def GPTDataLoader(tokenizer, file_path, batch_size):
    dataset = GPTDataset(tokenizer, file_path)
    return DataLoader(dataset, batch_size=batch_size)