In [9]:
import pandas as pd
import torch
from torch.utils.data import Dataset, DataLoader
import json

# 데이터프레임을 읽어옵니다.
excel_file = pd.read_excel("/content/drive/MyDrive/Colab Notebooks/pyTorch/A 음식점(15,726).xlsx", engine="openpyxl")

# 중복되지 않는 레이블을 추출하고 인덱스 매핑 딕셔너리 생성
unique_labels = list(set(excel_file["개체명"].str.split(",").str[0].str.strip()))
label2idx = {label: idx for idx, label in enumerate(unique_labels)}

# PyTorch 사용하여 커스텀 데이터셋 만들기
# 데이터셋 클래스를 정의합니다.
class CustomDataset(Dataset):
    def __init__(self, data, label2idx, transform=None, target_transform=None):
        self.df = data
        self.sentence, self.label = self.whatisthis(self.df)
        self.label2idx = label2idx  # label2idx 딕셔너리를 받습니다

    def whatisthis(self, excel_df):
        sentence = excel_df["SENTENCE"]
        label = [str(row).split(",")[0].strip() if not pd.isna(row) else "" for row in excel_df["개체명"].tolist()]
        return sentence, label

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        sentence = self.sentence[idx]
        label = self.label[idx]

        # 레이블을 인덱스로 변환
        label_idx = self.label2idx.get(label, -1)  # 레이블이 없으면 -1을 반환하도록 설정

        return sentence, label_idx

# 데이터셋 인스턴스 생성
custom_dataset = CustomDataset(excel_file, label2idx)

# 데이터 로더를 생성
batch_size = 64
data_loader = DataLoader(custom_dataset, batch_size=batch_size, shuffle=True)

# 모든 데이터를 저장할 리스트를 만듭니다.
data_set = []

# 데이터 로더를 사용하여 데이터를 반복하면서 모델을 학습할 수 있습니다.
for batch in data_loader:
    sentences, label_indices = batch
    for sentence, label_idx in zip(sentences, label_indices):
        data_set.append({"sentence": sentence, "label_idx": label_idx.item()})

# 결과 출력
for data in data_set:
    print("Sentence:", data["sentence"])
    print("Label Index:", data["label_idx"])

# JSON 파일로 저장 (ensure_ascii=False를 추가하여 한글 문자열을 유니코드가 아닌 형식으로 저장)
with open("/content/drive/MyDrive/Colab Notebooks/pyTorch/data.json", "w", encoding='utf-8') as f:
    json.dump(data_set, f, ensure_ascii=False, indent=4)


[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
Sentence: 이런 거 시켜서 같이 나오는 거요
Label Index: 0
Sentence: 그러면 매운 김밥 하나하고 새우 김밥 하나하고
Label Index: 1124
Sentence: 여기도 쿠폰제 같은 것도 해요?
Label Index: 447
Sentence: 네 포장해드리겠습니다
Label Index: 1453
Sentence: 네 그러면 그 위치가 어디예요?
Label Index: 2441
Sentence: 백 프로 현미인데 괜찮으세요?
Label Index: 279
Sentence: 달콤한거요
Label Index: 0
Sentence: 네 추가금액 하시면 가능합니다
Label Index: 1203
Sentence: 혹시 커피 있어요?
Label Index: 577
Sentence: 네 세트 하면 500원 차이 나요
Label Index: 193
Sentence: 더 필요한거 없으세요?
Label Index: 0
Sentence: 네
Label Index: 0
Sentence: 어떤 파스타가 제일 잘 나가요?
Label Index: 2679
Sentence: 네 통신사카드 10프로 할인 됩니다
Label Index: 2685
Sentence: 파스타 메뉴는 있어요? 혼자 먹을 수 있는
Label Index: 2679
Sentence: 네
Label Index: 0
Sentence: 네
Label Index: 0
Sentence: 불고기 피자치킨셋트에 후라이드 치킨으로 오는 건가요
Label Index: 348
Sentence: 열 개 들어가 있어요
Label Index: 857
Sentence: 맵진 않죠?
Label Index: 0
Sentence: 물 좀 따뜻한 걸로 주시겠어요?
Label Index: 2339
Sentence: 프라이드 치킨 주문하려구요.
Label Index: 306
Sentence: 중자에 다른 거는 뭐 안 시켜도 되나요?
Lab