In [None]:
# environment.yml 의존성 문제로 파일 내용 변경됨
# 아래 내용 터미널에서 실행
'''
cd Score-Entropy-Discrete-Diffusion
conda env create -f environment.yml
conda activate sedd
# (sedd) 환경에서 실행
pip install \
  accelerate==0.27.2 \
  aiohttp==3.9.3 \
  aiosignal==1.3.1 \
  antlr4-python3-runtime==4.9.3 \
  appdirs==1.4.4 \
  async-timeout==4.0.3 \
  attrs==23.2.0 \
  beartype==0.14.1 \
  better-abc==0.0.3 \
  certifi==2022.12.7 \
  charset-normalizer==2.1.1 \
  click==8.1.7 \
  cloudpickle==3.0.0 \
  cmake==3.25.0 \
  datasets==2.17.1 \
  dill==0.3.8 \
  docker-pycreds==0.4.0 \
  einops==0.7.0 \
  fancy-einsum==0.0.3 \
  filelock==3.9.0 \
  frozenlist==1.4.1 \
  fsspec==2023.10.0 \
  gitdb==4.0.11 \
  gitpython==3.1.42 \
  huggingface-hub==0.21.1 \
  hydra-core==1.3.2 \
  hydra-submitit-launcher==1.2.0 \
  idna==3.4 \
  jaxtyping==0.2.25 \
  jinja2==3.1.2 \
  lit==15.0.7 \
  markdown-it-py==3.0.0 \
  markupsafe==2.1.3 \
  mdurl==0.1.2 \
  mpmath==1.3.0 \
  multidict==6.0.5 \
  multiprocess==0.70.16 \
  networkx==3.2.1 \
  ninja==1.11.1.1 \
  numpy==1.24.1 \
  omegaconf==2.3.0 \
  pandas==2.2.1 \
  pillow==10.2.0 \
  protobuf==4.25.3 \
  psutil==5.9.8 \
  pyarrow==15.0.0 \
  pyarrow-hotfix==0.6 \
  pygments==2.17.2 \
  python-dateutil==2.8.2 \
  pytz==2024.1 \
  pyyaml==6.0.1 \
  regex==2023.12.25 \
  requests==2.28.1 \
  rich==13.7.0 \
  safetensors==0.4.2 \
  sentry-sdk==1.40.6 \
  setproctitle==1.3.3 \
  smmap==5.0.1 \
  submitit==1.5.1 \
  sympy==1.12 \
  tokenizers==0.15.2 \
  tqdm==4.66.2 \
  transformer-lens==1.14.0 \
  transformers==4.38.1 \
  triton==2.0.0 \
  typeguard==2.13.3 \
  typing-extensions==4.8.0 \
  tzdata==2024.1 \
  urllib3==1.26.13 \
  wandb==0.16.3 \
  xxhash==3.4.1 \
  yarl==1.9.4
pip install flash-attn==2.2.2
python -m ipykernel install --user --name sedd_env --display-name "Python (sedd_env)"
'''
# 주피터노트북 커널 sedd_env 로 변경 후 아래 셀들 실행

In [1]:
# 셀 1: 필요한 라이브러리 임포트 및 경로 설정
import sys
import os

# 클론한 레포지토리의 경로를 sys.path에 추가
# 현재 Notebook 파일(.ipynb)이 Score-Entropy-Discrete-Diffusion 폴더 내에 있다면
# 그리고 터미널에서 해당 폴더로 이동 후 jupyter notebook을 실행했다면,
# 아래 os.chdir 부분은 필요 없을 수 있습니다.
# 현재 작업 디렉토리를 확인하고, 레포지토리 루트 디렉토리로 설정합니다.
print(f"Initial working directory: {os.getcwd()}")
if not os.path.basename(os.getcwd()) == 'Score-Entropy-Discrete-Diffusion':
    # 만약 현재 디렉토리가 레포지토리 루트가 아니라면,
    # 사용자님의 실제 클론 경로에 맞게 수정해야 할 수 있습니다.
    # 예: /workspace/Score-Entropy-Discrete-Diffusion
    # 이 코드는 현재 스크립트가 있는 위치를 기준으로 상위 디렉토리로 이동하는 방식은 아닙니다.
    # 가장 확실한 방법은 절대 경로를 사용하거나,
    # Jupyter Notebook을 Score-Entropy-Discrete-Diffusion 폴더 내에서 실행하는 것입니다.
    # 아래는 일반적인 RunPod 환경을 가정한 예시 경로입니다.
    repo_path = '/workspace/Score-Entropy-Discrete-Diffusion'
    if os.path.exists(repo_path) and os.path.isdir(repo_path):
        os.chdir(repo_path)
        print(f"Changed working directory to: {os.getcwd()}")
    else:
        print(f"Warning: Repository path '{repo_path}' not found. Make sure model files are accessible.")

# sys.path에 현재 디렉토리 (레포지토리 루트) 추가
sys.path.append(os.getcwd())

import torch
# load_model.py가 현재 작업 디렉토리에 있으므로 바로 임포트 가능
from load_model import load_model

print("라이브러리 임포트 및 경로 설정 완료.")

Initial working directory: /workspace/Score-Entropy-Discrete-Diffusion
라이브러리 임포트 및 경로 설정 완료.


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# 셀 2: SEDD 모델 로드
try:
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    print(f"Using device: {device}")

    # Hugging Face Hub에서 모델 로드 시도
    model_path = "louaaron/sedd-small"
    print(f"Loading model from: {model_path}")

    # load_model.py의 load_model 함수 호출 (내부적으로 load_model_hf 우선 시도)
    score_model, graph, noise = load_model(model_path, device)

    print("\nModel loaded successfully!")
    print(f"Model type: {type(score_model)}")
    # score_model이 DDP로 감싸져 있을 수 있으므로 .module로 실제 모델 접근
    if hasattr(score_model, 'module'):
        print(f"Actual model type (inside DDP or similar): {type(score_model.module)}")
    print(f"Graph type: {type(graph)}")
    print(f"Noise type: {type(noise)}")

except Exception as e:
    print(f"An error occurred during model loading: {e}")
    import traceback
    traceback.print_exc()

Using device: cuda
Loading model from: louaaron/sedd-small

Model loaded successfully!
Model type: <class 'model.transformer.SEDD'>
Graph type: <class 'graph_lib.Absorbing'>
Noise type: <class 'noise_lib.LogLinearNoise'>


In [4]:
# 셀 3: 데이터 로드 및 전처리
import pandas as pd
import numpy as np # NaN 비교 등을 위해 사용

# --- 데이터 파일 경로 ---
# 실제 파일 경로로 수정해주세요.
# 예시: 현재 디렉토리에 있다면 그대로 사용
order_info_path = 'sampledata/order_info.csv'
machine_info_path = 'sampledata/machine_info.csv' # 이전에 machine_info_sample.csv를 사용하셨다면, 실제 파일로 변경

# --- 데이터 로드 ---
try:
    order_df = pd.read_csv(order_info_path)
    machine_df = pd.read_csv(machine_info_path)
    print("CSV 파일 로드 완료.")
    print(f"order_df shape: {order_df.shape}")
    print(f"machine_df shape: {machine_df.shape}")
except FileNotFoundError:
    print(f"Error: CSV 파일을 찾을 수 없습니다. 경로를 확인하세요: {order_info_path} 또는 {machine_info_path}")
    # 이 경우, 이후 코드 실행이 어려우므로 중단하거나 파일 경로를 수정해야 합니다.
    order_df = pd.DataFrame() # 빈 DataFrame으로 초기화하여 에러 방지 (실제 사용시에는 파일 필요)
    machine_df = pd.DataFrame()

# --- 전처리 함수 정의 ---

def preprocess_urgent(value):
    """ '선급' 컬럼 값을 URGENT 값으로 매핑 """
    if pd.isna(value) or value == '': # NaN 또는 빈 문자열인 경우
        return 0
    elif value == '검사품':
        return 1
    else: # 그 외 모든 문자열 값
        return 2

def create_input_text_components(row):
    """ DataFrame row에서 input_text 구성요소를 생성 """
    due_date = row['영업납기']
    item_code = row['중산도면']
    cost = int(row['단가']) # 정수형으로 변환
    qty = int(row['수량'])   # 정수형으로 변환
    urgent_value = preprocess_urgent(row['선급'])

    # <URGENT> 태그를 포함한 구조화된 텍스트의 구성요소 딕셔너리
    # 나중에 이 딕셔너리를 바탕으로 실제 <TAG>VALUE 형태의 문자열을 만듭니다.
    components = {
        "<DUE>": str(due_date),
        "<ITEM>": str(item_code),
        "<COST>": str(cost),
        "<QTY>": str(qty),
        "<URGENT>": str(urgent_value)
    }
    return components

def create_conditioning_vector(item_code, machine_df):
    """ 특정 item_code에 대한 conditioning_vector 생성 """
    # machine_df에서 해당 item_code를 가진 machine 정보 필터링
    relevant_machines = machine_df[machine_df['item'] == item_code]
    
    condition_dict = {}
    if not relevant_machines.empty:
        # machine_df의 'machine'은 float으로 읽힐 수 있으므로 str으로 변환 고려
        # 또한, 'capacity'도 숫자형이어야 함
        condition_dict[str(item_code)] = {
            str(int(m_row['machine'])) if pd.notna(m_row['machine']) else str(m_row['machine']): float(m_row['capacity'])
            for _, m_row in relevant_machines.iterrows()
        }
    else:
        # 해당 item_code에 대한 기계 정보가 없으면 빈 딕셔너리 또는 특정 표시
        condition_dict[str(item_code)] = {} 
        
    return condition_dict

def create_target_vector():
    """ 더미 target_vector 생성 """
    # 현재는 간단한 더미 텍스트로 설정
    # 추후 실제 GT 형식에 맞게 수정 필요
    return {"output_text": "더미 GT 결과: 생산 계획 최적화 완료."}


# --- 최종 데이터 구조 생성 ---
processed_data_list = []

if not order_df.empty:
    for index, row in order_df.iterrows():
        input_components = create_input_text_components(row)
        item_code_for_conditioning = row['중산도면'] # conditioning vector 생성 시 사용할 item 코드
        conditioning_vec = create_conditioning_vector(item_code_for_conditioning, machine_df)
        target_vec = create_target_vector()
        
        processed_data_list.append({
            "input_text_components": input_components, # 실제 input_text 문자열은 다음 단계에서 조립
            "conditioning_vector": conditioning_vec,
            "target_vector": target_vec
        })
    print(f"\n총 {len(processed_data_list)}개의 주문 데이터 전처리 완료.")

    # 결과 확인 (첫 2개 데이터 샘플 출력)
    if len(processed_data_list) > 0:
        print("\n--- 전처리된 데이터 샘플 (첫 2개) ---")
        for i, data_sample in enumerate(processed_data_list[:2]):
            print(f"\n--- 샘플 {i+1} ---")
            print(f"Input Text Components: {data_sample['input_text_components']}")
            print(f"Conditioning Vector: {data_sample['conditioning_vector']}")
            print(f"Target Vector: {data_sample['target_vector']}")
    else:
        print("처리된 데이터가 없습니다.")
else:
    print("order_df가 비어있어 전처리를 수행할 수 없습니다.")

CSV 파일 로드 완료.
order_df shape: (127, 5)
machine_df shape: (21151, 3)

총 127개의 주문 데이터 전처리 완료.

--- 전처리된 데이터 샘플 (첫 2개) ---

--- 샘플 1 ---
Input Text Components: {'<DUE>': '2021-05-13', '<ITEM>': 'K04033', '<COST>': '25870', '<QTY>': '318', '<URGENT>': '1'}
Conditioning Vector: {'K04033': {'404': 12.84, '405': 10.42, '407': 8.69, '408': 9.12, '409': 10.33, '410': 8.99, '412': 12.32, '416': 11.23, '422': 4.0, '424': 9.87, '426': 11.77, '433': 9.54, '434': 13.05, '435': 9.0, '436': 9.0, '438': 4.4, '439': 12.47, '440': 9.4}}
Target Vector: {'output_text': '더미 GT 결과: 생산 계획 최적화 완료.'}

--- 샘플 2 ---
Input Text Components: {'<DUE>': '2021-05-24', '<ITEM>': 'K04031', '<COST>': '16229', '<QTY>': '383', '<URGENT>': '1'}
Conditioning Vector: {'K04031': {'407': 4.85, '408': 3.83, '409': 5.37, '410': 3.09, '416': 2.73, '424': 3.94, '425': 5.47, '426': 6.25, '433': 3.37, '434': 3.86, '435': 3.8, '436': 4.53, '440': 3.85}}
Target Vector: {'output_text': '더미 GT 결과: 생산 계획 최적화 완료.'}


In [5]:
# 셀 4: input_text 문자열 생성 및 토큰화 확인

from transformers import GPT2TokenizerFast
import json # JSON 형태의 출력을 위해 임포트 (선택 사항)

# --- GPT-2 토크나이저 로드 ---
try:
    tokenizer = GPT2TokenizerFast.from_pretrained('gpt2')
    # GPT-2 토크나이저는 기본적으로 pad_token이 없으므로, eos_token을 pad_token으로 설정 (필요시)
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token
    print("GPT-2 토크나이저 로드 완료.")
except Exception as e:
    print(f"토크나이저 로드 중 오류 발생: {e}")
    tokenizer = None # 오류 발생 시 None으로 설정

# --- input_text 문자열 생성 및 최종 데이터 구조 업데이트 ---
final_processed_data_list = []

if 'processed_data_list' in globals() and tokenizer: # processed_data_list가 있고 토크나이저가 로드되었는지 확인
    for data_sample in processed_data_list:
        components = data_sample['input_text_components']
        
        # input_text_components 딕셔너리의 순서를 유지하며 문자열 생성
        # Python 3.7+ 에서는 딕셔너리 삽입 순서가 유지되지만, 명시적으로 순서를 정의하는 것이 더 안전할 수 있음
        # 여기서는 딕셔너리 생성 시의 순서(<DUE>, <ITEM>, <COST>, <QTY>, <URGENT>)를 따른다고 가정합니다.
        input_text_str = " ".join([f"{tag}{value}" for tag, value in components.items()])
        
        # 기존 data_sample 딕셔너리를 복사하고 input_text_str 추가, input_text_components는 제거 (선택)
        final_sample = {
            "input_text": input_text_str,
            "conditioning_vector": data_sample['conditioning_vector'],
            "target_vector": data_sample['target_vector']
        }
        final_processed_data_list.append(final_sample)

    print(f"\n총 {len(final_processed_data_list)}개의 최종 데이터 샘플 생성 완료.")

    # --- 토큰화 결과 확인 (첫 번째 샘플 데이터 대상) ---
    if len(final_processed_data_list) > 0:
        sample_for_tokenization = final_processed_data_list[0]
        text_to_tokenize = sample_for_tokenization['input_text']
        
        print(f"\n--- 토큰화할 텍스트 샘플 ---")
        print(text_to_tokenize)
        
        # 토큰화 수행
        # add_special_tokens=True를 사용하면 문장 시작/끝에 특수 토큰이 추가될 수 있습니다.
        # 여기서는 False로 하여 순수 텍스트에 대한 토큰화 결과를 봅니다.
        tokenized_output = tokenizer(text_to_tokenize, add_special_tokens=False)
        input_ids = tokenized_output['input_ids']
        decoded_tokens = [tokenizer.decode([token_id]) for token_id in input_ids]
        
        print(f"\n--- 토큰화 결과 (Token IDs) ---")
        print(input_ids)
        
        print(f"\n--- 디코딩된 각 토큰 ---")
        print(decoded_tokens)
        
        print(f"\n--- 토크나이저 어휘 크기 (Vocabulary Size) ---")
        print(tokenizer.vocab_size)
        
        print(f"\n--- EOS Token ID ---")
        print(tokenizer.eos_token_id)

        print(f"\n--- PAD Token ID (설정되었다면 EOS와 동일) ---")
        print(tokenizer.pad_token_id)

        # 전체 최종 데이터 구조 중 첫 번째 샘플 출력 (JSON 유사 형태)
        print("\n--- 최종 데이터 구조 샘플 (첫 번째) ---")
        # json.dumps를 사용하면 딕셔너리를 예쁘게 출력할 수 있습니다.
        print(json.dumps(final_processed_data_list[0], indent=2, ensure_ascii=False))
        
    else:
        print("토큰화할 데이터가 없습니다 (final_processed_data_list가 비어있음).")
elif not 'processed_data_list' in globals():
    print("오류: 이전 단계에서 'processed_data_list'가 생성되지 않았습니다.")
elif not tokenizer:
    print("오류: 토크나이저가 성공적으로 로드되지 않아 토큰화를 진행할 수 없습니다.")

The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.
0it [00:00, ?it/s]


GPT-2 토크나이저 로드 완료.

총 127개의 최종 데이터 샘플 생성 완료.

--- 토큰화할 텍스트 샘플 ---
<DUE>2021-05-13 <ITEM>K04033 <COST>25870 <QTY>318 <URGENT>1

--- 토큰화 결과 (Token IDs) ---
[27, 35, 8924, 29, 1238, 2481, 12, 2713, 12, 1485, 1279, 2043, 3620, 29, 42, 36676, 2091, 1279, 8220, 2257, 29, 25600, 2154, 1279, 48, 9936, 29, 36042, 1279, 4261, 38, 3525, 29, 16]

--- 디코딩된 각 토큰 ---
['<', 'D', 'UE', '>', '20', '21', '-', '05', '-', '13', ' <', 'IT', 'EM', '>', 'K', '040', '33', ' <', 'CO', 'ST', '>', '258', '70', ' <', 'Q', 'TY', '>', '318', ' <', 'UR', 'G', 'ENT', '>', '1']

--- 토크나이저 어휘 크기 (Vocabulary Size) ---
50257

--- EOS Token ID ---
50256

--- PAD Token ID (설정되었다면 EOS와 동일) ---
50256

--- 최종 데이터 구조 샘플 (첫 번째) ---
{
  "input_text": "<DUE>2021-05-13 <ITEM>K04033 <COST>25870 <QTY>318 <URGENT>1",
  "conditioning_vector": {
    "K04033": {
      "404": 12.84,
      "405": 10.42,
      "407": 8.69,
      "408": 9.12,
      "409": 10.33,
      "410": 8.99,
      "412": 12.32,
      "416": 11.23,
      "422": 4.0,
   

In [6]:
# 셀 5: 더미 GT 생성 및 SEDD 모델 파인튜닝 흐름 확인

import torch
import torch.optim as optim
import numpy as np

# SEDD 레포지토리의 유틸리티 함수 임포트
# 경로가 올바르게 설정되어 있어야 합니다. (셀 1에서 처리됨)
import losses # losses.py
from model import utils as mutils # model/utils.py
# import graph_lib # 이미 로드됨 (graph 변수 사용)
# import noise_lib # 이미 로드됨 (noise 변수 사용)

# --- 하이퍼파라미터 (매우 간소화된 버전) ---
dummy_learning_rate = 1e-5
dummy_num_epochs = 1 # 실제 학습이 아니므로 1 epoch만
dummy_batch_size = 2 # 작은 배치 크기로 테스트
max_seq_length = 128 # 모델이 처리할 수 있는 최대 시퀀스 길이 (필요시 SEDD 설정 확인 후 조정)
                     # GPT-2는 1024까지 가능하지만, 더미 학습이므로 짧게 설정하여 메모리/시간 절약

# --- 데이터셋 및 데이터로더 준비 (더미 학습용) ---
# final_processed_data_list를 사용합니다.
# 각 "input_text"를 토큰화하고, "target_vector"의 "output_text"도 토큰화합니다.

# 1. 입력 텍스트 토큰화
input_sequences = []
for sample in final_processed_data_list:
    # conditioning_vector는 SEDD 모델 직접 입력이 아니므로 여기서는 제외
    # 실제로는 모델 아키텍처에 따라 conditioning_vector를 사용하는 방식이 있을 수 있음
    tokenized_input = tokenizer(sample['input_text'], 
                                padding='max_length',      # 최대 길이에 맞춰 패딩
                                truncation=True,           # 최대 길이 초과시 자르기
                                max_length=max_seq_length, 
                                return_tensors="pt")       # PyTorch 텐서로 반환
    input_sequences.append(tokenized_input['input_ids'].squeeze(0)) # 배치 차원 제거

# 2. 타겟 텍스트(더미 GT) 토큰화
# 모든 샘플에 대해 동일한 더미 타겟을 사용하거나, 입력과 관련된 간단한 타겟을 만들 수 있습니다.
# 여기서는 "input_text"의 처음 몇 토큰을 반복하는 것으로 가정 (매우 단순한 예시)
# 또는 고정된 더미 텍스트 사용
dummy_gt_text = "더미 GT 결과입니다." # 모든 샘플에 동일한 GT 사용
tokenized_dummy_gt = tokenizer(dummy_gt_text,
                               padding='max_length',
                               truncation=True,
                               max_length=max_seq_length,
                               return_tensors="pt")['input_ids'].squeeze(0)

target_sequences = [tokenized_dummy_gt.clone() for _ in range(len(input_sequences))]


# PyTorch Dataset 및 DataLoader 생성
if input_sequences and target_sequences:
    input_tensor = torch.stack(input_sequences)
    target_tensor = torch.stack(target_sequences)
    
    dataset = torch.utils.data.TensorDataset(input_tensor, target_tensor)
    dataloader = torch.utils.data.DataLoader(dataset, batch_size=dummy_batch_size, shuffle=True)
    print(f"\n더미 데이터셋 및 데이터로더 생성 완료.")
    print(f"Input tensor shape: {input_tensor.shape}")
    print(f"Target tensor shape: {target_tensor.shape}")
else:
    print("\n오류: 입력 또는 타겟 시퀀스가 비어있어 데이터로더를 생성할 수 없습니다.")
    dataloader = None

# --- 모델, 옵티마이저, 손실 함수 등 설정 ---
if dataloader:
    # 모델을 학습 모드로 설정
    score_model.train()

    # 옵티마이저 설정 (SEDD 레포의 losses.get_optimizer 사용 가능)
    # 간소화를 위해 AdamW 직접 사용
    # 실제 SEDD 학습에는 config 객체가 필요하므로, 여기서는 단순화합니다.
    optimizer = optim.AdamW(score_model.parameters(), lr=dummy_learning_rate)
    print(f"옵티마이저 설정 완료: {type(optimizer)}")

    # 손실 함수 설정 (SEDD 레포의 losses.get_loss_fn 사용)
    # get_loss_fn에는 noise, graph, train 인자가 필요합니다.
    # sampling_eps 등 추가 파라미터는 기본값 사용 가능
    # 이 loss_fn은 (model, batch, cond, t, perturbed_batch) 등을 인자로 받음
    # 현재 우리는 조건(cond), 시간(t), perturbed_batch를 명시적으로 제어하지 않으므로,
    # SEDD의 학습 방식에 맞게 batch (토큰 ID 시퀀스)만 전달하는 형태로
    # 실제 loss 계산이 이루어지는지 확인해야 합니다.
    # SEDD의 loss_fn은 내부적으로 noise 샘플링, 교란 등을 수행합니다.
    
    # SEDD의 loss_fn 시그니처에 맞게 더미 학습 루프 조정 필요
    # loss_fn_sedd = losses.get_loss_fn(noise.to(device), graph, train=True)
    # 위 noise.to(device)는 이미 device에 있으므로 중복일 수 있습니다.
    # load_model에서 반환된 noise, graph 객체를 사용합니다.
    loss_fn_sedd = losses.get_loss_fn(noise, graph, train=True)
    print(f"SEDD 손실 함수 준비 완료.")

    # --- 더미 학습 루프 ---
    print("\n더미 학습 루프 시작...")
    for epoch in range(dummy_num_epochs):
        total_loss_epoch = 0
        for batch_idx, (input_batch, target_batch) in enumerate(dataloader):
            input_batch = input_batch.to(device)
            # target_batch는 SEDD의 score_entropy loss 계산 시 x0 (원본 데이터)로 사용될 수 있습니다.
            # SEDD의 loss_fn은 (model, batch_x0, cond=None, t=None, perturbed_batch=None) 형태로 호출,
            # 여기서 batch_x0가 원본 데이터를 의미합니다.
            # 그리고 이 batch_x0로부터 내부적으로 perturbed_batch를 생성합니다.
            
            optimizer.zero_grad()
            
            # SEDD의 get_loss_fn으로 생성된 loss_fn은 (model, batch)를 받습니다.
            # 이 batch가 x_0 (원본 깨끗한 데이터)에 해당합니다.
            # loss_fn 내부에서 t 샘플링, 노이즈 추가, 모델 호출, score_entropy 계산 등이 이루어집니다.
            try:
                # score_model은 DDP로 감싸져 있을 수 있으나, loss_fn_sedd 내부에서 처리될 것으로 기대
                loss = loss_fn_sedd(score_model, input_batch) 
                
                # loss가 텐서 리스트 등으로 반환될 경우 .mean() 등이 필요할 수 있음
                if isinstance(loss, list) or (isinstance(loss, torch.Tensor) and loss.ndim > 0 and loss.numel() > 1) :
                    loss = loss.mean() 

                loss.backward()
                optimizer.step()
                
                total_loss_epoch += loss.item()
                
                if batch_idx % 1 == 0: # 모든 배치마다 로그 (더미이므로)
                    print(f"Epoch {epoch+1}/{dummy_num_epochs}, Batch {batch_idx+1}/{len(dataloader)}, Loss: {loss.item():.4f}")
                
                # 아주 기본적인 확인: gradient가 흐르는지 (옵션)
                # if batch_idx == 0:
                #     for name, param in score_model.named_parameters():
                #         if param.grad is not None:
                #             print(f"Gradient found for: {name}, grad norm: {param.grad.norm().item()}")
                #         else:
                #             print(f"No gradient for: {name}")
                #         if 'vocab_embed' in name: # 너무 많으니 일부만
                #             break
                            
            except Exception as e_train:
                print(f"학습 중 오류 발생 (Epoch {epoch+1}, Batch {batch_idx+1}): {e_train}")
                import traceback
                traceback.print_exc()
                break # 오류 발생 시 해당 에폭 중단
        
        avg_loss_epoch = total_loss_epoch / len(dataloader) if len(dataloader) > 0 else 0
        print(f"Epoch {epoch+1} 완료. 평균 Loss: {avg_loss_epoch:.4f}")
        if 'e_train' in locals() and e_train: break # 학습 중 오류 시 전체 루프 중단

    print("더미 학습 루프 종료.")
else:
    print("데이터로더가 생성되지 않아 학습 루프를 실행할 수 없습니다.")


더미 데이터셋 및 데이터로더 생성 완료.
Input tensor shape: torch.Size([127, 128])
Target tensor shape: torch.Size([127, 128])
옵티마이저 설정 완료: <class 'torch.optim.adamw.AdamW'>
SEDD 손실 함수 준비 완료.

더미 학습 루프 시작...
Epoch 1/1, Batch 1/64, Loss: 1063.8622
Epoch 1/1, Batch 2/64, Loss: 962.2855
Epoch 1/1, Batch 3/64, Loss: 906.1330
Epoch 1/1, Batch 4/64, Loss: 940.7695
Epoch 1/1, Batch 5/64, Loss: 533.3435
Epoch 1/1, Batch 6/64, Loss: 598.0334
Epoch 1/1, Batch 7/64, Loss: 593.1202
Epoch 1/1, Batch 8/64, Loss: 618.6344
Epoch 1/1, Batch 9/64, Loss: 423.3824
Epoch 1/1, Batch 10/64, Loss: 529.9001
Epoch 1/1, Batch 11/64, Loss: 398.9142
Epoch 1/1, Batch 12/64, Loss: 456.2115
Epoch 1/1, Batch 13/64, Loss: 230.7086
Epoch 1/1, Batch 14/64, Loss: 416.3353
Epoch 1/1, Batch 15/64, Loss: 303.1117
Epoch 1/1, Batch 16/64, Loss: 595.3788
Epoch 1/1, Batch 17/64, Loss: 368.9520
Epoch 1/1, Batch 18/64, Loss: 296.6279
Epoch 1/1, Batch 19/64, Loss: 246.1158
Epoch 1/1, Batch 20/64, Loss: 584.5085
Epoch 1/1, Batch 21/64, Loss: 260.04