In [2]:
import pandas as pd

# 필요한 컬럼 리스트
required_columns = ['order', 'machine', 'gt']
input_path = "./data/augmented_dataset_n5_20250613_divide_date_deduplicated.csv"
output_path = "./data/divide_54_20250613.csv" # 저장할 경로

try:
    df_test_loaded = pd.read_csv(input_path)
    if all(col in df_test_loaded.columns for col in required_columns):
        df_test_final = df_test_loaded[required_columns]
        df_test_final.to_csv(output_path, index=False)
        print(f"Successfully processed and saved:{output_path}")
    else:
        print("Warning: Loaded Test DataFrame does not have all required columns.")
except FileNotFoundError:
    print(f"Error: {input_path} not found.")
except Exception as e:
    print(f"Error processing test data: {e}")



Successfully processed and saved:./data/divide_54_20250613.csv


In [3]:
import pandas as pd

# 1. 파일 경로를 변수에 저장합니다.
file_path = input_path

# 2. CSV 파일을 데이터프레임으로 불러옵니다.
# sep=','는 쉼표로 구분된 파일임을 명시합니다.
# header=0은 첫 번째 행을 컬럼 이름으로 사용하겠다는 의미입니다.
try:
    df = pd.read_csv(file_path, sep=',', header=0)

    # 3. 데이터프레임의 첫 5행을 출력하여 데이터를 확인합니다.
    print("--- 데이터 샘플 (상위 5개 행) ---")
    print(df.head())
    print("\n" + "="*50 + "\n")

    # 4. 데이터프레임의 기본 정보를 출력하여 구조를 파악합니다.
    print("--- 데이터프레임 기본 정보 ---")
    df.info()

except FileNotFoundError:
    print(f"오류: '{file_path}' 경로에 파일이 존재하지 않습니다.")
    print("파일 경로를 다시 한번 확인해주세요.")
except Exception as e:
    print(f"데이터를 불러오는 중 오류가 발생했습니다: {e}")

--- 데이터 샘플 (상위 5개 행) ---
   Unnamed: 0                                              order  \
0           0  • date001 item127 9195 0 4\n• date001 item1289...   
1           1  • date002 item1051 71585 0 138\n• date002 item...   
2           2  • date003 item1130 109155 0 125\n• date003 ite...   
3           3  • date004 item1124 179208 0 82\n• date004 item...   
4           4  • date005 item1111 39310 0 66\n• date005 item1...   

                                                  nl  \
0  • nan\n• nan\n• nan\n• nan\n• nan\n• nan\n• na...   
1  • nan\n• nan\n• nan\n• nan\n• nan\n• nan\n• na...   
2  • Please check this, item2684 2 is until June ...   
3  • nan\n• nan\n• nan\n• nan\n• nan\n• nan\n• na...   
4  • item4373, right? Doing 5? You can do it unti...   

                                             machine  \
0  • item1316 machine28 2.0\n• item5326 machine22...   
1  • item4789 machine23 3.77\n• item3444 machine2...   
2  • item1233 machine09 2.66\n• item79 machine35 ...   
3  • 

In [4]:
import pandas as pd
import sys
from tqdm.auto import tqdm # 진행 상황을 보여주는 라이브러리

# === 1. `process_row` 함수 재정의 (중복 기록 기능 추가) ===

def process_row_with_logging(row):
    """
    원본 데이터프레임의 한 행을 입력받아,
    (처리된 데이터프레임, 중복 발생 기록)을 튜플 형태로 반환하는 함수.
    """
    duplicates_log = [] # 이번 행에서 발생한 중복을 기록할 리스트

    # --- machine, gt 딕셔너리 생성 (이전 코드와 동일) ---
    machine_dict = {}
    if pd.notna(row['machine']) and row['machine'].strip():
        for line in row['machine'].strip().split('\n'):
            parts = line.strip().split()
            if len(parts) == 4:
                item_key, machine_info = parts[1], ' '.join(parts[2:])
                full_line_info = '• ' + machine_info
                if item_key not in machine_dict:
                    machine_dict[item_key] = []
                machine_dict[item_key].append(full_line_info)
            else:
                print(f"오류: `machine` 컬럼 데이터 형식이 잘못되었습니다. 라인: '{line}'")
                sys.exit()

    gt_dict = {}
    if pd.notna(row['gt']) and row['gt'].strip():
        for line in row['gt'].strip().split('\n'):
            parts = line.strip().split()
            if len(parts) == 5:
                item_key, gt_info = parts[1], ' '.join([parts[2], parts[4]])
                full_line_info = '• ' + gt_info
                if item_key not in gt_dict:
                    gt_dict[item_key] = []
                gt_dict[item_key].append(full_line_info)
            else:
                print(f"오류: `gt` 컬럼 데이터 형식이 잘못되었습니다. 라인: '{line}'")
                sys.exit()

    # --- `order` 정보 처리 및 중복 기록 ---
    order_items = {}
    if pd.notna(row['order']) and row['order'].strip():
        for line in row['order'].strip().split('\n'):
            parts = line.strip().split()
            if len(parts) == 6:
                date_val, item_val, cost_val, urgent_val, qty_val = parts[1], parts[2], int(parts[3]), int(parts[4]), int(parts[5])

                if item_val in order_items:
                    # 중복 발생: 로그 기록
                    duplicates_log.append(f"item '{item_val}' (urgent: {urgent_val}, qty: {qty_val})")
                    
                    if order_items[item_val]['cost'] != cost_val:
                        print(f"오류: `item {item_val}`의 `cost` 값이 일치하지 않습니다. ({order_items[item_val]['cost']} vs {cost_val})")
                        sys.exit()
                    
                    order_items[item_val]['urgent_sum'] += urgent_val
                    order_items[item_val]['qty_sum'] += qty_val
                else:
                    order_items[item_val] = {'date': date_val, 'cost': cost_val, 'urgent_sum': urgent_val, 'qty_sum': qty_val}
            else:
                print(f"오류: `order` 컬럼 데이터 형식이 잘못되었습니다. 라인: '{line}'")
                sys.exit()

    # --- 최종 데이터프레임 생성 (이전 코드와 동일) ---
    processed_data = []
    for item, values in order_items.items():
        order_str = f"• {values['date']} {item} {values['cost']} {values['urgent_sum']} {values['qty_sum']}"
        machine_str = "\n".join(machine_dict.get(item, []))
        gt_str = "\n".join(gt_dict.get(item, []))
        processed_data.append({'order': order_str, 'machine': machine_str, 'gt': gt_str})
        
    return pd.DataFrame(processed_data), duplicates_log


# === 2. 전체 데이터프레임 처리 및 CSV 저장 ===

print("--- 전체 데이터 처리 시작 ---")

all_processed_dfs = []
full_duplicates_log = []

# tqdm을 사용하여 df.iterrows()에 대한 진행상황 바를 표시
for index, row in tqdm(df.iterrows(), total=df.shape[0], desc="전체 행 처리 중"):
    processed_df, duplicates = process_row_with_logging(row)
    all_processed_dfs.append(processed_df)
    
    if duplicates: # 중복 기록이 있는 경우에만 로그 추가
        for log_entry in duplicates:
            # 원본 행 인덱스 정보를 포함하여 기록
            full_duplicates_log.append(f"원본 행 {index}에서 중복 발생: {log_entry}")

# === 3. 결과 통합 및 저장 ===

print("\n--- 데이터 통합 및 CSV 파일 저장 시작 ---")
if all_processed_dfs:
    final_df = pd.concat(all_processed_dfs, ignore_index=True)
    
    output_path = output_path
    final_df.to_csv(output_path, index=False)
    
    print(f"성공: 최종 데이터프레임을 '{output_path}'에 저장했습니다.")
    print(f"최종 데이터프레임의 크기: {final_df.shape[0]} 행, {final_df.shape[1]} 열")
else:
    print("처리할 데이터가 없어 파일을 생성하지 않았습니다.")

# === 4. 중복 발생 기록 출력 ===

print("\n--- Item 중복 발생 기록 ---")
if full_duplicates_log:
    for log in full_duplicates_log:
        print(log)
else:
    print("모든 행에서 item 중복이 발견되지 않았습니다.")

print("\n--- 모든 작업 완료 ---")

--- 전체 데이터 처리 시작 ---


전체 행 처리 중:   0%|          | 0/365 [00:00<?, ?it/s]


--- 데이터 통합 및 CSV 파일 저장 시작 ---
성공: 최종 데이터프레임을 './data/divide_54_20250613.csv'에 저장했습니다.
최종 데이터프레임의 크기: 19795 행, 3 열

--- Item 중복 발생 기록 ---
원본 행 15에서 중복 발생: item 'item4167' (urgent: 1, qty: 4)
원본 행 45에서 중복 발생: item 'item5862' (urgent: 1, qty: 3)
원본 행 48에서 중복 발생: item 'item4258' (urgent: 1, qty: 1)
원본 행 87에서 중복 발생: item 'item6447' (urgent: 1, qty: 12)
원본 행 135에서 중복 발생: item 'item5245' (urgent: 1, qty: 17)
원본 행 138에서 중복 발생: item 'item5190' (urgent: 1, qty: 21)
원본 행 143에서 중복 발생: item 'item1702' (urgent: 1, qty: 16)
원본 행 163에서 중복 발생: item 'item5258' (urgent: 1, qty: 32)
원본 행 201에서 중복 발생: item 'item1107' (urgent: 1, qty: 8)
원본 행 213에서 중복 발생: item 'item2705' (urgent: 1, qty: 48)
원본 행 223에서 중복 발생: item 'item1771' (urgent: 1, qty: 1)
원본 행 249에서 중복 발생: item 'item397' (urgent: 1, qty: 14)
원본 행 250에서 중복 발생: item 'item4376' (urgent: 1, qty: 5)
원본 행 268에서 중복 발생: item 'item2157' (urgent: 1, qty: 13)
원본 행 285에서 중복 발생: item 'item4903' (urgent: 1, qty: 15)
원본 행 291에서 중복 발생: item 'item2847' (urgent: 1, qt