**gt 값이 없는 경우 행 찾기**

In [1]:
import pandas as pd


try:
    df = pd.read_csv('augmented_dataset_n5_20250613_divide_5_deduplicated.csv') 

    # --- 1. 하나 이상의 빈 셀을 포함하는 행의 "인덱스" 찾기 ---
    mask = df.isnull().any(axis=1)
    indices_with_blanks = df.index[mask].tolist() # .tolist()를 사용해 파이썬 리스트로 변환

    # --- 2. 결과 출력 ---
    if indices_with_blanks:
        print(f"총 {len(indices_with_blanks)}개의 행에서 빈 셀이 발견되었습니다.")
        print("해당 행 번호 (인덱스):")
        print(indices_with_blanks)
        
        # (참고) 만약 해당 행들의 내용도 같이 보고 싶다면
        # print("\n--- 빈 셀이 있는 행의 내용 ---")
        # print(df.loc[indices_with_blanks])

    else:
        print("빈 셀을 포함한 행이 없습니다.")

except FileNotFoundError:
    print("오류: 파일을 찾을 수 없습니다. 파일 경로를 확인해주세요.")

총 2개의 행에서 빈 셀이 발견되었습니다.
해당 행 번호 (인덱스):
[52, 350]


In [1]:
import random
import datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
from numpy.random import randint, rand

import ga_runner
import time
import pickle

ORIGIN_GT_N5_FILE = "./dataset_n5_20250526.csv"

def remove_duplicate_lines(multiline_string):
    """
    하나의 긴 문자열(여러 줄로 구성)을 입력받아,
    내부의 중복된 라인을 제거하고 순서를 유지한 새로운 문자열을 반환합니다.
    """
    if not isinstance(multiline_string, str):
        return multiline_string
    
    lines = multiline_string.split('\n')
    # 혹시 모를 빈 라인 항목은 제거
    non_empty_lines = [line for line in lines if line.strip()]
    unique_lines = list(dict.fromkeys(non_empty_lines))
    return '\n'.join(unique_lines)


try:
    df = pd.read_csv(ORIGIN_GT_N5_FILE)
    print(f"'{ORIGIN_GT_N5_FILE}' 파일 로드 성공. 총 {len(df)}개 행.")

    df['order_unique'] = df['order'].apply(remove_duplicate_lines)

    # 기존 'order' 컬럼을 삭제
    df = df.drop(columns=['order'])
    
    # 새로 만든 'order_unique' 컬럼의 이름을 'order'로 변경
    df = df.rename(columns={'order_unique': 'order'})
    
    # 컬럼 순서를 사용자가 원하는 대로 재정렬합니다.
    print("\n'order' 컬럼을 두 번째 위치로 재정렬합니다...")
    
    all_columns = df.columns.tolist()
    
    # 'order' 컬럼을 리스트에서 일단 제거합니다.
    all_columns.remove('order')
    
    # 리스트의 두 번째 위치(인덱스 1)에 'order' 컬럼 이름을 다시 삽입합니다.
    all_columns.insert(1, 'order')
    
    # 이 새로운 순서 리스트를 사용해서 DataFrame의 컬럼 순서를 재정의합니다.
    df = df[all_columns]

    # 7. 수정된 DataFrame을 새로운 CSV 파일로 저장
    #    (원본 파일을 덮어쓰지 않도록 새로운 파일 이름을 사용)
    output_filename = ORIGIN_GT_N5_FILE.replace('.csv', '_deduplicated.csv')
    df.to_csv(output_filename, index=False, encoding='utf-8-sig')
    
    print(f"\n중복 라인이 제거된 데이터가 '{output_filename}' 파일로 저장되었습니다.")
    print("\n--- 저장된 DataFrame (상위 5개) ---")
    print(df.head())

except FileNotFoundError:
    print(f"오류: '{ORIGIN_GT_N5_FILE}' 파일을 찾을 수 없습니다. 파일 경로를 확인해주세요.")

'./dataset_n5_20250526.csv' 파일 로드 성공. 총 123개 행.

'order' 컬럼을 두 번째 위치로 재정렬합니다...

중복 라인이 제거된 데이터가 './dataset_n5_20250526_deduplicated.csv' 파일로 저장되었습니다.

--- 저장된 DataFrame (상위 5개) ---
   Unnamed: 0                                              order  \
0           0  • date133 item15 25870 1 318\n• date144 item16...   
1           1  • date144 item16 16229 1 383\n• date150 item96...   
2           2  • date041 item05 2990 0 500\n• date150 item96 ...   
3           3  • date041 item05 2990 0 500\n• date049 item95 ...   
4           4  • date041 item05 2990 0 500\n• date049 item95 ...   

                                                  nl  \
0  • item15, right? 318? You can do it by May 13t...   
1  • Oh, I just got the item16 drawing, and it sa...   
2  • There, I need to do 19 drawings for item96. ...   
3  • Hey, look quickly. item91 4 I have to do it ...   
4  • item87, right? Doing 196? You can do it unti...   

                                             machine  \
0  • item15 mach