In [None]:
import pandas as pd
import re

def preprocess_translation_dataset(df):
    """
    KSL 번역 데이터셋의 비정형적인 4줄 블록 구조를 정형화된 데이터프레임으로 변환합니다.
    각 레코드는 4개의 연속된 행으로 구성됩니다.
    """
    records = []
    num_rows = len(df)

    # 4행 단위로 데이터를 처리합니다.
    for i in range(0, num_rows, 4):
        # 4줄 블록이 완성되지 않으면 (파일 끝) 건너뜁니다.
        if i + 3 >= num_rows:
            break

        try:
            # L1: Instruction 및 Output (KSL Gloss) 추출
            # 'src'에서 "Instruction: "을 제거합니다.
            instruction = df.iloc[i]['src'].replace("Instruction: ", "").strip()
            output_ksl = df.iloc[i]['tgt'].strip()

            # L2: Domain 및 Thema 추출
            # 'src'에서 "Domain: "과 "Thema: "를 제거하고 '|'를 기준으로 분리합니다.
            src_l2 = df.iloc[i+1]['src']
            parts = src_l2.split('|')
            # parts 리스트의 길이가 2개인지 확인 (Domain과 Thema가 모두 있는지)
            if len(parts) == 2:
                domain = parts[0].replace("Domain: ", "").strip()
                thema = parts[1].replace("Thema: ", "").strip()
            else:
                domain = src_l2.replace("Domain: ", "").strip()
                thema = "" # Thema가 없으면 공백 처리

            # L3: Input (한국어 문장) 추출
            # 'src'에서 "Input: "을 제거합니다.
            input_korean = df.iloc[i+2]['src'].replace("Input: ", "").strip()

            # L4는 다음 블록의 시작을 알리는 행이므로 무시합니다.

            records.append({
                'instruction': instruction,
                'domain': domain,
                'thema': thema,
                'input_korean': input_korean,
                'output_ksl_gloss': output_ksl
            })

        except Exception as e:
            # 데이터 구조가 예상과 다를 경우 건너뛰고 오류를 출력합니다.
            print(f"Error processing block starting at row index {i}: {e}. Skipping block.")
            continue

    return pd.DataFrame(records)

# 1. 파일 로드
file_name = "ksl_translation_dataset_exaone.csv"
# 파일이 현재 환경에 업로드된 상태라고 가정하고 로드합니다.
df = pd.read_csv(file_name)

# 2. 데이터 전처리
df_cleaned = preprocess_translation_dataset(df)

# 3. 클린징된 DataFrame을 새 CSV 파일로 저장
cleaned_file_name = "ksl_translation_dataset_exaone_cleaned.csv"
df_cleaned.to_csv(cleaned_file_name, index=False, encoding='utf-8')

print(f"\n데이터 전처리 및 저장 완료: {cleaned_file_name}")
print(f"총 {len(df_cleaned)}개의 유효한 레코드를 추출했습니다.")

In [None]:
import pandas as pd
import re

def preprocess_translation_dataset(df):
    """
    KSL 번역 데이터셋의 비정형적인 4줄 블록 구조를 정형화된 데이터프레임으로 변환합니다.
    각 레코드는 4개의 연속된 행으로 구성됩니다.
    """
    records = []
    num_rows = len(df)

    # 4행 단위로 데이터를 처리합니다.
    for i in range(0, num_rows, 4):
        # 4줄 블록이 완성되지 않으면 (파일 끝) 건너뜁니다.
        if i + 3 >= num_rows:
            break

        try:
            # L1: Instruction 및 Output (KSL Gloss) 추출
            # 'src'에서 "Instruction: "을 제거합니다.
            instruction = df.iloc[i]['src'].replace("Instruction: ", "").strip()
            output_ksl = df.iloc[i]['tgt'].strip()

            # L2: Domain 및 Thema 추출
            # 'src'에서 "Domain: "과 "Thema: "를 제거하고 '|'를 기준으로 분리합니다.
            src_l2 = df.iloc[i+1]['src']
            parts = src_l2.split('|')
            # parts 리스트의 길이가 2개인지 확인 (Domain과 Thema가 모두 있는지)
            if len(parts) == 2:
                domain = parts[0].replace("Domain: ", "").strip()
                thema = parts[1].replace("Thema: ", "").strip()
            else:
                domain = src_l2.replace("Domain: ", "").strip()
                thema = "" # Thema가 없으면 공백 처리

            # L3: Input (한국어 문장) 추출
            # 'src'에서 "Input: "을 제거합니다.
            input_korean = df.iloc[i+2]['src'].replace("Input: ", "").strip()

            # L4는 다음 블록의 시작을 알리는 행이므로 무시합니다.

            records.append({
                'instruction': instruction,
                'domain': domain,
                'thema': thema,
                'input_korean': input_korean,
                'output_ksl_gloss': output_ksl
            })

        except Exception as e:
            # 데이터 구조가 예상과 다를 경우 건너뛰고 오류를 출력합니다.
            print(f"Error processing block starting at row index {i}: {e}. Skipping block.")
            continue

    return pd.DataFrame(records)

# 1. 파일 로드
file_name = "ksl_translation_dataset_BP.csv"
# 파일이 현재 환경에 업로드된 상태라고 가정하고 로드합니다.
df = pd.read_csv(file_name)

# 2. 데이터 전처리
df_cleaned = preprocess_translation_dataset(df)

# 3. 클린징된 DataFrame을 새 CSV 파일로 저장
cleaned_file_name = "ksl_translation_dataset_BP_cleaned.csv"
df_cleaned.to_csv(cleaned_file_name, index=False, encoding='utf-8')

print(f"\n데이터 전처리 및 저장 완료: {cleaned_file_name}")
print(f"총 {len(df_cleaned)}개의 유효한 레코드를 추출했습니다.")