# 🔧 문장 순서 예측 전처리 노트북
- Pairwise 방식용 CSV 생성
- Seq2Seq 방식용 CSV 생성
- 저장 경로: `data/cleaned_pairwise.csv`, `data/cleaned_seq2seq.csv`

In [None]:
import pandas as pd
import itertools
import os

## ✅ 데이터 불러오기

In [None]:
# 원본 데이터 로드 (경로는 실제 상황에 맞게 수정)
df = pd.read_csv("../data/train.csv")
df.head()

## ✅ Pairwise 전처리 함수

In [None]:
def preprocess_pairwise(df):
    data = []
    for _, row in df.iterrows():
        sentences = [row[f'sentence_{i}'] for i in range(4)]
        answer = [row[f'answer_{i}'] for i in range(4)]
        ordered = [sentences[i] for i in answer]
        positive_pairs = [(ordered[i], ordered[i+1]) for i in range(3)]
        all_pairs = list(itertools.permutations(sentences, 2))
        for s1, s2 in all_pairs:
            label = 1 if (s1, s2) in positive_pairs else 0
            data.append({'sentence1': s1, 'sentence2': s2, 'label': label})
    return pd.DataFrame(data)

## ✅ Seq2Seq 전처리 함수

In [None]:
def preprocess_seq2seq(df):
    data = []
    for _, row in df.iterrows():
        sentences = [row[f'sentence_{i}'] for i in range(4)]
        answers = [row[f'answer_{i}'] for i in range(4)]
        input_text = ' [SEP] '.join(sentences)
        target_text = ' '.join(map(str, answers))
        data.append({'input_text': input_text, 'target_text': target_text})
    return pd.DataFrame(data)

## ✅ 전처리 실행 및 저장

In [None]:
# Pairwise 저장
pairwise_df = preprocess_pairwise(df)
os.makedirs("../data", exist_ok=True)
pairwise_df.to_csv("../data/cleaned_pairwise.csv", index=False)
print("[✅] cleaned_pairwise.csv 저장 완료")

# Seq2Seq 저장
seq2seq_df = preprocess_seq2seq(df)
seq2seq_df.to_csv("../data/cleaned_seq2seq.csv", index=False)
print("[✅] cleaned_seq2seq.csv 저장 완료")