In [None]:
import pandas as pd
import numpy as np
import gc

# [Module 2] 전처리 및 데이터 통합 (One-Universe)
# 목적: Train/Test의 스케일링 불일치 해결을 위해 데이터 병합

TRAIN_PATH = 'train_original.feather'
TEST_PATH = 'test_original.feather'
OUTPUT_PATH = 'temp_integrated_data.feather' # 다음 모듈로 넘길 임시 파일

print("--- [Step 2] 데이터 통합 및 타겟 분리 ---")

# 1. 데이터 로드
print("Feather 파일 로드 중...")
df_train = pd.read_feather(TRAIN_PATH)
df_test = pd.read_feather(TEST_PATH)

# 2. 타겟(정답) 분리 및 불필요 컬럼 제거
# Data Leakage 방지를 위해 nins, energy 제거
if 'nins' in df_train.columns:
    y_train = df_train['nins'].copy()
    # y_train은 별도 파일로 저장하거나 메모리에 유지 (여기선 생략)
    
drop_cols = ['nins', 'energy']
df_train.drop(columns=[c for c in drop_cols if c in df_train.columns], inplace=True)
df_test.drop(columns=[c for c in drop_cols if c in df_test.columns], inplace=True)

# 3. 데이터셋 구분 태그 추가
df_train['dataset_type'] = 'train'
df_test['dataset_type'] = 'test'

# 4. 통합 (One-Universe)
# Train과 Test를 합쳐서 통계적 기준(Mean, Std 등)을 통일함
print("데이터 병합(Concat) 수행 중...")
df_full = pd.concat([df_train, df_test], ignore_index=True)

# 메모리 정리
del df_train, df_test
gc.collect()

print(f"통합 완료. 총 행 수: {len(df_full)}")

# 중간 저장 (다음 모듈에서 사용)
# df_full.to_feather(OUTPUT_PATH)
print("전처리 데이터 준비 완료.")