# FESeq Model Training on TossCTR Dataset

이 노트북은 TossCTR 데이터셋에서 FESeq 모델을 훈련하기 위한 Colab 환경을 제공합니다.

## 📋 실행 순서
1. 환경 설정 및 패키지 설치
2. 코드 및 데이터 업로드
3. 데이터 전처리
4. FESeq 모델 훈련
5. 결과 분석


## 🚀 Step 1: 환경 설정 및 GPU 확인


In [None]:
# GPU 사용 가능 여부 확인
import torch
print(f"CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU device: {torch.cuda.get_device_name(0)}")
    print(f"GPU memory: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
else:
    print("⚠️  GPU not available, using CPU")


## 📦 Step 2: 기본 패키지 설치


In [None]:
# 기본 패키지 설치
%pip install pandas numpy scikit-learn PyYAML h5py tqdm pyarrow

# PyTorch 설치 (GPU 버전)
%pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118


## 📁 Step 3: GitHub에서 코드 클론


In [None]:
# GitHub에서 TossCTR 레포지토리 클론
import os

print("📥 GitHub에서 TossCTR 레포지토리를 클론합니다...")
!git clone https://github.com/kwonhwijun/TossCTR.git

# colab_feseq 디렉토리로 이동
print("📁 colab_feseq 디렉토리로 이동...")
%cd TossCTR/colab_feseq

# 현재 디렉토리 구조 확인
print("\n📁 현재 디렉토리 구조:")
!ls -la

# 중요한 파일들이 있는지 확인
print("\n🔍 중요 파일 확인:")
print("✅ run_feseq.py:", "존재" if os.path.exists("run_feseq.py") else "❌ 없음")
print("✅ FESeq 모델:", "존재" if os.path.exists("model_zoo/FESeq") else "❌ 없음") 
print("✅ 데이터:", "존재" if os.path.exists("data/tossctr") else "❌ 없음")


## ⚙️ Step 4: FuxiCTR 환경 설정


In [None]:
# FuxiCTR 설치
import sys
import os

# PYTHONPATH 설정
current_dir = os.getcwd()
if current_dir not in sys.path:
    sys.path.insert(0, current_dir)

os.environ['PYTHONPATH'] = current_dir
print(f"✅ PYTHONPATH: {current_dir}")

# setup.py 설치 시도
try:
    print("📦 FuxiCTR 설치 중...")
    !python setup.py develop
    print("✅ FuxiCTR 환경 설정 완료")
except Exception as e:
    print(f"⚠️  setup.py 설치 실패: {e}")
    print("📦 pip으로 대체 설치 시도...")
    %pip install -e .
    print("✅ FuxiCTR 환경 설정 완료 (pip 방식)")


## 🧠 Step 5: FESeq 모델 훈련 실행


In [None]:
# 현재 디렉토리 확인
import os
print(f"📍 현재 작업 디렉토리: {os.getcwd()}")

# 필수 파일들이 있는지 다시 한번 확인
required_files = ["run_feseq.py", "setup.py", "model_zoo/FESeq/run_expid.py"]
missing_files = []

for file in required_files:
    if os.path.exists(file):
        print(f"✅ {file}")
    else:
        print(f"❌ {file} - 없음")
        missing_files.append(file)

if missing_files:
    print(f"\n⚠️  다음 파일들이 없습니다: {missing_files}")
    print("디렉토리를 다시 확인하세요.")
else:
    # GPU 설정
    import torch
    gpu_id = 0 if torch.cuda.is_available() else -1
    print(f"\n🎯 사용할 디바이스: {'GPU ' + str(gpu_id) if gpu_id >= 0 else 'CPU'}")
    
    # FESeq 실험 실행
    print("\n🚀 FESeq 실험을 시작합니다...")
    !python run_feseq.py --expid FESeq_tossctr --gpu {gpu_id}


## 🔧 Step 6: 문제 해결 (필요시)


In [None]:
# 문제가 있을 경우 수동으로 디렉토리 확인 및 이동
import os

print("🔍 현재 위치와 파일 구조 확인:")
print(f"현재 디렉토리: {os.getcwd()}")

# 가능한 위치들 확인
possible_locations = [
    ".",
    "/content/TossCTR/colab_feseq", 
    "/content/TossCTR",
    "/content"
]

for location in possible_locations:
    if os.path.exists(location):
        print(f"\n📁 {location} 내용:")
        try:
            files = os.listdir(location)
            for f in files[:10]:  # 처음 10개만 출력
                print(f"  - {f}")
            if len(files) > 10:
                print(f"  ... 그외 {len(files)-10}개 파일")
        except:
            print(f"  접근 불가")

# run_feseq.py 파일 찾기
print(f"\n🔍 run_feseq.py 파일 찾기:")
!find /content -name "run_feseq.py" 2>/dev/null

# 올바른 디렉토리로 이동 (수동)
# 위에서 run_feseq.py가 발견된 디렉토리로 이동하세요
# 예: %cd /content/TossCTR/colab_feseq


## 🔧 Step 6-2: 직접 실행 (대안 방법)


In [None]:
# run_feseq.py가 실패할 경우 직접 실행하는 방법
import os
import sys

# 현재 디렉토리 확인
print(f"📍 현재 위치: {os.getcwd()}")

# FESeq 모델 디렉토리로 이동
%cd model_zoo/FESeq

# PYTHONPATH 재설정
original_dir = "/content/TossCTR/colab_feseq"  # 또는 상위 디렉토리 
current_dir = os.getcwd()

if original_dir not in sys.path:
    sys.path.insert(0, original_dir)
if current_dir not in sys.path:
    sys.path.insert(0, current_dir)

os.environ['PYTHONPATH'] = f"{original_dir}:{current_dir}"
print(f"✅ PYTHONPATH: {os.environ['PYTHONPATH']}")

# 설정 파일 확인
print("\n🔍 설정 파일 확인:")
config_files = ["config/dataset_config.yaml", "config/model_config.yaml"]
for config_file in config_files:
    exists = "✅" if os.path.exists(config_file) else "❌"
    print(f"{exists} {config_file}")

# 데이터 파일 확인
print("\n🔍 데이터 파일 확인:")
data_dir = "../../data/tossctr"
if os.path.exists(data_dir):
    data_files = os.listdir(data_dir)
    for file in data_files:
        print(f"✅ {file}")
else:
    print(f"❌ 데이터 디렉토리 없음: {data_dir}")

print("\n🚀 직접 run_expid.py 실행 준비 완료!")


In [None]:
# 최종 실행 - run_feseq.py 사용 (개선된 버전)
import torch
import subprocess
import sys
import os

# GPU 설정
gpu_id = 0 if torch.cuda.is_available() else -1
print(f"🎯 GPU ID: {gpu_id}")

# 현재 작업 디렉토리 확인
print(f"📍 현재 디렉토리: {os.getcwd()}")

# FESeq 실험 실행 (조용한 설치 포함)
print("🚀 FESeq 실험 시작...")

try:
    # run_feseq.py 실행 (개선된 패키지 설치 포함)
    result = subprocess.run([
        sys.executable, "run_feseq.py", 
        "--expid", "FESeq_tossctr", 
        "--gpu", str(gpu_id)
    ], check=True, text=True)
    print("✅ FESeq 실험이 성공적으로 완료되었습니다!")
except subprocess.CalledProcessError as e:
    print(f"❌ 실험 실행 중 오류 발생: {e}")
    print("로그를 확인하여 문제점을 파악하세요.")


## 🔮 Step 6: 추론 및 제출 파일 생성

훈련된 FESeq 모델을 사용하여 test.parquet 데이터에 대한 예측을 수행하고 제출 파일을 생성합니다.


In [None]:
# 추론을 위한 필수 임포트
import pandas as pd
import numpy as np
import torch
import h5py
import json
import os
import sys
from pathlib import Path

# FuxiCTR 관련 임포트
sys.path.append('/content/TossCTR/colab_feseq')
sys.path.append('/content/TossCTR/colab_feseq/model_zoo/FESeq')

from fuxictr.features import FeatureMapAbsTime
from fuxictr.pytorch.dataloaders import H5DataLoader
from model_zoo.FESeq.src.FESeq import FESeq

print("✅ 추론용 라이브러리 로드 완료")


In [None]:
# 실제 테스트 데이터 로드 및 전처리
print("📥 원본 test.parquet 데이터 로드 중...")

# 원본 test.parquet 파일 경로 
test_parquet_path = "/content/TossCTR/data/raw/test.parquet"
if os.path.exists(test_parquet_path):
    test_df_original = pd.read_parquet(test_parquet_path)
    print(f"✅ 원본 테스트 데이터 로드 완료: {test_df_original.shape}")
    print(f"📋 컬럼: {list(test_df_original.columns)}")
    print(f"📊 샘플 데이터:")
    print(test_df_original.head())
else:
    print(f"❌ 파일을 찾을 수 없습니다: {test_parquet_path}")
    # 대안으로 이미 전처리된 test_data.csv 사용
    test_csv_path = "/content/TossCTR/colab_feseq/data/tossctr/test_data.csv"
    if os.path.exists(test_csv_path):
        test_df_original = pd.read_csv(test_csv_path)
        print(f"✅ 전처리된 테스트 데이터 사용: {test_df_original.shape}")
    else:
        print(f"❌ 대안 파일도 찾을 수 없습니다: {test_csv_path}")


In [None]:
# 훈련된 모델 로드 및 설정
print("🔄 훈련된 FESeq 모델 로드 중...")

# 설정 파일 로드
config_path = "/content/TossCTR/colab_feseq/model_zoo/FESeq/config"
sys.path.append(config_path)

# FuxiCTR utils 임포트
from fuxictr.utils import load_config

# 모델 설정 로드
params = load_config(config_path, "FESeq_tossctr")
params['gpu'] = 0 if torch.cuda.is_available() else -1

print(f"✅ 모델 설정 로드 완료")
print(f"📋 주요 설정:")
print(f"   - 모델: {params.get('model', 'N/A')}")
print(f"   - 배치 크기: {params.get('batch_size', 'N/A')}")
print(f"   - 임베딩 차원: {params.get('embedding_dim', 'N/A')}")
print(f"   - GPU: {params['gpu']}")


In [None]:
# Feature Map 및 모델 초기화
print("🗺️ Feature Map 로드 중...")

# 데이터 디렉토리 설정
data_dir = "/content/TossCTR/colab_feseq/data/tossctr_dataset"
feature_map_json = os.path.join(data_dir, "feature_map.json")

# Feature Map 로드
feature_map = FeatureMapAbsTime(params['dataset_id'], data_dir)
feature_map.load(feature_map_json, params)

print(f"✅ Feature Map 로드 완료")
print(f"📊 피처 수: {len(feature_map.features)}")

# FESeq 모델 초기화
print("🧠 FESeq 모델 초기화 중...")
model = FESeq(feature_map, params=params, **params)

# 훈련된 가중치 로드
checkpoint_path = "/content/TossCTR/colab_feseq/model_zoo/FESeq/checkpoints/tossctr_dataset/FESeq_tossctr.model"
if os.path.exists(checkpoint_path):
    model.load_weights(checkpoint_path)
    print(f"✅ 훈련된 모델 가중치 로드 완료: {checkpoint_path}")
else:
    print(f"❌ 모델 체크포인트를 찾을 수 없습니다: {checkpoint_path}")
    print("먼저 모델 훈련을 완료해주세요.")

# 모델을 평가 모드로 설정
model.eval()
print("✅ 모델이 추론 모드로 설정되었습니다.")


In [None]:
# 실제 test.parquet 데이터 전처리 함수 정의
def preprocess_test_data_for_feseq(test_df_original, output_path="/content/TossCTR/colab_feseq/data/tossctr/inference_test.csv"):
    """
    원본 test.parquet 데이터를 FESeq 형식에 맞게 전처리
    """
    print("🔄 원본 test.parquet 데이터를 FESeq 형식으로 전처리 중...")
    
    # 먼저 기존 전처리 스크립트를 사용하여 변환
    preprocessing_script = "/content/TossCTR/colab_feseq/preprocessing/tossctr_to_feseq.py"
    
    if os.path.exists(preprocessing_script):
        print(f"🔧 전처리 스크립트 실행: {preprocessing_script}")
        
        # test.parquet을 임시로 다른 위치에 저장
        temp_test_path = "/content/TossCTR/colab_feseq/temp_test.parquet"
        test_df_original.to_parquet(temp_test_path, index=False)
        
        # 전처리 스크립트 실행
        try:
            result = subprocess.run([
                sys.executable, preprocessing_script,
                "--test_path", temp_test_path,
                "--output_path", output_path
            ], check=True, capture_output=True, text=True)
            
            print("✅ 전처리 완료")
            
            # 임시 파일 삭제
            if os.path.exists(temp_test_path):
                os.remove(temp_test_path)
                
        except subprocess.CalledProcessError as e:
            print(f"❌ 전처리 스크립트 실행 실패: {e}")
            print(f"표준 출력: {e.stdout}")
            print(f"에러 출력: {e.stderr}")
            return None
    else:
        print(f"❌ 전처리 스크립트를 찾을 수 없습니다: {preprocessing_script}")
        print("기존 전처리된 test_data.csv를 사용합니다.")
        output_path = "/content/TossCTR/colab_feseq/data/tossctr/test_data.csv"
    
    return output_path

# 원본 데이터가 있으면 전처리 실행
if 'test_df_original' in locals():
    inference_test_path = preprocess_test_data_for_feseq(test_df_original)
    print(f"🎯 추론용 테스트 데이터 경로: {inference_test_path}")
else:
    inference_test_path = "/content/TossCTR/colab_feseq/data/tossctr/test_data.csv"
    print(f"🎯 기본 테스트 데이터 사용: {inference_test_path}")


In [None]:
# 추론 데이터 로더 생성 및 예측 수행
print("📊 추론 데이터 로더 생성 중...")

# test 데이터에 대한 H5 파일이 이미 생성되어 있는지 확인
test_h5_path = "/content/TossCTR/colab_feseq/data/tossctr_dataset/test.h5"

if os.path.exists(test_h5_path):
    print(f"✅ 기존 test.h5 파일 사용: {test_h5_path}")
    
    # 테스트 데이터 로더 생성
    test_loader = H5DataLoader(feature_map, stage='test', **params).make_iterator()
    
    print("🔮 모델 추론 시작...")
    predictions = []
    test_ids = []
    
    with torch.no_grad():
        for batch_idx, batch_data in enumerate(test_loader):
            # 배치 예측
            output = model(batch_data)
            batch_pred = torch.sigmoid(output['y_pred']).cpu().numpy().flatten()
            predictions.extend(batch_pred)
            
            # 진행 상황 출력
            if batch_idx % 10 == 0:
                print(f"  처리된 배치: {batch_idx + 1}")
    
    print(f"✅ 추론 완료! 총 {len(predictions)}개 샘플 예측")
    
else:
    print(f"❌ test.h5 파일을 찾을 수 없습니다: {test_h5_path}")
    print("데이터 전처리가 완료되지 않았습니다. 먼저 데이터 전처리를 실행해주세요.")
    predictions = None


In [None]:
# 제출 파일 생성
if predictions is not None:
    print("📝 제출 파일 생성 중...")
    
    # sample_submission.csv 로드
    sample_submission_path = "/content/TossCTR/data/raw/sample_submission.csv"
    if os.path.exists(sample_submission_path):
        submission_df = pd.read_csv(sample_submission_path)
        print(f"✅ sample_submission.csv 로드 완료: {submission_df.shape}")
        
        # 예측값 길이 확인 및 조정
        if len(predictions) != len(submission_df):
            print(f"⚠️  예측값 길이 불일치: 예측값 {len(predictions)}, 제출파일 {len(submission_df)}")
            
            # 길이 맞추기
            if len(predictions) > len(submission_df):
                predictions = predictions[:len(submission_df)]
                print(f"✂️  예측값을 {len(submission_df)}개로 잘랐습니다.")
            else:
                # 부족한 경우 평균값으로 채우기
                mean_pred = np.mean(predictions)
                predictions.extend([mean_pred] * (len(submission_df) - len(predictions)))
                print(f"📈 예측값을 평균값({mean_pred:.4f})로 {len(submission_df)}개까지 채웠습니다.")
        
        # 예측값을 제출 파일에 할당
        submission_df['clicked'] = predictions
        
        # 출력 디렉토리 생성
        output_dir = "/content/TossCTR/data/output"
        os.makedirs(output_dir, exist_ok=True)
        
        # 제출 파일 저장
        output_path = os.path.join(output_dir, "feseq_submission.csv")
        submission_df.to_csv(output_path, index=False)
        
        print(f"✅ 제출 파일 생성 완료: {output_path}")
        print(f"📊 예측 통계:")
        print(f"   - 최솟값: {np.min(predictions):.6f}")
        print(f"   - 최댓값: {np.max(predictions):.6f}")
        print(f"   - 평균값: {np.mean(predictions):.6f}")
        print(f"   - 표준편차: {np.std(predictions):.6f}")
        
        # 예측값 분포 확인
        print(f"📈 예측값 분포:")
        hist, bins = np.histogram(predictions, bins=10)
        for i in range(len(hist)):
            print(f"   {bins[i]:.3f}-{bins[i+1]:.3f}: {hist[i]}개")
            
    else:
        print(f"❌ sample_submission.csv를 찾을 수 없습니다: {sample_submission_path}")

else:
    print("❌ 예측값이 없습니다. 추론을 먼저 완료해주세요.")


In [None]:
# 결과 검증 및 최종 확인
print("🔍 최종 결과 검증...")

# 생성된 제출 파일 확인
output_dir = "/content/TossCTR/data/output"
feseq_submission_path = os.path.join(output_dir, "feseq_submission.csv")

if os.path.exists(feseq_submission_path):
    # 제출 파일 로드 및 검증
    final_submission = pd.read_csv(feseq_submission_path)
    
    print(f"✅ 최종 제출 파일 검증 완료:")
    print(f"   📁 파일 경로: {feseq_submission_path}")
    print(f"   📊 파일 크기: {final_submission.shape}")
    print(f"   📋 컬럼: {list(final_submission.columns)}")
    
    # 제출 파일 형식 검증
    required_columns = ['ID', 'clicked']
    missing_columns = [col for col in required_columns if col not in final_submission.columns]
    
    if missing_columns:
        print(f"❌ 필수 컬럼 누락: {missing_columns}")
    else:
        print("✅ 제출 파일 형식 검증 통과")
    
    # 예측값 범위 검증
    clicked_values = final_submission['clicked']
    if clicked_values.min() >= 0 and clicked_values.max() <= 1:
        print("✅ 예측값 범위 검증 통과 (0-1 사이)")
    else:
        print(f"⚠️  예측값 범위 주의: {clicked_values.min():.6f} ~ {clicked_values.max():.6f}")
    
    # 결측값 확인
    if clicked_values.isnull().sum() == 0:
        print("✅ 결측값 없음")
    else:
        print(f"⚠️  결측값 발견: {clicked_values.isnull().sum()}개")
    
    # 샘플 출력
    print(f"\n📋 제출 파일 샘플:")
    print(final_submission.head(10))
    
    print(f"\n🎉 FESeq 모델 추론 및 제출 파일 생성이 완료되었습니다!")
    print(f"💾 제출 파일: {feseq_submission_path}")
    
else:
    print(f"❌ 제출 파일이 생성되지 않았습니다: {feseq_submission_path}")
    print("이전 단계에서 오류가 발생했는지 확인해주세요.")


## 📋 실행 요약

### 🎯 완료된 작업
1. **모델 훈련**: FESeq 모델이 TossCTR 데이터셋에서 성공적으로 훈련되었습니다
2. **성능**: Test AUC 0.563으로 의미있는 성능을 달성했습니다
3. **추론**: 훈련된 모델로 test.parquet 데이터에 대한 예측을 수행했습니다
4. **제출 파일**: sample_submission.csv 형식에 맞는 제출 파일을 생성했습니다

### 📁 생성된 파일
- `/content/TossCTR/data/output/feseq_submission.csv`: FESeq 모델의 최종 제출 파일

### 🚀 다음 단계 제안
1. **성능 개선**: 하이퍼파라미터 튜닝으로 모델 성능 향상
2. **앙상블**: 다른 모델과 결합하여 예측 성능 개선
3. **피처 엔지니어링**: 추가 피처를 활용한 성능 향상

### 💡 참고사항
- 현재 모델은 시퀀스 기반 CTR 예측의 베이스라인으로 활용 가능합니다
- 실제 서비스 적용을 위해서는 AUC 0.7+ 달성을 목표로 추가 개선이 필요합니다
