In [None]:
import pandas as pd
import numpy as np
import os # 파일 경로 관리를 위해 os 모듈을 추가합니다.

# PDF 8페이지에 언급된 데이터 소스를 기반으로 파일 경로를 정의합니다.
# 실제 파일이 있는 경로로 수정해주세요.
BASE_DIR = "." # 스크립트가 실행되는 폴더를 기준으로 합니다.
FILE_PATHS = {
    "epl_stats": os.path.join(BASE_DIR, "England Premier League.csv"),
    "championship_stats": os.path.join(BASE_DIR, "England Championship.csv"),
    "player_stats_24_25": os.path.join(BASE_DIR, "epl_player_stats_24_25.csv"),
    # PDF에 언급된 다른 파일들도 여기에 추가할 수 있습니다.
}

def load_data(file_paths):
    """
    지정된 경로에서 CSV 파일들을 불러와 DataFrame 딕셔너리로 반환합니다.
    """
    raw_data = {}
    print("데이터 로딩 시작...")
    try:
        for key, path in file_paths.items():
            if not os.path.exists(path):
                print(f"경고: '{path}' 파일을 찾을 수 없습니다. 이 파일은 건너뜁니다.")
                continue
            raw_data[key] = pd.read_csv(path)
            print(f"성공: '{path}' 로드 완료 (행: {len(raw_data[key])})")
            
        if not raw_data:
            print("오류: 로드할 수 있는 데이터 파일이 하나도 없습니다. 파일 경로를 확인해주세요.")
            return None
            
        return raw_data
        
    except FileNotFoundError as e:
        print(f"오류: 파일을 찾을 수 없습니다. {e}")
        print("FILE_PATHS 변수의 경로가 올바른지 확인해주세요.")
        return None
    except Exception as e:
        print(f"데이터 로딩 중 예기치 않은 오류 발생: {e}")
        return None

def preprocess_data(raw_data):
    """
    원본 DataFrame들을 받아 PDF 4페이지의 '개발범위'에 맞게 전처리합니다.
    """
    print("데이터 전처리 시작...")
    
    # 예시: 'epl_stats' 데이터 전처리
    if "epl_stats" in raw_data:
        epl_df = raw_data["epl_stats"].copy()
        
        # TODO: (PDF 개발범위 1) 결측치 처리
        # 예: epl_df.fillna(0, inplace=True)
        print(" - (TODO) 결측치 처리 수행...")
        
        # TODO: (PDF 개발범위 1) 데이터 타입 변환
        # 예: epl_df['Date'] = pd.to_datetime(epl_df['Date'])
        print(" - (TODO) 데이터 타입 변환 수행...")

        # TODO: (PDF 개발범위 1) 불필요한 컬럼 제거
        # 예: epl_df.drop(columns=['UnnecessaryColumn'], inplace=True)
        print(" - (TODO) 불필요한 컬럼 제거 수행...")

        # TODO: (PDF 개발범위 1) Feature(특성) 엔지니어링
        # 예: epl_df['GoalDifference'] = epl_df['FTHG'] - epl_df['FTAG']
        print(" - (TODO) Feature 엔지니어링 수행...")

        print("'epl_stats' 전처리 완료.")
        raw_data["epl_stats_cleaned"] = epl_df

    # TODO: 'championship_stats', 'player_stats_24_25' 등 다른 데이터들도 위와 같이 전처리합니다.
    if "player_stats_24_25" in raw_data:
        player_df = raw_data["player_stats_24_25"].copy()
        # ... (player_df에 대한 전처리 수행) ...
        print(" - (TODO) 'player_stats_24_25' 전처리 수행...")
        raw_data["player_stats_cleaned"] = player_df

    print("모든 데이터 전처리 완료.")
    return raw_data # 전처리된 DataFrame들을 포함한 딕셔너리 반환

def save_data(processed_data):
    """
    전처리된 DataFrame들을 별도의 파일로 저장합니다.
    """
    print("전처리된 데이터 저장 시작...")
    try:
        # 전처리된 데이터만 필터링하여 저장
        for key, df in processed_data.items():
            if key.endswith("_cleaned"):
                save_path = os.path.join(BASE_DIR, f"cleaned_{key}.csv")
                df.to_csv(save_path, index=False, encoding='utf-8-sig')
                print(f"성공: '{save_path}' 저장 완료")
                
    except Exception as e:
        print(f"데이터 저장 중 오류 발생: {e}")

def main():
    """
    메인 실행 함수: 데이터 로드 -> 전처리 -> 저장
    """
    raw_dataframes = load_data(FILE_PATHS)
    
    if raw_dataframes:
        processed_dataframes = preprocess_data(raw_dataframes)
        save_data(processed_dataframes)
        print("\n=== 데이터 전처리 작업 완료 ===")
    else:
        print("\n=== 데이터 전처리 작업 실패: 데이터를 로드할 수 없습니다. ===")

if __name__ == "__main__":
    main()