In [1]:
# ==============================================================================
# 0. 필수 라이브러리 임포트
# ==============================================================================

In [2]:

import pandas as pd
import numpy as np
import lightgbm as lgb
import joblib
from math import radians, sin, cos, sqrt, atan2
from datetime import datetime, timedelta
import os
import random # 임의 선택을 위한 random 모듈 추가 (시뮬레이션에서 사용)


In [3]:
# ==============================================================================
# 1. 상수 정의
# ==============================================================================

In [4]:
AVERAGE_TRUCK_SPEED_KPH = 50 # 시뮬레이션 및 예측에 사용될 트럭 평균 속도 (km/h)
CITY_COORDS = { # 주요 도시의 위도/경도 정보 (마스터 데이터)
    '서울': (37.566, 126.978), '부산': (35.180, 129.075), '대구': (35.871, 128.601), 
    '인천': (37.456, 126.705), '광주': (35.160, 126.851), '대전': (36.350, 127.384), 
    '울산': (35.538, 129.311), '수원': (37.263, 127.028), '창원': (35.228, 128.681), 
    '청주': (36.642, 127.489)
}

In [5]:
# ==============================================================================
# 2. 헬퍼 함수 정의 (공통으로 사용되는 유틸리티 함수들)
# ==============================================================================

In [6]:

def calculate_distance(lat1, lon1, lat2, lon2):
    """두 위도/경도 지점 간의 거리를 킬로미터 단위로 계산합니다 (Haversine 공식)."""
    R = 6371  # 지구 반지름 (킬로미터)
    dLat = radians(lat2 - lat1)
    dLon = radians(lon2 - lon1)
    a = sin(dLat / 2)**2 + cos(radians(lat1)) * cos(radians(lat2)) * sin(dLon / 2)**2
    c = 2 * atan2(sqrt(a), sqrt(1 - a))
    return R * c

def estimate_time_from_distance(distance_km, speed_kph=AVERAGE_TRUCK_SPEED_KPH):
    """거리를 기반으로 예상 운행 시간을 timedelta 객체로 반환합니다."""
    if distance_km < 0: return timedelta(seconds=0)
    hours = distance_km / speed_kph
    return timedelta(hours=hours)

In [7]:
# ==============================================================================
# A. 오프라인 학습 부분: 모델 학습 데이터 생성 및 모델 저장
#    (이 부분은 일반적으로 데이터 과학자/엔지니어가 모델을 학습시킬 때 한 번 실행)
# ==============================================================================

In [8]:
def create_training_data(cargo_df, driver_df_for_training, results_df):
    """
    (필터링 강화) 각 매칭 요청에 고유 ID를 부여하여 학습 데이터를 생성합니다.
    메모리 사용량을 줄이기 위해 성공 기록의 일부만 사용하도록 수정되었습니다.
    """
    print("\n--- [오프라인 학습] 1단계: 학습 데이터 생성 시작 ---")
    
    training_data_rows = []
    successful_matches = results_df[results_df['status'] == 'Matched'].copy()
    
    # 메모리 최적화를 위해 처리할 성공 기록의 수를 제한합니다. (예: 1,000개)
    # 실제 학습 시에는 더 많은 데이터를 사용할 수 있도록 이 제한을 해제하거나 늘릴 수 있습니다.
    if len(successful_matches) > 100:
        successful_matches = successful_matches.head(100).copy() 
    print(f"-> {len(successful_matches)}건의 성공 기록을 기반으로 데이터 재구성 중...")

    # create_training_data 내부에서 사용할 계산 함수 (외부 함수와 이름 충돌 방지)
    def _calculate_distance_inner(lat1, lon1, lat2, lon2):
        return calculate_distance(lat1, lon1, lat2, lon2)

    # 드라이버 데이터프레임 (이미 필요한 모든 정보가 병합되어 있다고 가정)
    all_drivers = driver_df_for_training.copy() 
    
    # acceptance_rate 계산 (컬럼 존재 확인 후)
    if 'accepted_requests' in all_drivers.columns and 'total_requests' in all_drivers.columns:
        all_drivers['acceptance_rate'] = all_drivers['accepted_requests'] / all_drivers['total_requests']
        all_drivers['acceptance_rate'].fillna(0, inplace=True)
    else:
        print("경고: 'accepted_requests' 또는 'total_requests' 컬럼이 드라이버 데이터에 없습니다. acceptance_rate를 0.5로 설정합니다.")
        all_drivers['acceptance_rate'] = 0.5

    # 각 성공 기록을 순회하며 '상대 비교' 데이터 생성
    for index, log_row in successful_matches.iterrows():
        query_id = f"{index}_{log_row['request_id']}"
        actual_matched_driver = log_row['matched_driver']
        
        current_cargo_series = cargo_df[cargo_df['request_id'] == log_row['request_id']]
        if current_cargo_series.empty: continue
        current_cargo = current_cargo_series.iloc[0]

        # 1. 기본 자격 필터링 (최대 적재량 및 화물 유형)
        candidate_drivers = all_drivers[all_drivers['max_load_kg'] >= float(current_cargo['weight_kg'])].copy()
        
        if current_cargo['cargo_type'] == '냉장':
            candidate_drivers = candidate_drivers[candidate_drivers['vehicle_type'] == '냉장']
        elif current_cargo['cargo_type'] == '냉동':
            candidate_drivers = candidate_drivers[candidate_drivers['vehicle_type'] == '냉동']
        elif current_cargo['cargo_type'] == '위험물':
            candidate_drivers = candidate_drivers[candidate_drivers['hazmat_capable'] == 1]
            candidate_drivers = candidate_drivers[candidate_drivers['vehicle_type'].isin(['카고', '탑차', '윙바디'])]
        elif current_cargo['cargo_type'] == '유해물질':
            candidate_drivers = candidate_drivers[candidate_drivers['harmful_substance_capable'] == 1]
            candidate_drivers = candidate_drivers[candidate_drivers['vehicle_type'].isin(['카고', '탑차', '윙바디'])]
        elif current_cargo['cargo_type'] == '일반':
            candidate_drivers = candidate_drivers[~candidate_drivers['vehicle_type'].isin(['냉장', '냉동'])]
        
        if candidate_drivers.empty: continue
            
        # 2. 거리 기반 후보군 축소
        pickup_lat, pickup_lon = CITY_COORDS[current_cargo['origin']]
        lat_diff_limit, lon_diff_limit = 1.0, 1.0  # 100km 반경
        realistic_candidates = candidate_drivers[
            (abs(candidate_drivers['latitude'] - pickup_lat) < lat_diff_limit) & 
            (abs(candidate_drivers['longitude'] - pickup_lon) < lon_diff_limit)
        ].copy()
        
        if realistic_candidates.empty: realistic_candidates = candidate_drivers.copy()
        
        # 3. 실제 매칭된 기사가 후보군에 포함되도록 보장
        if actual_matched_driver not in realistic_candidates['driver_id'].values:
            matched_driver_info = all_drivers[all_drivers['driver_id'] == actual_matched_driver]
            if not matched_driver_info.empty:
                realistic_candidates = pd.concat([realistic_candidates, matched_driver_info], ignore_index=True)

        # 4. 거리 계산 후 상위 N명만 선택
        realistic_candidates['distance'] = realistic_candidates.apply(
            lambda r: _calculate_distance_inner(r['latitude'], r['longitude'], pickup_lat, pickup_lon), axis=1
        )
        
        MAX_CANDIDATES_PER_QUERY = 50
        realistic_candidates = realistic_candidates.sort_values('distance').head(MAX_CANDIDATES_PER_QUERY)
        
        if actual_matched_driver not in realistic_candidates['driver_id'].values:
            matched_driver_info = all_drivers[all_drivers['driver_id'] == actual_matched_driver]
            if not matched_driver_info.empty:
                matched_driver_info['distance'] = _calculate_distance_inner(
                    matched_driver_info.iloc[0]['latitude'], matched_driver_info.iloc[0]['longitude'], 
                    pickup_lat, pickup_lon
                )
                if len(realistic_candidates) >= MAX_CANDIDATES_PER_QUERY:
                    realistic_candidates = realistic_candidates.iloc[:-1]
                realistic_candidates = pd.concat([realistic_candidates, matched_driver_info], ignore_index=True)

        # 5. 정답 부여 (relevance)
        realistic_candidates['relevance'] = np.where(
            realistic_candidates['driver_id'] == actual_matched_driver, 2, 1
        )

        # 6. 학습 데이터 행 추가
        for _, driver_row in realistic_candidates.iterrows():
            training_data_rows.append({
                'query_id': query_id,
                'distance': driver_row['distance'],
                'rating': driver_row['rating'],
                'acceptance_rate': driver_row['acceptance_rate'],
                'relevance': driver_row['relevance']
            })

    final_df = pd.DataFrame(training_data_rows)
    
    if not final_df.empty:
        query_sizes = final_df.groupby('query_id').size()
        max_query_size = query_sizes.max()
        avg_query_size = query_sizes.mean()
        print(f"=> 학습 데이터 생성 완료! 총 {len(final_df)}개 행, 평균 쿼리당 {avg_query_size:.1f}개 후보")
        print(f"=> 최대 쿼리 크기: {max_query_size}개 (한계: {MAX_CANDIDATES_PER_QUERY}개)")
    else:
        print("경고: 생성된 학습 데이터가 없습니다.")
        
    return final_df

def train_and_save_model(df_train, model_path='lgbm_ranker_model.pkl'):
    """생성된 학습 데이터로 LGBMRanker 모델을 학습하고 파일로 저장합니다."""
    print("\n--- [오프라인 학습] 2단계: ML 랭킹 모델 학습 및 저장 시작 ---")
    
    features = ['distance', 'rating', 'acceptance_rate']
    target = 'relevance'
    query_id = 'query_id'

    X_train = df_train[features]
    y_train = df_train[target]
    group_info = df_train.groupby(query_id).size().to_list()

    ranker = lgb.LGBMRanker(objective="lambdarank", metric="ndcg", random_state=42)
    ranker.fit(X=X_train, y=y_train, group=group_info)
    
    joblib.dump(ranker, model_path)
    print(f"=> 학습된 모델을 '{model_path}' 파일로 저장했습니다.")

In [9]:
# ==============================================================================
# B. 온라인 예측 부분: 실시간 매칭 요청 처리 (API 서비스에서 사용될 로직)
# ==============================================================================

In [10]:
class RealtimeMatcher:
    """실시간으로 들어오는 화물 요청에 대해 최적의 기사를 추천하는 클래스."""
    def __init__(self, model_path, driver_db_path, driver_loc_path):
        print("\n--- [온라인 예측] 초기화: RealtimeMatcher 로드 시작 ---")
        self.ranker = joblib.load(model_path)
        
        # 드라이버 마스터 데이터 및 초기 위치 데이터 로드
        driver_harmful_df = pd.read_csv(driver_db_path)
        driver_loc_df = pd.read_csv(driver_loc_path)
        self.driver_database = pd.merge(driver_harmful_df, driver_loc_df[['driver_id', 'latitude', 'longitude']], on='driver_id', how='left')
        
        # acceptance_rate 계산 (컬럼 존재 확인 후)
        if 'accepted_requests' in self.driver_database.columns and 'total_requests' in self.driver_database.columns:
            self.driver_database['acceptance_rate'] = self.driver_database['accepted_requests'] / self.driver_database['total_requests']
            self.driver_database['acceptance_rate'].fillna(0, inplace=True)
        else:
            self.driver_database['acceptance_rate'] = 0.5 

        # next_available_time_dt 초기화 (실제 서비스에서는 DB/실시간 시스템에서 로드)
        # 현재 서버 시작 시간을 기준으로 모든 드라이버가 가용하다고 초기 가정
        self.driver_database['next_available_time_dt'] = pd.to_datetime(datetime.now())
        print("-> 드라이버 데이터베이스 로드 및 초기화 완료.")
        print("--- [온라인 예측] RealtimeMatcher 로드 완료 ---")

    def _calculate_distance_instance(self, lat1, lon1, lat2, lon2):
        # 클래스 내부에서만 사용하는 calculate_distance (self 없이 호출 가능)
        return calculate_distance(lat1, lon1, lat2, lon2)

    def _estimate_time_from_distance_instance(self, distance_km, speed_kph=AVERAGE_TRUCK_SPEED_KPH):
        # 클래스 내부에서만 사용하는 estimate_time_from_distance (self 없이 호출 가능)
        return estimate_time_from_distance(distance_km, speed_kph)

    def recommend_top_drivers(self, new_cargo_request, top_n=10):
        """
        신규 화물 요청에 대해 최적의 기사 리스트를 추천합니다.
        """
        print(f"\n--- [온라인 예측] 요청 처리 시작: {new_cargo_request.get('origin', '')} -> {new_cargo_request.get('destination', '')} ({new_cargo_request.get('cargo_type', '')}) ---")
        
        # 입력된 request_time, deadline을 datetime 객체로 변환
        try:
            request_time_dt = datetime.strptime(new_cargo_request['request_time'], '%Y-%m-%d %H:%M:%S')
            deadline_dt = datetime.strptime(new_cargo_request['deadline'], '%Y-%m-%d %H:%M:%S')
            new_cargo_request['request_time_dt'] = request_time_dt
            new_cargo_request['deadline_dt'] = deadline_dt
        except ValueError:
            print("오류: 잘못된 시간 형식입니다. 'YYYY-MM-DD HH:MM:SS' 형식을 사용해 주세요.")
            return None # 오류 발생 시 None 반환

        # 0. 도시 좌표 변환
        pickup_lat, pickup_lon = CITY_COORDS.get(new_cargo_request['origin'], (None, None))
        delivery_lat, delivery_lon = CITY_COORDS.get(new_cargo_request['destination'], (None, None))

        if pickup_lat is None or delivery_lat is None:
            print(f"오류: 알 수 없는 도시 이름이 포함되어 있습니다. 출발지: {new_cargo_request['origin']}, 도착지: {new_cargo_request['destination']}.")
            return None

        # 현재 시점의 드라이버 데이터베이스 복사 (요청 처리 중 원본 데이터 오염 방지)
        candidates = self.driver_database.copy() 

        # 1. 기본 자격 필터링 (최대 적재량 및 화물 유형)
        candidates = candidates[candidates['max_load_kg'] >= float(new_cargo_request['weight_kg'])]
        
        cargo_type = new_cargo_request['cargo_type']
        if cargo_type == '냉장': candidates = candidates[candidates['vehicle_type'] == '냉장']
        elif cargo_type == '냉동': candidates = candidates[candidates['vehicle_type'] == '냉동']
        elif cargo_type == '위험물': candidates = candidates[candidates['hazmat_capable'] == 1]
        elif cargo_type == '유해물질': candidates = candidates[candidates['harmful_substance_capable'] == 1]
        elif cargo_type == '일반': candidates = candidates[~candidates['vehicle_type'].isin(['냉장', '냉동'])]
        
        if candidates.empty: 
            print("-> 초기 자격 필터링 후 후보 없음.")
            return None

        # 2. 지리적 반경 필터링으로 후보군 축소 (성능 개선)
        lat_diff_limit_50 = 0.45 
        lon_diff_limit_50 = 0.45
        
        rough_candidates = candidates[
            (abs(candidates['latitude'] - pickup_lat) < lat_diff_limit_50) & 
            (abs(candidates['longitude'] - pickup_lon) < lon_diff_limit_50)
        ].copy()
        
        if rough_candidates.empty: 
            lat_diff_limit_100 = 0.90 
            lon_diff_limit_100 = 0.90
            rough_candidates = candidates[
                (abs(candidates['latitude'] - pickup_lat) < lat_diff_limit_100) & 
                (abs(candidates['longitude'] - pickup_lon) < lon_diff_limit_100)
            ].copy()
            if rough_candidates.empty: rough_candidates = candidates.copy() # 최후의 수단
        
        if rough_candidates.empty: 
            print("-> 거리 기반 필터링 후 후보 없음.")
            return None
        
        # 3. 축소된 'rough_candidates'에 대해서만 'distance_to_pickup' 정밀 계산
        rough_candidates['distance'] = rough_candidates.apply(
            lambda r: self._calculate_distance_instance(r['latitude'], r['longitude'], pickup_lat, pickup_lon), axis=1
        )
        distance_pickup_to_delivery = self._calculate_distance_instance(pickup_lat, pickup_lon, delivery_lat, delivery_lon)
        
        # 4. 시간 제약 필터링 (next_available_time_dt 고려)
        rough_candidates['time_to_pickup_td'] = rough_candidates.apply(
            lambda r: self._estimate_time_from_distance_instance(r['distance']), axis=1
        )
        time_pickup_to_delivery_td = self._estimate_time_from_distance_instance(distance_pickup_to_delivery)

        # 각 드라이버별 유효 상차 시작 시간 = max(화물 요청 시간, 드라이버 다음 가용 시간)
        rough_candidates['effective_pickup_start_time'] = rough_candidates.apply(
            lambda r: max(new_cargo_request['request_time_dt'], r['next_available_time_dt']), axis=1
        )
        
        # 예상 최종 도착 시간 = 유효 상차 시작 시간 + 픽업 -> 도착지 이동 시간
        rough_candidates['estimated_delivery_time'] = rough_candidates['effective_pickup_start_time'] + time_pickup_to_delivery_td
        
        # 마감 시간 초과 및 가용 시간 늦은 드라이버 필터링
        rough_candidates = rough_candidates[
            (rough_candidates['estimated_delivery_time'] <= new_cargo_request['deadline_dt']) &
            (rough_candidates['next_available_time_dt'] <= new_cargo_request['deadline_dt']) 
        ].copy()

        if rough_candidates.empty:
            print("-> 시간 제약 조건을 만족하는 후보 없음.")
            return None
        
        print(f"-> 필터링 후 최종 {len(rough_candidates)}명의 후보로 압축.")

        # 5. 모델 예측
        features = ['distance', 'rating', 'acceptance_rate']
        
        if not all(f in rough_candidates.columns for f in features):
            print(f"오류: 모델 예측에 필요한 피처 {features} 중 일부가 현재 후보 데이터에 없습니다. 예측 불가.")
            return None
            
        X_predict = rough_candidates[features]
        rough_candidates['predicted_score'] = self.ranker.predict(X_predict)
        
        # 6. 최종 결과 반환
        final_recommendations = rough_candidates.sort_values('predicted_score', ascending=False)
        print("--- [온라인 예측] 요청 처리 완료 ---")
        return final_recommendations.head(top_n)

In [11]:
# ==============================================================================
# C. 전체 실행을 위한 메인 로직
# ==============================================================================

In [12]:
if __name__ == "__main__":
    # 파일 경로 설정 (현재 작업 디렉토리에 있다고 가정)
    CARGO_DATA_PATH = 'cargo.csv'
    DRIVER_HARMFUL_DATA_PATH = 'driver_harmful.csv'
    DRIVER_LOC_DATA_PATH = 'driver_loc.csv'
    MODEL_PATH = 'lgbm_ranker_model.pkl' # 학습된 모델이 저장될/로드될 파일명

    # 필요한 파일이 모두 있는지 확인 (초기 데이터 파일들)
    required_data_files = [CARGO_DATA_PATH, DRIVER_HARMFUL_DATA_PATH, DRIVER_LOC_DATA_PATH]
    for path in required_data_files:
        if not os.path.exists(path):
            print(f"오류: 필수 데이터 파일 '{path}'을(를) 찾을 수 없습니다. 프로그램을 종료합니다.")
            exit()
    
    # --- C-1. 오프라인 학습 단계 실행 ---
    print("\n" + "="*60)
    print("      단계 1: 오프라인 모델 학습 (lgbm_ranker_model.pkl 파일 생성) ")
    print("="*60)

    # 학습 데이터를 만들기 위한 원본 데이터 로드
    cargo_data_train = pd.read_csv(CARGO_DATA_PATH)
    driver_data_harmful_train = pd.read_csv(DRIVER_HARMFUL_DATA_PATH)
    driver_data_loc_train = pd.read_csv(DRIVER_LOC_DATA_PATH)

    # 드라이버 데이터 통합 (create_training_data 함수에 전달할 데이터)
    driver_data_for_training = pd.merge(
        driver_data_harmful_train, 
        driver_data_loc_train[['driver_id', 'latitude', 'longitude']], 
        on='driver_id', 
        how='left'
    )
    
    # 시뮬레이션 결과 파일 로드 (모델 학습용 정답 데이터)
    # 이 파일은 이전 시뮬레이션 엔진 코드를 통해 미리 생성되어 있어야 합니다.
    SIMULATION_RESULTS_FOR_TRAINING_PATH = 'simulation_results_generated.csv'
    if not os.path.exists(SIMULATION_RESULTS_FOR_TRAINING_PATH):
        print(f"오류: 모델 학습을 위한 정답 데이터 '{SIMULATION_RESULTS_FOR_TRAINING_PATH}' 파일을 찾을 수 없습니다.")
        print("-> 'MatchingSimulationEngine' 클래스를 포함하는 시뮬레이션 코드를 먼저 실행하여 이 파일을 생성하세요.")
        exit()
    simulation_results_for_training = pd.read_csv(SIMULATION_RESULTS_FOR_TRAINING_PATH) 

    # 학습 데이터 생성
    training_dataframe = create_training_data(cargo_data_train, driver_data_for_training, simulation_results_for_training) # time_df 인자 제거

    # 학습 데이터가 성공적으로 생성되었다면 모델 학습 및 저장
    if training_dataframe is not None and not training_dataframe.empty:
        train_and_save_model(training_dataframe, model_path=MODEL_PATH)
    else:
        print("학습 데이터 생성에 실패하여 모델 학습을 중단합니다.")
        exit()
    
    # --- C-2. 온라인 예측 단계 테스트 실행 ---
    print("\n" + "="*60)
    print("      단계 2: 온라인 예측 시스템 테스트 가동")
    print("="*60)
    
    # RealtimeMatcher 인스턴스 생성 (학습된 모델 및 드라이버 데이터 로드)
    matcher = RealtimeMatcher(
        model_path=MODEL_PATH,
        driver_db_path=DRIVER_HARMFUL_DATA_PATH, # 드라이버 마스터 데이터
        driver_loc_path=DRIVER_LOC_DATA_PATH    # 드라이버 초기 위치 데이터
    )
    
    # 신규 화물 요청 예시 (실제 서비스에서 API를 통해 들어올 데이터 시뮬레이션)
    test_cargo_request = {
        'origin': '서울', 
        'destination': '부산', 
        'weight_kg': 2000, 
        'cargo_type': '일반',
        'request_time': '2025-07-15 14:30:00', # 요청 발생 시간 (현재와 일치하거나 미래)
        'deadline': '2025-07-16 10:00:00'     # 배송 마감 시간
    }
    
    # 추천 기사 리스트 받기
    print(f"\n[테스트 요청] {test_cargo_request['origin']} -> {test_cargo_request['destination']} ({test_cargo_request['cargo_type']}, {test_cargo_request['weight_kg']}kg)")
    top_drivers_recommendation = matcher.recommend_top_drivers(test_cargo_request, top_n=5) # 상위 5명 추천

    if top_drivers_recommendation is not None and not top_drivers_recommendation.empty:
        print("\n--- 최종 추천 기사 리스트 (상위 5명) ---")
        print("=> 아래 기사들에게 수락 알림을 보낼 수 있습니다.")
        print(top_drivers_recommendation[['driver_id', 'distance', 'rating', 'predicted_score', 
                                          'vehicle_type', 'next_available_time_dt', 'estimated_delivery_time']])
        
        # (선택 사항) 가장 상위 드라이버의 next_available_time_dt를 업데이트하는 시뮬레이션
        # 실제 API에서는 매칭 확정 후 데이터베이스에 반영됩니다.
        top_driver_id_matched = top_drivers_recommendation.iloc[0]['driver_id']
        top_driver_est_delivery_time_matched = top_drivers_recommendation.iloc[0]['estimated_delivery_time']
        
        # matcher 인스턴스 내부의 driver_database (메모리) 업데이트
        # 실제 배포 시에는 이 업데이트가 영구적인 DB에 이루어져야 합니다.
        driver_idx_to_update_actual = matcher.driver_database[matcher.driver_database['driver_id'] == top_driver_id_matched].index[0]
        # pandas Timestamp 객체에 timedelta 더하기 (문자열 아님)
        updated_next_available_time_actual = top_driver_est_delivery_time_matched + timedelta(hours=2)
        matcher.driver_database.loc[driver_idx_to_update_actual, 'next_available_time_dt'] = updated_next_available_time_actual
        print(f"\n[테스트 후 업데이트] 드라이버 {top_driver_id_matched}의 다음 가용 시간 (메모리 내) 업데이트: {updated_next_available_time_actual}")

    else:
        print("\n--- 적합한 추천 기사를 찾을 수 없습니다. ---")

    print("\n" + "="*60)
    print("      단계 3: 프로그램 실행 완료")
    print("="*60)


      단계 1: 오프라인 모델 학습 (lgbm_ranker_model.pkl 파일 생성) 
오류: 모델 학습을 위한 정답 데이터 'simulation_results_generated.csv' 파일을 찾을 수 없습니다.
-> 'MatchingSimulationEngine' 클래스를 포함하는 시뮬레이션 코드를 먼저 실행하여 이 파일을 생성하세요.


FileNotFoundError: [Errno 2] No such file or directory: 'simulation_results_generated.csv'