In [1]:
import pandas as pd
import numpy as np
import lightgbm as lgb
import joblib
from math import radians, sin, cos, sqrt, atan2
from datetime import datetime, timedelta
import random
import os # os 모듈 추가

# 데이터

![image.png](attachment:0a50594d-f6ca-46b5-ac95-aca6d84448e1.png)

In [2]:
# --- 1. 상수 정의 ---
AVERAGE_TRUCK_SPEED_KPH = 50 
CITY_COORDS = {
    '서울': (37.566, 126.978), '부산': (35.180, 129.075), '대구': (35.871, 128.601), 
    '인천': (37.456, 126.705), '광주': (35.160, 126.851), '대전': (36.350, 127.384), 
    '울산': (35.538, 129.311), '수원': (37.263, 127.028), '창원': (35.228, 128.681), 
    '청주': (36.642, 127.489)
}

In [3]:
# --- 2. 헬퍼 함수 정의 ---

# 3. 헬퍼 함수 정의 (클래스 바깥, 최상위 레벨)
def calculate_distance(lat1, lon1, lat2, lon2):
    R = 6371
    dLat = radians(lat2 - lat1)
    dLon = radians(lon2 - lon1)
    a = sin(dLat / 2)**2 + cos(radians(lat1)) * cos(radians(lat2)) * sin(dLon / 2)**2
    c = 2 * atan2(sqrt(a), sqrt(1 - a))
    return R * c

def estimate_time_from_distance(distance_km, speed_kph=AVERAGE_TRUCK_SPEED_KPH):
    if distance_km < 0: return timedelta(seconds=0)
    hours = distance_km / speed_kph
    return timedelta(hours=hours)

# 4. create_training_data 함수 정의 (클래스 바깥, 헬퍼 함수들과 같은 레벨)
#    이 함수는 모델 학습 데이터를 만드는 독립적인 함수입니다.
def create_training_data(cargo_df, driver_df, time_df, results_df):
    """
    (필터링 강화) 각 매칭 요청에 고유 ID를 부여하여 데이터를 생성합니다.
    메모리 사용량을 줄이기 위해 성공 기록의 일부만 사용하도록 수정되었습니다.
    """
    print("[단계 1] 학습 데이터 생성을 시작합니다...")
    
    training_data_rows = []
    successful_matches = results_df[results_df['status'] == 'Matched'].copy()
    
    # --- 메모리 최적화를 위한 부분 (수정 필요 없음, 이미 반영된 코드) ---
    if len(successful_matches) > 1000:
        successful_matches = successful_matches.head(1000).copy()
        # fff.ipynb 파일의 한 셀입니다.
# 이 셀 바로 위에 "생성된 학습 데이터로 LGBMRanker 모델 학습 및 저장"이라는 제목의 Markdown 셀이 있습니다.

def train_and_save_model(df_train, model_path='lgbm_ranker_model.pkl'):
    """생성된 학습 데이터로 LGBMRanker 모델을 학습하고 파일로 저장합니다."""
    print("\n[단계 2] ML 랭킹 모델 학습 및 저장을 시작합니다...")
    
    features = ['distance', 'rating', 'acceptance_rate']
    target = 'relevance'
    query_id = 'query_id'

    X_train = df_train[features]
    y_train = df_train[target]
    group_info = df_train.groupby(query_id).size().to_list()

    # 여기입니다: lgb.LGBMRanker 모델을 정의하고 학습하는 코드
    ranker = lgb.LGBMRanker(objective="lambdarank", metric="ndcg", random_state=42)
    ranker.fit(X=X_train, y=y_train, group=group_info)
    
    joblib.dump(ranker, model_path)
    print(f"=> 학습된 모델을 '{model_path}' 파일로 저장했습니다.")

In [4]:
# --- 3. 시뮬레이션 엔진 클래스 정의 ---
class MatchingSimulationEngine:
    def __init__(self, cargo_data_path, driver_harmful_data_path, driver_loc_data_path, model_path):
        print("[시뮬레이션 엔진] 데이터 로드 및 초기화 중...")
        
        # 3.1. 데이터 로드
        self.cargo_df = pd.read_csv(cargo_data_path)
        self.driver_harmful_df = pd.read_csv(driver_harmful_data_path)
        self.driver_loc_df = pd.read_csv(driver_loc_data_path)
        self.ranker_model = joblib.load(model_path)
        
        # 3.2. 드라이버 데이터베이스 통합 및 준비
        self.driver_database = pd.merge(
            self.driver_harmful_df, 
            self.driver_loc_df[['driver_id', 'latitude', 'longitude']], 
            on='driver_id', 
            how='left'
        )
        if 'total_requests' in self.driver_database.columns and 'accepted_requests' in self.driver_database.columns:
            self.driver_database['acceptance_rate'] = self.driver_database['accepted_requests'] / self.driver_database['total_requests']
            self.driver_database['acceptance_rate'].fillna(0, inplace=True)
        else:
            print("경고: 'total_requests' 또는 'accepted_requests' 컬럼이 driver_harmful.csv에 없습니다. acceptance_rate를 0.5로 설정합니다.")
            self.driver_database['acceptance_rate'] = 0.5

        # 3.3. 시뮬레이션을 위한 next_available_time_dt 컬럼 추가 (동적 상태 모방)
        np.random.seed(42) 
        current_sim_start_time = datetime(2025, 7, 15, 10, 0, 0)
        self.driver_database['next_available_time_dt'] = current_sim_start_time

        num_drivers_to_simulate_busy = int(len(self.driver_database) * 0.3)
        busy_drivers_indices = np.random.choice(self.driver_database.index, num_drivers_to_simulate_busy, replace=False)
        
        for idx in busy_drivers_indices:
            random_hours_later = np.random.randint(1, 25) 
            self.driver_database.loc[idx, 'next_available_time_dt'] = current_sim_start_time + timedelta(hours=random_hours_later)
        
        print(f"-> {num_drivers_to_simulate_busy}명의 드라이버에게 임의의 미래 'next_available_time_dt'를 할당했습니다.")
        print("[시뮬레이션 엔진] 초기화 완료.")
    def _get_matched_driver(self, cargo_request):
        """단일 화물 요청에 대해 적합한 드라이버를 찾고, 임의로 하나를 선택합니다."""
        
        # 0. 화물 요청의 위치 좌표 가져오기
        pickup_lat, pickup_lon = CITY_COORDS.get(cargo_request['origin'], (None, None))
        delivery_lat, delivery_lon = CITY_COORDS.get(cargo_request['destination'], (None, None))

        if pickup_lat is None or delivery_lat is None:
            return None, "NoMatch_InvalidCity"

        # 1. 기본 자격 필터링 (최대 적재량 및 화물 유형) - 모든 드라이버에 대해 시작
        candidates = self.driver_database.copy()
        candidates = candidates[candidates['max_load_kg'] >= float(cargo_request['weight_kg'])]

        cargo_type = cargo_request['cargo_type']
        
        if cargo_type == '냉장':
            candidates = candidates[candidates['vehicle_type'] == '냉장']
        elif cargo_type == '냉동':
            candidates = candidates[candidates['vehicle_type'] == '냉동']
        elif cargo_type == '위험물':
            candidates = candidates[candidates['hazmat_capable'] == 1]
            candidates = candidates[candidates['vehicle_type'].isin(['카고', '탑차', '윙바디'])]
        elif cargo_type == '유해물질':
            candidates = candidates[candidates['harmful_substance_capable'] == 1]
            candidates = candidates[candidates['vehicle_type'].isin(['카고', '탑차', '윙바디'])]
        elif cargo_type == '일반':
            candidates = candidates[~candidates['vehicle_type'].isin(['냉장', '냉동'])]
        
        if candidates.empty:
            return None, "NoMatch_InitialFilter"

        # --- 2. (개선) 먼저 지리적 반경 필터링을 적용하여 후보군을 대폭 축소 ---
        # 이 단계에서는 아직 정밀 거리 계산(apply 함수)을 하지 않습니다.
        lat_diff_limit_50 = 0.45 # 약 50km
        lon_diff_limit_50 = 0.45
        
        # 1차 시도: 50km 반경 내 드라이버
        rough_candidates = candidates[
            (abs(candidates['latitude'] - pickup_lat) < lat_diff_limit_50) &
            (abs(candidates['longitude'] - pickup_lon) < lon_diff_limit_50)
        ].copy()
        
        # 50km 내 후보가 없으면, 100km로 반경 확대
        if rough_candidates.empty:
            lat_diff_limit_100 = 0.90 # 약 100km
            lon_diff_limit_100 = 0.90
            
            rough_candidates = candidates[
                (abs(candidates['latitude'] - pickup_lat) < lat_diff_limit_100) &
                (abs(candidates['longitude'] - pickup_lon) < lon_diff_limit_100)
            ].copy()
            
            # 100km 반경에도 후보가 없으면, 그 때 전체를 대상으로 함 (최후의 수단)
            if rough_candidates.empty:
                rough_candidates = candidates.copy()
        
        if rough_candidates.empty:
            return None, "NoMatch_DistanceFilter"
        
        # 3. 이제 축소된 'rough_candidates'에 대해서만 'distance_to_pickup' 정밀 계산
        # 이 부분이 기존 코드의 개선점입니다.
        rough_candidates['distance_to_pickup'] = rough_candidates.apply(
            lambda r: calculate_distance(r['latitude'], r['longitude'], pickup_lat, pickup_lon), axis=1
        )
        
        # 픽업지에서 도착지까지의 거리 계산 (모든 후보에 동일)
        distance_pickup_to_delivery = calculate_distance(pickup_lat, pickup_lon, delivery_lat, delivery_lon)
        
        # 4. 시간 제약 필터링 (next_available_time_dt 고려)
        rough_candidates['time_to_pickup_td'] = rough_candidates.apply(
            lambda r: estimate_time_from_distance(r['distance_to_pickup']), axis=1
        )
        time_pickup_to_delivery_td = estimate_time_from_distance(distance_pickup_to_delivery)

        rough_candidates['effective_pickup_start_time'] = rough_candidates.apply(
            lambda r: max(cargo_request['request_time_dt'], r['next_available_time_dt']), axis=1
        )
        rough_candidates['estimated_delivery_time'] = rough_candidates['effective_pickup_start_time'] + time_pickup_to_delivery_td
        
        rough_candidates = rough_candidates[rough_candidates['estimated_delivery_time'] <= cargo_request['deadline_dt']].copy()
        rough_candidates = rough_candidates[rough_candidates['next_available_time_dt'] <= cargo_request['deadline_dt']].copy()

        if rough_candidates.empty:
            return None, "NoMatch_TimeConstraint"
        
        # 5. 모델 예측 및 랭킹
        features = ['distance_to_pickup', 'rating', 'acceptance_rate']
        
        # 모델 예측에 필요한 피처가 모두 있는지 확인 (결측치 등)
        # 이전에 driver_harmful.csv에서 acceptance_rate가 제대로 계산되었다고 가정
        # rating 컬럼도 driver_harmful.csv에 있다고 가정
        
        if not all(f in rough_candidates.columns for f in features):
            print(f"  -> 경고: 모델 예측에 필요한 피처 {features} 중 일부가 누락되었습니다. 예측 없이 임의 선택합니다.")
            final_recommendations = rough_candidates.copy() # 예측 대신 임의 선택을 위해 복사
        else:
            rough_candidates['predicted_score'] = self.ranker_model.predict(rough_candidates[features])
            final_recommendations = rough_candidates.sort_values('predicted_score', ascending=False)

        # 6. 임의의 결과(타겟) 선택
        # 최종 필터링을 통과한 드라이버 중 한 명을 무작위로 선택합니다.
        matched_driver_id = random.choice(final_recommendations['driver_id'].tolist())
        
        return matched_driver_id, "Matched"

    def run_simulation(self, output_filename='simulation_results_generated.csv'):
        print("\n[시뮬레이션 시작] 화물 요청 매칭 시뮬레이션을 시작합니다...")
        simulation_results = []
        
        # cargo_df의 request_time과 deadline을 datetime 객체로 변환
        self.cargo_df['request_time_dt'] = pd.to_datetime(self.cargo_df['request_time'])
        self.cargo_df['deadline_dt'] = pd.to_datetime(self.cargo_df['deadline'])

        # 각 화물 요청을 순회하며 매칭 시도
        for index, cargo_row in self.cargo_df.iterrows():
            request_id = cargo_row['request_id']
            
            cargo_request_data = {
                'request_id': request_id,
                'origin': cargo_row['origin'],
                'destination': cargo_row['destination'],
                'weight_kg': cargo_row['weight_kg'],
                'cargo_type': cargo_row['cargo_type'],
                'request_time_dt': cargo_row['request_time_dt'],
                'deadline_dt': cargo_row['deadline_dt']
            }
            
            matched_driver, status = self._get_matched_driver(cargo_request_data)
            
            simulation_results.append({
                'request_id': request_id,
                'matched_driver': matched_driver if matched_driver else np.nan,
                'status': status
            })
            
            if (index + 1) % 1000 == 0:
                print(f"-> {index + 1}건의 요청 처리 완료.")

        # 시뮬레이션 결과 DataFrame 생성 및 저장
        results_df = pd.DataFrame(simulation_results)
        results_df.to_csv(output_filename, index=False)
        
        print(f"\n[시뮬레이션 완료] 총 {len(results_df)}건의 결과가 '{output_filename}' 파일에 저장되었습니다.")
        print("결과 요약:")
        print(results_df['status'].value_counts())
        return results_df

In [5]:
# --- 메인 실행 로직 ---
if __name__ == "__main__":
    # 파일 경로 설정 (현재 작업 디렉토리에 있다고 가정)
    CARGO_DATA_PATH = 'cargo.csv'
    DRIVER_HARMFUL_DATA_PATH = 'driver_harmful.csv'
    DRIVER_LOC_DATA_PATH = 'driver_loc.csv'
    MODEL_PATH = 'lgbm_ranker_model.pkl'

    # 필요한 파일이 모두 있는지 확인
    for path in [CARGO_DATA_PATH, DRIVER_HARMFUL_DATA_PATH, DRIVER_LOC_DATA_PATH, MODEL_PATH]:
        if not os.path.exists(path):
            print(f"오류: '{path}' 파일을 찾을 수 없습니다. 시뮬레이션을 시작할 수 없습니다.")
            print("cargo.csv, driver_harmful.csv, driver_loc.csv, lgbm_ranker_model.pkl 파일이 모두 현재 디렉토리에 있는지 확인하세요.")
            exit()
    
    # 시뮬레이션 엔진 인스턴스 생성 및 실행
    engine = MatchingSimulationEngine(CARGO_DATA_PATH, DRIVER_HARMFUL_DATA_PATH, DRIVER_LOC_DATA_PATH, MODEL_PATH)
    simulation_results_df = engine.run_simulation()

오류: 'lgbm_ranker_model.pkl' 파일을 찾을 수 없습니다. 시뮬레이션을 시작할 수 없습니다.
cargo.csv, driver_harmful.csv, driver_loc.csv, lgbm_ranker_model.pkl 파일이 모두 현재 디렉토리에 있는지 확인하세요.
[시뮬레이션 엔진] 데이터 로드 및 초기화 중...


FileNotFoundError: [Errno 2] No such file or directory: 'lgbm_ranker_model.pkl'