# 🚀 KLOOK 통합 크롤러 시스템 (페이지네이션 + Sitemap 하이브리드)

## 📋 지원하는 모든 시나리오:
1. **페이지네이션 순위 크롤링**: 1위부터 순차적으로 상위 순위 상품 수집 (순위 보장)
2. **🆕 Sitemap 하이브리드 모드**: 페이지네이션 + Sitemap 추가 수집으로 완전한 데이터셋 구축
3. **랭킹 기반 수집**: 각 탭별 사용자 설정 순위까지 수집, 중복 자동 건너뛰기
4. **세션 연속성**: 중간 중단 후 이어서 계속 가능
5. **hashlib 고속 중복 체크**: 이미 크롤링한 URL 초고속 검사
6. **페이지네이션**: KLOOK 15개/페이지 구조 완벽 대응
7. **CSV 자동 저장**: 10개마다 자동 저장
8. **32개 컬럼 데이터 구조**: 듀얼 이미지 시스템 포함 완전한 데이터 수집
9. **🎪 개별 탭 선택**: 전체/투어/티켓/교통/기타 탭을 True/False로 개별 선택

## 🆕 Sitemap 하이브리드 모드 특징:
- **1단계: 페이지네이션** → 상위 순위 상품 수집 (순위 정보 보장)
- **2단계: Sitemap 추가 수집** → 누락된 상품 발굴 (범위 확장)
- **자동 중복 제거** → 스마트한 URL 병합으로 완전한 데이터셋 구축
- **설정 가능** → 각 단계별 세밀한 제어 가능

---

## 🎛️ 1. 크롤링 설정 (먼저 설정하세요!)

In [1]:
# 🚀 KLOOK 크롤러 설정 (페이지네이션 순위 시스템 + Sitemap 하이브리드)
print("🚀 KLOOK 크롤러 설정 - 페이지네이션 순위 시스템 + Sitemap 하이브리드")
print("=" * 70)

# 🎯 크롤링 설정 (직접 수정하세요!)
CURRENT_CITY = "구마모토"           #🔥🔥도시 입력 🔥🔥#

# 🆕 페이지네이션 설정 (새로운 방식)
PAGINATION_MODE = True         # 페이지네이션 모드 활성화
TARGET_PRODUCTS = 3           # 수집할 상품 수 (1위부터 순차적으로)
MAX_PAGES = 5                 # 최대 페이지 수
RANKING_CONTINUITY = True     # 페이지 간 순위 연속성 유지

# 📊 데이터 분리 저장 설정
SEPARATE_RANKING_DATA = True   # 랭킹 정보 별도 저장
MAINTAIN_CSV_CONTINUITY = True # CSV 번호 연속성 유지
MAINTAIN_IMAGE_CONTINUITY = True # 이미지 번호 연속성 유지

# 🎪 탭 설정 (페이지네이션은 전체 탭만 지원)
TAB_전체 = True               # 전체 탭 (페이지네이션 전용)
TAB_투어액티비티 = False      # 투어&액티비티 탭 (비활성화)
TAB_티켓입장권 = False         # 티켓&입장권 탭 (비활성화)
TAB_교통 = False             # 교통 탭 (비활성화)
TAB_기타 = False             # 기타 탭 (비활성화)

# 🎮 크롤링 모드 선택
MODE_PAGINATION = True        # 🆕 페이지네이션 순위 모드 (추천)
MODE_CLASSIC = False          # 기존 방식
MODE_RESUME = False           # 이어서 계속

# 🗺️ Sitemap 추가 수집 설정 (하이브리드 모드)
ENABLE_SITEMAP_COLLECTION = False  # Sitemap 추가 수집 활성화
SITEMAP_URL_LIMIT = 500           # Sitemap에서 수집할 최대 URL 수
SITEMAP_AUTO_CRAWL = True         # Sitemap URL 자동 상세 크롤링 실행
SITEMAP_AFTER_PAGINATION = True   # 페이지네이션 완료 후 Sitemap 실행

# 기존 순위 기반 설정 (호환성용 - PAGINATION_MODE=False일 때만 사용)
START_RANK = 1
END_RANK = 15
COLLECT_COUNT = 15

# 고급 옵션
AUTO_SAVE = True              # 10개마다 자동 저장
DOWNLOAD_IMAGES = True        # 이미지 다운로드 활성화
SAVE_SESSION = True           # 세션 상태 저장
VALIDATION_MODE = True        # 크롤링 후 검증 실행


########################################################################################
########################################################################################


# 모드 처리
if MODE_PAGINATION:
    CRAWLING_MODE = "pagination"
    mode_desc = f"📄 페이지네이션 순위 모드 ({TARGET_PRODUCTS}개 상품, {MAX_PAGES}페이지)"
    if ENABLE_SITEMAP_COLLECTION:
        mode_desc += f" + Sitemap 추가 수집 ({SITEMAP_URL_LIMIT}개 URL)"
    SELECTED_TABS = ["전체"]
elif MODE_CLASSIC:
    CRAWLING_MODE = "classic"
    mode_desc = f"🎯 기존 순위 모드 ({START_RANK}-{END_RANK}위)"
    SELECTED_TABS = ["전체"] if TAB_전체 else []
elif MODE_RESUME:
    CRAWLING_MODE = "resume"
    mode_desc = "🔄 이어서 계속"
else:
    CRAWLING_MODE = "pagination"  # 기본값
    mode_desc = f"📄 페이지네이션 순위 모드 (기본값)"
    SELECTED_TABS = ["전체"]

print("✅ 설정 완료!")
print(f"   🌍 도시: {CURRENT_CITY}")
if MODE_PAGINATION:
    print(f"   📄 페이지네이션: {TARGET_PRODUCTS}개 상품 (1위부터 순차)")
    print(f"   📖 최대 페이지: {MAX_PAGES}페이지")
    print(f"   🔄 순위 연속성: {'✅ 보장' if RANKING_CONTINUITY else '❌ 비보장'}")
    print(f"   📊 데이터 분리: {'✅ 랭킹별도저장' if SEPARATE_RANKING_DATA else '❌ 통합저장'}")
else:
    print(f"   📊 순위 기반: {START_RANK}위 ~ {END_RANK}위")

# Sitemap 설정 출력
if ENABLE_SITEMAP_COLLECTION:
    print(f"   🗺️ Sitemap 수집: {'✅ 활성화' if ENABLE_SITEMAP_COLLECTION else '❌ 비활성화'}")
    print(f"   📊 Sitemap URL 제한: {SITEMAP_URL_LIMIT}개")
    print(f"   🚀 자동 크롤링: {'✅ 실행' if SITEMAP_AUTO_CRAWL else '❌ URL만 수집'}")
    print(f"   ⏱️ 실행 시점: {'페이지네이션 완료 후' if SITEMAP_AFTER_PAGINATION else '별도 실행'}")

print(f"   {mode_desc}")
print(f"   💾 자동저장: {AUTO_SAVE}")
print(f"   📸 이미지: {DOWNLOAD_IMAGES}")
print(f"   🔍 검증모드: {VALIDATION_MODE}")

# 설정을 딕셔너리로 정리
CRAWLING_SETTINGS = {
    'city': CURRENT_CITY,
    'mode': CRAWLING_MODE,
    'pagination_mode': PAGINATION_MODE,
    'target_products': TARGET_PRODUCTS if PAGINATION_MODE else END_RANK - START_RANK + 1,
    'max_pages': MAX_PAGES,
    'ranking_continuity': RANKING_CONTINUITY,
    'separate_ranking_data': SEPARATE_RANKING_DATA,
    'maintain_continuity': {
        'csv': MAINTAIN_CSV_CONTINUITY,
        'image': MAINTAIN_IMAGE_CONTINUITY
    },
    'start_rank': START_RANK,
    'end_rank': END_RANK,
    'selected_tabs': SELECTED_TABS,
    'skip_duplicates': True,
    'auto_save': AUTO_SAVE,
    'download_images': DOWNLOAD_IMAGES,
    'save_session': SAVE_SESSION,
    'validation_mode': VALIDATION_MODE,
    # 🗺️ Sitemap 설정 추가
    'enable_sitemap_collection': ENABLE_SITEMAP_COLLECTION,
    'sitemap_url_limit': SITEMAP_URL_LIMIT,
    'sitemap_auto_crawl': SITEMAP_AUTO_CRAWL,
    'sitemap_after_pagination': SITEMAP_AFTER_PAGINATION
}

# 예상 작업량 계산
if MODE_PAGINATION:
    total_text = f"{TARGET_PRODUCTS}개 상품 (페이지네이션)"
    if ENABLE_SITEMAP_COLLECTION:
        total_text += f" + 최대 {SITEMAP_URL_LIMIT}개 (Sitemap)"
    print(f"   📊 예상 작업량: {total_text}")
    print(f"   🏆 순위 보장: 1위 ~ {TARGET_PRODUCTS}위 정확한 순서")
else:
    expected = END_RANK - START_RANK + 1
    total_text = f"{expected}개 상품 (기존방식)"
    print(f"   📊 예상 작업량: {total_text}")

print("\n📋 페이지네이션 순위 시스템 특징:")
print("🔹 페이지를 넘어가면서 순위 연속성 유지 (1위→2위→3위→...)")
print("🔹 랭킹 정보와 크롤링 데이터 분리 저장")
print("🔹 CSV 순서와 실제 순위는 독립적 (데이터 가공 시 매핑)")
print("🔹 이미지, CSV, 랭킹 번호의 연속성 자동 보장")
print("🔹 추후 데이터 가공 시 랭킹 정보 활용 가능")

# Sitemap 하이브리드 모드 특징
if ENABLE_SITEMAP_COLLECTION:
    print("\n🗺️ Sitemap 하이브리드 모드 특징:")
    print("🔹 페이지네이션으로 상위 순위 상품 수집 (순위 보장)")
    print("🔹 Sitemap으로 추가 상품 발굴 (범위 확장)")
    print("🔹 중복 URL 자동 제거 및 스마트 병합")
    print("🔹 순위 상품 + 보완 상품 = 완전한 데이터셋")

print("\n⏭️ 다음 셀들이 자동으로 실행됩니다!")

CRAWLING_READY = True

# 설정 확인 함수
def get_current_settings():
    return CRAWLING_SETTINGS

🚀 KLOOK 크롤러 설정 - 페이지네이션 순위 시스템 + Sitemap 하이브리드
✅ 설정 완료!
   🌍 도시: 구마모토
   📄 페이지네이션: 3개 상품 (1위부터 순차)
   📖 최대 페이지: 5페이지
   🔄 순위 연속성: ✅ 보장
   📊 데이터 분리: ✅ 랭킹별도저장
   📄 페이지네이션 순위 모드 (3개 상품, 5페이지)
   💾 자동저장: True
   📸 이미지: True
   🔍 검증모드: True
   📊 예상 작업량: 3개 상품 (페이지네이션)
   🏆 순위 보장: 1위 ~ 3위 정확한 순서

📋 페이지네이션 순위 시스템 특징:
🔹 페이지를 넘어가면서 순위 연속성 유지 (1위→2위→3위→...)
🔹 랭킹 정보와 크롤링 데이터 분리 저장
🔹 CSV 순서와 실제 순위는 독립적 (데이터 가공 시 매핑)
🔹 이미지, CSV, 랭킹 번호의 연속성 자동 보장
🔹 추후 데이터 가공 시 랭킹 정보 활용 가능

⏭️ 다음 셀들이 자동으로 실행됩니다!


## 🔧 2. 시스템 초기화 및 설정

In [2]:
# 필수 라이브러리 import 및 시스템 체크 (페이지네이션 시스템 포함)
import os
import sys
import time
from datetime import datetime

# 모듈 import
try:
    from klook_modules.control_system import KlookMasterController
    from klook_modules.system_utils import setup_driver, check_dependencies, get_system_info
    from klook_modules.config import UNIFIED_CITY_INFO, CONFIG
    from klook_modules.url_manager import is_url_already_processed, mark_url_as_processed
    from klook_modules.tab_selector import execute_integrated_tab_selector_system
    from klook_modules.url_collection import collect_urls_with_pagination
    from klook_modules.crawler_engine import KlookCrawlerEngine
    from klook_modules.ranking_manager import ranking_manager
    
    # 🆕 페이지네이션 시스템 모듈
    from klook_modules.pagination_ranking_system import (
        pagination_ranking_system, ranking_data_matcher, continuity_manager
    )
    from klook_modules.integrated_pagination_crawler import (
        IntegratedPaginationCrawler, pagination_crawler_validator
    )
    
    print("✅ 모든 모듈 로드 성공!")
    print("   🆕 페이지네이션 시스템: ✅ 로드됨")
except ImportError as e:
    print(f"❌ 모듈 로드 실패: {e}")
    print("klook_modules 폴더가 현재 디렉토리에 있는지 확인하세요.")

# 시스템 상태 체크
print("\n🔍 시스템 상태 체크...")
dependencies = check_dependencies()
missing_deps = [lib for lib, available in dependencies.items() if not available]

if missing_deps:
    print(f"❌ 누락된 라이브러리: {', '.join(missing_deps)}")
    print("다음 명령으로 설치하세요: pip install selenium chromedriver-autoinstaller pandas requests beautifulsoup4")
else:
    print("✅ 모든 의존성 준비 완료!")

print(f"\n🌍 지원 도시: {len(UNIFIED_CITY_INFO)}개")
print(f"📊 설정 상태: hashlib={CONFIG.get('USE_HASH_SYSTEM', True)}, V2_URL={CONFIG.get('USE_V2_URL_SYSTEM', True)}")
print(f"🏆 랭킹 매니저: {'✅ 로드됨' if 'ranking_manager' in locals() else '❌ 로드 실패'}")
print(f"📄 페이지네이션 시스템: {'✅ 로드됨' if 'pagination_ranking_system' in locals() else '❌ 로드 실패'}")
print(f"💾 32개 컬럼 구조: ✅ 적용됨")
print(f"📸 듀얼 이미지 시스템: ✅ 적용됨")

# 페이지네이션 시스템 특징 안내
print(f"\n📄 페이지네이션 순위 시스템 특징:")
print(f"   🔹 페이지 간 순위 연속성 자동 보장 (1위→2위→3위→...)")
print(f"   🔹 '>' 버튼으로 다음 페이지 자동 이동")
print(f"   🔹 랭킹 정보 별도 저장 (추후 데이터 가공용)")
print(f"   🔹 CSV, 이미지, 랭킹 번호의 연속성 유지")
print(f"   🔹 크롤링 후 자동 검증 시스템")

print("\n✅ 시스템 초기화 완료!")
print("🔽 다음 셀에서 페이지네이션 크롤링을 시작합니다.")

🔧 Selenium 버전: 4.9.1
✅ UNIFIED_CITY_INFO 최종 업데이트 완료! 총 177개 도시
✅ 그룹 1 완료: 기본 설정 및 hashlib 통합 시스템 정의 완료!
🚀 hashlib 시스템 상태: 활성화
🔄 CSV 호환성: 유지
📊 해시 길이: 12자리
✅ 그룹 2 완료: 이미지 처리 및 데이터 저장 함수들 정의 완료!
   📸 이미지 시스템:
   - get_image_src_klook(): KLOOK 이미지 URL 수집
   - download_and_save_image_klook(): 이미지 다운로드 및 최적화
   - get_dual_image_urls_klook(): 듀얼 이미지 URL 수집 (업그레이드)
   - download_dual_images_klook(): 메인+썸네일 다운로드 (업그레이드)
   💾 데이터 저장:
   - save_to_csv_klook(): CSV 저장 (도시국가 특별 처리)
   - create_product_data_structure(): 상품 데이터 구조 생성
   - create_country_consolidated_csv(): 국가별 통합 CSV 생성 (신규)
   - auto_create_country_csv_after_crawling(): 자동 통합 생성 (신규)
   📊 데이터 관리:
   - get_csv_stats(): CSV 통계 조회
   - backup_csv_data(): 데이터 백업
   🧹 시스템 관리:
   - cleanup_temp_files(): 임시 파일 정리
✅ 그룹 3 완료: KLOOK 전용 URL 패턴 + hashlib 통합 간소화된 상태 관리 시스템!
🚀 hashlib 최적화: 활성화
🧹 KLOOK /activity/ 패턴으로 완전 변경 완료
   🔗 URL 검증:
   - is_valid_klook_url(): KLOOK activity URL 검증
   - normalize_klook_url(): URL 정규화
   📊 상태 관리:
   - is_url_

## 🚀 3. 설정 적용 및 크롤링 시작

In [3]:
# 설정 적용 및 드라이버 준비
print("📊 크롤링 설정 적용 중...")

# 1번 셀에서 설정한 값 가져오기
try:
    settings = get_current_settings()
    
    print("✅ 설정 확인:")
    print(f"   🌍 도시: {settings['city']}")
    print(f"   📊 순위: {settings['start_rank']}위 ~ {settings['end_rank']}위")
    print(f"   🎮 모드: {settings['mode']}")
    if settings['mode'] == 'tab_select':
        print(f"   🎪 선택된 탭: {', '.join(settings['selected_tabs'])}")
    
    # 드라이버 설정
    print("\n🔧 크롬 드라이버 설정 중...")
    driver = setup_driver()
    
    # 글로벌 변수 설정 (다른 셀에서 사용)
    CURRENT_CITY = settings['city']
    START_RANK = settings['start_rank']
    END_RANK = settings['end_rank']
    CRAWLING_MODE = settings['mode']
    SELECTED_TABS = settings['selected_tabs']
    
    print(f"🎯 '{CURRENT_CITY}' 크롤링 준비 완료!")
    print(f"📊 순위 범위: {START_RANK}위 ~ {END_RANK}위")
    if CRAWLING_MODE == 'tab_select':
        print(f"🎪 탭 선택 모드: {len(SELECTED_TABS)}개 탭 ({', '.join(SELECTED_TABS)})")
    print(f"🏆 랭킹 매니저: 중복 URL 자동 처리")
    print(f"💾 32개 컬럼 구조: 자동 적용")
    print(f"📸 듀얼 이미지: 메인+썸네일 자동 다운로드")
    print("✅ 다음 셀에서 URL 수집을 시작합니다!")
    
    # 크롤링 준비 완료 플래그
    DRIVER_READY = True
    
except RuntimeError as e:
    print(f"❌ {e}")
    print("💡 1번 셀에서 '🚀 크롤링 시작' 버튼을 먼저 눌러주세요.")
    DRIVER_READY = False
except Exception as e:
    print(f"❌ 예상치 못한 오류: {e}")
    DRIVER_READY = False

📊 크롤링 설정 적용 중...
✅ 설정 확인:
   🌍 도시: 구마모토
   📊 순위: 1위 ~ 15위
   🎮 모드: pagination

🔧 크롬 드라이버 설정 중...
✅ 크롬 드라이버 실행 성공!
🎯 '구마모토' 크롤링 준비 완료!
📊 순위 범위: 1위 ~ 15위
🏆 랭킹 매니저: 중복 URL 자동 처리
💾 32개 컬럼 구조: 자동 적용
📸 듀얼 이미지: 메인+썸네일 자동 다운로드
✅ 다음 셀에서 URL 수집을 시작합니다!


In [4]:
import time
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 상수 정의 (CURRENT_CITY가 정의되지 않은 경우를 대비)
CURRENT_CITY = "구마모토"

def test_pagination_with_detailed_crawling():
    """
    완전한 페이지네이션 테스트
    1. 1페이지에서 2개 상품 상세 크롤링 (연속으로, 중간에 목록복귀 없이)
    2. 목록 페이지로 복귀
    3. 부드러운 스크롤로 화살표 찾기
    4. 화살표 클릭으로 2페이지 이동
    5. 2페이지에서 1개 상품 상세 크롤링
    """
    print("🧪 페이지네이션 상세 크롤링 + 화살표 클릭 테스트")
    print("📋 계획: 1페이지(2개 상세) → 목록복귀 → 화살표클릭 → 2페이지(1개 상세)")
    print("=" * 70)

    try:
        # 드라이버 설정
        from klook_modules.system_utils import setup_driver
        from klook_modules.driver_manager import (go_to_main_page, find_and_fill_search,
                                                 click_search_button)
        from klook_modules.crawler_engine import KlookCrawlerEngine

        driver = setup_driver()
        print("✅ 크롬 드라이버 실행 성공!")
        wait = WebDriverWait(driver, 10)
        crawler = KlookCrawlerEngine(driver)

        # 1. KLOOK 메인 페이지 이동 및 검색
        print("🌐 KLOOK 메인 페이지 이동...")
        go_to_main_page(driver)

        print(f"🔍 '{CURRENT_CITY}' 검색...")
        find_and_fill_search(driver, CURRENT_CITY)
        click_search_button(driver)
        time.sleep(5)

        # 목록 페이지 URL 저장 (복귀용)
        listing_page_url = driver.current_url
        print(f"📝 목록 페이지 URL 저장: {listing_page_url[:60]}...")

        collected_products = []

        # 2. 1페이지에서 2개 상품 URL 수집
        print("\n📄 1페이지에서 2개 상품 URL 수집...")

        product_links = wait.until(
            EC.presence_of_all_elements_located(
                (By.CSS_SELECTOR, "a[href*='/activity/']")
            )
        )

        page1_urls = []
        for i, link in enumerate(product_links[:2]):
            url = link.get_attribute('href')
            if url and '/activity/' in url and url not in page1_urls:
                page1_urls.append(url)
                print(f"   1페이지 {i+1}번째: {url.split('/')[-1][:40]}...")

        # 3. 1페이지 상품들 상세 크롤링 (연속으로, 중간에 목록복귀 없이)
        print(f"\n🔥 1페이지 상품 상세 크롤링 시작 ({len(page1_urls)}개)")

        for i, url in enumerate(page1_urls, 1):
            print(f"\n📊 1페이지 {i}/{len(page1_urls)} 상품 크롤링 중...")
            print(f"🔗 URL: {url}")

            try:
                # 상세 페이지로 이동
                driver.get(url)
                time.sleep(3)

                # 상세 크롤링 실행
                result = crawler.process_single_url(url, CURRENT_CITY, f"page1_{i}")

                if result.get('success'):
                    product_data = result.get('product_data', {})
                    product_name = product_data.get('상품명', 'N/A')[:30]
                    price = product_data.get('가격_정제', 'N/A')

                    print(f"    ✅ 성공: {product_name}... (가격: {price})")

                    # 페이지 정보 추가
                    product_data['페이지'] = 1
                    product_data['페이지_순서'] = i
                    product_data['테스트_단계'] = 'page1_detailed'

                    collected_products.append(product_data)
                else:
                    print(f"    ❌ 실패: {result.get('error', '알 수 없음')}")

                # 중간에 목록복귀 하지 않음 (마지막 상품이 아니면)

            except Exception as e:
                print(f"    ❌ 크롤링 중 오류: {e}")

        # 4. 1페이지 모든 크롤링 완료 후 목록 페이지로 복귀 (한 번만)
        print(f"\n🔄 1페이지 크롤링 완료 - 목록 페이지로 복귀...")
        driver.get(listing_page_url)
        time.sleep(3)
        print(f"✅ 목록 페이지 복귀 완료")

        print(f"✅ 1페이지 상세 크롤링 완료! ({len([p for p in collected_products if p.get('페이지') == 1])}개)")

        # 5. 화살표 찾기 위한 부드러운 아래 스크롤 추가
        print(f"\n🔽 페이지네이션 영역 찾기 위한 부드러운 스크롤...")

        def smooth_scroll_down():
            """페이지네이션을 찾기 위해 부드럽게 아래로 스크롤"""
            current_position = driver.execute_script("return window.pageYOffset")
            page_height = driver.execute_script("return document.body.scrollHeight")

            # 300px씩 부드럽게 스크롤
            for scroll_to in range(int(current_position), int(page_height), 300):
                driver.execute_script(f"window.scrollTo({{top: {scroll_to}, behavior: 'smooth'}});")
                time.sleep(0.5)

                # 페이지네이션 요소가 보이는지 확인
                try:
                    pagination = driver.find_element(By.CSS_SELECTOR,
                                                   "button[aria-label*='next'], .pagination, [class*='page']")
                    if pagination.is_displayed():
                        print(f"    ✅ 페이지네이션 영역 발견!")
                        break
                except:
                    continue

            print(f"    ✅ 부드러운 스크롤 완료")

        smooth_scroll_down()

        # 6. 페이지네이션 화살표 찾기 및 클릭 (KLOOK 전용 셀렉터 적용)
        print(f"\n➡️ 2페이지로 이동하기 위한 화살표 클릭...")

        # KLOOK 실제 구조 기반 화살표 버튼 찾기 (원본 코드에서 추출)
        arrow_selectors = [
            # KLOOK 전용 셀렉터 (가장 우선)
            ".klk-pagination-next-btn:not(.klk-pagination-next-btn-disabled)",
            "button:not(.klk-pagination-next-btn-disabled)[class*='pagination-next']",

            # 원본 코드의 XPath 패턴들
            "//button[contains(@aria-label, '다음')]",
            "//button[contains(text(), '다음')]",
            "//a[contains(@aria-label, '다음')]",
            "//a[contains(text(), '다음')]",
            "//button[contains(@class, 'next')]",
            "//a[contains(@class, 'next')]",

            # CSS 셀렉터 버전
            "button[aria-label*='다음']:not([disabled])",
            "button[class*='next']:not([disabled])",
            "a[aria-label*='다음']",
            "a[class*='next']",
            ".pagination .next",
            ".pager .next",

            # 페이지 번호 기반
            ".pagination button:not([disabled]):last-child",
            ".pager a:not([disabled]):last-child",

            # 기타 패턴
            "button[title*='다음']:not([disabled])",
            "button[data-testid*='next']:not([disabled])",
            "nav[role='navigation'] button:last-child:not([disabled])"
        ]

        arrow_clicked = False

        # 1단계: KLOOK 전용 disabled 버튼 체크 (원본 로직)
        try:
            disabled_button = driver.find_element(By.CSS_SELECTOR,
                                                ".klk-pagination-next-btn-disabled")
            print(f"    🏁 마지막 페이지입니다 (KLOOK disabled 버튼 발견)")
            arrow_clicked = False
        except:
            print(f"    ✅ KLOOK disabled 버튼 없음 - 다음 페이지 가능")

            # 2단계: 화살표 버튼 찾기 시도
            for selector in arrow_selectors:
                try:
                    # XPath와 CSS 셀렉터 구분 처리
                    if selector.startswith('//'):
                        arrow_button = wait.until(EC.element_to_be_clickable((By.XPATH,
                                                                             selector)))
                    else:
                        arrow_button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,
                                                                             selector)))

                    print(f"✅ 화살표 버튼 발견: {selector}")

                    # 스크롤하여 버튼이 보이도록 함
                    driver.execute_script("arguments[0].scrollIntoView({behavior: 'smooth', block: 'center'});", arrow_button)
                    time.sleep(1)

                    # 화살표 클릭
                    driver.execute_script("arguments[0].click();", arrow_button)
                    print("🖱️ 화살표 클릭 실행!")

                    # 3단계: 클릭 후 페이지 변화 확인 (중요!)
                    time.sleep(2)
                    new_url = driver.current_url
                    if 'page=' in new_url or new_url != listing_page_url:
                        print("✅ 페이지 이동 확인됨!")
                        arrow_clicked = True
                        break
                    else:
                        print("⚠️ 클릭했으나 페이지 변화 없음, 다음 셀렉터 시도...")

                except Exception as e:
                    print(f"   선택자 {selector} 실패: {e}")
                    continue

        # 4단계: 모든 시도 실패시 URL 직접 변경
        if not arrow_clicked:
            print("❌ 화살표 클릭 실패. URL 직접 변경으로 2페이지 이동")
            if '?' in listing_page_url:
                page2_url = listing_page_url + "&page=2"
            else:
                page2_url = listing_page_url + "?page=2"

            driver.get(page2_url)
            print(f"🔄 대안 URL로 이동: {page2_url}")

        # 7. 2페이지 로딩 대기 및 확인
        print("⏳ 2페이지 로딩 대기...")
        time.sleep(5)

        page2_listing_url = driver.current_url
        print(f"📝 2페이지 URL: {page2_listing_url[:60]}...")

        # 8. 2페이지에서 1개 상품 URL 수집
        print("\n📄 2페이지에서 1개 상품 URL 수집...")

        page2_product_links = wait.until(
            EC.presence_of_all_elements_located(
                (By.CSS_SELECTOR, "a[href*='/activity/']")
            )
        )

        page2_urls = []
        for i, link in enumerate(page2_product_links[:1]):
            url = link.get_attribute('href')
            if url and '/activity/' in url:
                page2_urls.append(url)
                print(f"   2페이지 1번째: {url.split('/')[-1][:40]}...")

        # 9. 2페이지 상품 상세 크롤링
        print(f"\n🔥 2페이지 상품 상세 크롤링 시작 ({len(page2_urls)}개)")

        for i, url in enumerate(page2_urls, 1):
            print(f"\n📊 2페이지 {i}/1 상품 크롤링 중...")
            print(f"🔗 URL: {url}")

            try:
                # 상세 페이지로 이동
                driver.get(url)
                time.sleep(3)

                # 상세 크롤링 실행
                result = crawler.process_single_url(url, CURRENT_CITY, f"page2_{i}")

                if result.get('success'):
                    product_data = result.get('product_data', {})
                    product_name = product_data.get('상품명', 'N/A')[:30]
                    price = product_data.get('가격_정제', 'N/A')

                    print(f"    ✅ 성공: {product_name}... (가격: {price})")

                    # 페이지 정보 추가
                    product_data['페이지'] = 2
                    product_data['페이지_순서'] = i
                    product_data['테스트_단계'] = 'page2_detailed'

                    collected_products.append(product_data)
                else:
                    print(f"    ❌ 실패: {result.get('error', '알 수 없음')}")

            except Exception as e:
                print(f"    ❌ 크롤링 중 오류: {e}")

        # 10. 테스트 결과 종합
        print(f"\n🎉 페이지네이션 상세 크롤링 테스트 완료!")
        print("=" * 70)
        print(f"📊 최종 수집 결과:")
        print(f"   1페이지 상세 크롤링: {len([p for p in collected_products if p.get('페이지') == 1])}개")
        print(f"   2페이지 상세 크롤링: {len([p for p in collected_products if p.get('페이지') == 2])}개")
        print(f"   총 수집 상품: {len(collected_products)}개")

        print(f"\n📋 수집된 상품 정보:")
        for i, product in enumerate(collected_products, 1):
            page = product.get('페이지', '?')
            name = product.get('상품명', 'N/A')[:40]
            price = product.get('가격_정제', 'N/A')
            print(f"   {i}. [P{page}] {name}... ({price})")

        print(f"\n🔍 순위 연속성 검증:")
        print(f"   예상: 1위(P1) → 2위(P1) → 3위(P2)")
        print(f"   실제: {len(collected_products)}개 순차 수집")
        print(f"   연속성: {'✅ 보장됨' if len(collected_products) == 3 else '❌ 문제 발견'}")

        print(f"\n✅ 화살표 클릭: {'성공' if arrow_clicked else '🔄 URL 변경'}")

        # 11. 드라이버 종료
        driver.quit()

        return {
            'success': True,
            'total_products': len(collected_products),
            'page1_count': len([p for p in collected_products if p.get('페이지') == 1]),
            'page2_count': len([p for p in collected_products if p.get('페이지') == 2]),
            'arrow_clicked': arrow_clicked,
            'products': collected_products
        }

    except Exception as e:
        print(f"❌ 테스트 중 오류: {e}")
        import traceback
        traceback.print_exc()

        try:
            driver.quit()
        except:
            pass

        return {
            'success': False,
            'error': str(e)
        }

# 테스트 실행
if __name__ == "__main__":
    print("🧪 페이지네이션 테스트 시작...")
    result = test_pagination_with_detailed_crawling()

    if result['success']:
        print(f"\n🎉 테스트 성공!")
        print(f"📊 1페이지 상세: {result['page1_count']}개")
        print(f"📊 2페이지 상세: {result['page2_count']}개")
        print(f"🎯 총 상품: {result['total_products']}개")
        print(f"➡️ 화살표: {'✅ 클릭 성공' if result['arrow_clicked'] else '🔄 URL 변경'}")
    else:
        print(f"\n❌ 테스트 실패: {result['error']}")

🧪 페이지네이션 테스트 시작...
🧪 페이지네이션 상세 크롤링 + 화살표 클릭 테스트
📋 계획: 1페이지(2개 상세) → 목록복귀 → 화살표클릭 → 2페이지(1개 상세)
✅ 크롬 드라이버 실행 성공!
✅ 크롬 드라이버 실행 성공!
🌐 KLOOK 메인 페이지 이동...
🔍 '구마모토' 검색...
  🔍 '구마모토' 검색창 찾는 중...
  ✅ 검색창을 찾았습니다!
  ✅ '구마모토' 입력 완료!
  🔎 검색 버튼 찾는 중...
  ✅ 검색 버튼 클릭 성공!
📝 목록 페이지 URL 저장: https://www.klook.com/ko/search/result/?query=%EA%B5%AC%EB%A...

📄 1페이지에서 2개 상품 URL 수집...
   1페이지 1번째: ...
   1페이지 2번째: ...

🔥 1페이지 상품 상세 크롤링 시작 (2개)

📊 1페이지 1/2 상품 크롤링 중...
🔗 URL: https://www.klook.com/ko/activity/118393-mount-aso-kusasenri-kumamoto-castle-one-day-tour-from-fukuoka/
🔄 상품 page1_1: URL 처리 중...
   🔗 https://www.klook.com/ko/activity/118393-mount-aso-kusasenri-kumamoto-castle-one-day-tour-from-fukuoka/
  ⏱️ 스마트 페이지 대기 중...
    ✅ 페이지 준비 완료
    ⏱️ 스마트 페이지 로드 대기 (최대 6초)
    ✅ 페이지 로드 완료
    ✅ 스마트 대기 완료
  🌀 고급 스크롤 패턴 적용 중...
    🎯 선택된 스크롤: human_like_scroll_patterns
    🌀 스크롤 패턴: detailed
    ✅ 고급 스크롤 패턴 완료 (탐지 방지 강화)
  📊 상품 정보 수집 중...
  📊 Product 상품명 수집 중...
    ✅ 상품명 발견: '규슈 구마모토 │ 구마모토 성, 아소 화산, 구사센리, 아소 

## 📋 4. 탭별 랭킹 수집 (URL 수집)

In [None]:
# 🆕 페이지네이션 순위 기반 크롤링 실행
print(f"📄 '{CURRENT_CITY}' 페이지네이션 순위 크롤링 시작!")
print("=" * 70)

# 드라이버 준비 상태 확인
try:
    if not DRIVER_READY:
        print("❌ 드라이버가 준비되지 않았습니다.")
        print("💡 이전 셀들을 순서대로 실행해주세요.")
    else:
        settings = get_current_settings()
        
        if settings['pagination_mode']:
            # 🆕 페이지네이션 모드
            print(f"📄 페이지네이션 순위 모드 실행")
            print(f"🎯 목표: {settings['target_products']}개 상품 (1위부터 순차)")
            print(f"📖 최대 페이지: {settings['max_pages']}페이지")
            
            # 1. KLOOK 메인 페이지 이동
            from klook_modules.driver_manager import go_to_main_page, find_and_fill_search, click_search_button
            
            print("\n🌐 KLOOK 메인 페이지 이동...")
            go_to_main_page(driver)
            
            print(f"🔍 '{CURRENT_CITY}' 검색 중...")
            find_and_fill_search(driver, CURRENT_CITY)
            click_search_button(driver)
            
            time.sleep(5)  # 검색 결과 로딩 충분히 대기
            
            # 2. 페이지네이션 크롤러 초기화
            pagination_crawler = IntegratedPaginationCrawler(driver)
            
            # 3. 페이지네이션 크롤링 실행
            print(f"\n📄 페이지네이션 크롤링 시작...")
            success = pagination_crawler.execute_pagination_crawling(
                city_name=CURRENT_CITY,
                target_count=settings['target_products'],
                max_pages=settings['max_pages']
            )
            
            if success:
                print(f"\n✅ 페이지네이션 크롤링 성공!")
                
                # 4. 검증 실행 (설정에 따라)
                if settings.get('validation_mode', False):
                    print(f"\n🔍 크롤링 결과 검증 중...")
                    
                    # 순위 연속성 검증
                    ranking_ok = pagination_crawler_validator.validate_ranking_continuity(CURRENT_CITY)
                    
                    # 데이터 일관성 검증
                    data_ok = pagination_crawler_validator.validate_data_consistency(CURRENT_CITY)
                    
                    # 종합 리포트 생성
                    report_file = pagination_crawler_validator.generate_pagination_report(CURRENT_CITY)
                    
                    print(f"\n📊 검증 결과:")
                    print(f"   🏆 순위 연속성: {'✅ 완벽' if ranking_ok else '⚠️ 문제 발견'}")
                    print(f"   📋 데이터 일관성: {'✅ 완벽' if data_ok else '⚠️ 문제 발견'}")
                    print(f"   📄 리포트: {report_file}")
                
                CRAWLING_SUCCESS = True
                
            else:
                print(f"\n❌ 페이지네이션 크롤링 실패")
                CRAWLING_SUCCESS = False
        
        else:
            # 기존 방식 (호환성용)
            print(f"🎯 기존 순위 모드 실행")
            print(f"📊 설정된 범위: {settings['start_rank']}위 ~ {settings['end_rank']}위")
            
            # 기존 코드 실행...
            # (여기에 기존의 탭 선택 및 URL 수집 로직)
            print("⚠️ 기존 방식은 별도 구현 필요")
            CRAWLING_SUCCESS = False

except NameError:
    print("❌ 필요한 변수가 설정되지 않았습니다.")
    print("💡 이전 셀들을 순서대로 실행해주세요.")
    CRAWLING_SUCCESS = False
except Exception as e:
    print(f"❌ 페이지네이션 크롤링 중 오류: {e}")
    import traceback
    traceback.print_exc()
    CRAWLING_SUCCESS = False

# 크롤링 결과 요약
if 'CRAWLING_SUCCESS' in locals() and CRAWLING_SUCCESS:
    print(f"\n🎉 '{CURRENT_CITY}' 크롤링 완료!")
    print("=" * 50)
    print("📊 페이지네이션 순위 시스템 성과:")
    print("   ✅ 순위 연속성 보장 (1위부터 순차적)")
    print("   ✅ 페이지 간 이동 자동화")
    print("   ✅ 랭킹 정보 별도 저장")
    print("   ✅ CSV, 이미지, 랭킹 번호 연속성 유지")
    print("   ✅ 자동 검증 및 리포트 생성")
    
    # 동적으로 파일 경로 생성
    from klook_modules.config import get_city_info
    continent, country = get_city_info(CURRENT_CITY)
    
    print(f"\n📁 생성된 파일:")
    print(f"   📊 CSV 데이터: data/{continent}/{country}/")
    print(f"   🏆 랭킹 정보: ranking_data/")
    print(f"   📄 페이지네이션 로그: url_collected/")
    print(f"   🔍 검증 리포트: reports/")
    
else:
    print(f"\n❌ 크롤링 실패 또는 미실행")
    print("💡 설정을 확인하고 다시 실행해주세요.")

## 🔥 5. 상세 크롤링 실행 (2단계: 데이터 수집)

In [None]:
# 상세 크롤링 시작
print(f"🔥 '{CURRENT_CITY}' 상세 크롤링 시작!")
print("=" * 70)

# 크롤링 엔진 초기화 (driver를 전달하고 통계 초기화)
crawler = KlookCrawlerEngine(driver)
crawler.reset_stats(CURRENT_CITY)

# 전체 진행 상황 추적
total_planned = sum(len(urls) for urls in collected_urls_by_tab.values())
total_completed = 0
total_duplicated = 0
total_failed = 0

# 배치 저장을 위한 데이터 수집
batch_data = []
batch_size = 10 if settings['auto_save'] else 50

start_time = time.time()

print(f"💾 32개 컬럼 구조: 자동 적용")
print(f"📸 듀얼 이미지 시스템: {'✅ 활성화' if settings.get('download_images', True) else '❌ 비활성화'}")
print(f"🏆 랭킹 매니저: 중복 URL 스마트 처리")
print(f"💾 세션 저장: {'✅ 활성화' if settings.get('save_session', True) else '❌ 비활성화'}")
print(f"💾 자동 백업: ✅ 20개마다 + 최종 백업")
print(f"🎯 순위 매퍼: 실제 순위와 URL 배열 인덱스 매핑")

try:
    # 탭별 순차 크롤링
    for tab_name, urls in collected_urls_by_tab.items():
        if not urls:
            continue
            
        print(f"\n🎪 '{tab_name}' 탭 크롤링 시작 ({len(urls)}개 URL)")
        print("-" * 50)
        
        tab_completed = 0
        tab_duplicated = 0
        tab_failed = 0
        
        # 🎯 실제 순위 매핑 시스템 사용
        from klook_modules.rank_mapper import rank_mapper
        
        # 실제 순위 범위에 해당하는 URL들만 매핑
        rank_mappings = rank_mapper.map_range_to_actual_ranks(urls, CURRENT_CITY, tab_name, START_RANK, END_RANK)
        
        print(f"📊 실제 순위 매핑: {len(rank_mappings)}개 URL")
        
        # URL별 순차 크롤링 (실제 순위 기준)
        for mapping in rank_mappings:
            url = mapping['url']
            actual_rank = mapping['actual_rank']
            current_progress = total_completed + tab_completed + 1
            
            print(f"\n📊 진행률: {current_progress}/{total_planned} | {tab_name} {actual_rank}위 (실제순위)")
            print(f"🔗 URL: {url[:60]}...")
            
            # 랭킹 매니저 중복 체크
            try:
                if not ranking_manager.should_crawl_url(url, CURRENT_CITY):
                    print(f"    🏆 랭킹 매니저: 중복 제외 (다른 탭에서 이미 크롤링됨)")
                    tab_duplicated += 1
                    continue
            except Exception as e:
                print(f"    ⚠️ 랭킹 매니저 확인 실패: {e}")
            
            # 기존 중복 체크 (hashlib 고속 검사)
            if is_url_already_processed(url, CURRENT_CITY):
                print(f"    🔄 이미 처리됨 - 중복 제외")
                tab_duplicated += 1
                continue
            
            # 상세 크롤링 실행 (32개 컬럼 + 듀얼 이미지)
            try:
                result = crawler.process_single_url(url, CURRENT_CITY, current_progress)
                
                if result.get('success') and not result.get('skipped'):
                    product_data = result.get('product_data', {})
                    product_name = product_data.get('상품명', 'N/A')[:30]
                    print(f"    ✅ 성공: {product_name}...")
                    
                    # 탭 및 랭킹 정보 추가 (실제 순위 사용)
                    product_data['탭명'] = tab_name
                    product_data['탭내_랭킹'] = actual_rank
                    
                    # 32개 컬럼 구조 확인
                    column_count = len(product_data.keys())
                    print(f"    📊 데이터 컬럼: {column_count}개")
                    
                    # 듀얼 이미지 확인
                    main_img = product_data.get('메인이미지_파일명', '정보 없음')
                    thumb_img = product_data.get('썸네일이미지_파일명', '정보 없음')
                    if main_img != '정보 없음' and thumb_img != '정보 없음':
                        print(f"    📸 듀얼 이미지: 메인 + 썸네일")
                    elif main_img != '정보 없음':
                        print(f"    📸 단일 이미지: 메인만")
                    else:
                        print(f"    📸 이미지: 없음")
                    
                    # 랭킹 매니저에 크롤링 완료 표시
                    try:
                        ranking_manager.mark_url_crawled(url, CURRENT_CITY)
                        print(f"    🏆 랭킹 매니저: 크롤링 완료 표시")
                    except Exception as e:
                        print(f"    ⚠️ 랭킹 완료 표시 실패: {e}")
                    
                    # 세션 상태 저장 (설정에 따라)
                    if settings.get('save_session', True):
                        try:
                            from klook_modules.system_utils import save_crawler_state
                            session_data = {
                                'city': CURRENT_CITY,
                                'start_rank': START_RANK,
                                'end_rank': END_RANK,
                                'current_tab': tab_name,
                                'current_rank': actual_rank,
                                'total_completed': total_completed + tab_completed + 1,
                                'settings': settings,
                                'timestamp': datetime.now().isoformat()
                            }
                            save_crawler_state(session_data, url)
                            print(f"    💾 세션 상태 저장 완료")
                        except Exception as e:
                            print(f"    ⚠️ 세션 저장 실패: {e}")
                    
                    tab_completed += 1
                    
                elif result.get('skipped'):
                    print(f"    🔄 중복 제외: {result.get('reason', 'unknown')}")
                    tab_duplicated += 1
                    
                else:
                    print(f"    ❌ 실패: {result.get('error', '알 수 없음')}")
                    tab_failed += 1
                    
            except Exception as e:
                print(f"    💥 예외 발생: {e}")
                tab_failed += 1
            
            # 진행 상황 표시
            elapsed = time.time() - start_time
            avg_time = elapsed / max(total_completed + tab_completed, 1)
            remaining = (total_planned - current_progress) * avg_time
            
            print(f"    ⏱️ 경과: {int(elapsed//60)}분 | 예상 남은 시간: {int(remaining//60)}분")
            
            # 자연스러운 대기
            time.sleep(2)
        
        # 탭 완료 정리
        total_completed += tab_completed
        total_duplicated += tab_duplicated
        total_failed += tab_failed
        
        print(f"\n✅ '{tab_name}' 탭 완료!")
        print(f"   성공: {tab_completed}개 | 중복 제외: {tab_duplicated}개 | 실패: {tab_failed}개")

except KeyboardInterrupt:
    print("\n⏹️ 사용자에 의해 중단되었습니다.")
    # 중단 시에도 세션 저장
    if settings.get('save_session', True):
        try:
            from klook_modules.system_utils import save_crawler_state
            interrupt_session_data = {
                'city': CURRENT_CITY,
                'start_rank': START_RANK,
                'end_rank': END_RANK,
                'total_completed': total_completed,
                'settings': settings,
                'interrupted': True,
                'timestamp': datetime.now().isoformat()
            }
            save_crawler_state(interrupt_session_data, "INTERRUPTED")
            print("💾 중단 상태 저장 완료 - Resume 기능으로 이어서 계속할 수 있습니다.")
        except Exception as e:
            print(f"⚠️ 중단 상태 저장 실패: {e}")
            
    # 중단 시에도 최종 백업 실행 (기존 자동 시스템 사용)
    try:
        print(f"💾 중단 시 백업 실행...")
        crawler.final_backup(CURRENT_CITY)
    except Exception as e:
        print(f"⚠️ 중단 시 백업 실패: {e}")
        
except Exception as e:
    print(f"\n💥 크롤링 중 오류: {e}")
    import traceback
    traceback.print_exc()

# 최종 백업 실행 (기존 자동 시스템만 사용)
try:
    print(f"\n💾 최종 백업 실행 중...")
    print(f"📊 크롤러 통계 확인: success_count={crawler.stats['success_count']}")
    crawler.final_backup(CURRENT_CITY)
except Exception as e:
    print(f"⚠️ 최종 백업 실패: {e}")
    import traceback
    traceback.print_exc()

# 최종 결과
end_time = time.time()
total_time = end_time - start_time

print("\n🎉 크롤링 완료!")
print("=" * 70)
print(f"📊 최종 결과:")
print(f"   ✅ 성공: {total_completed}개")
print(f"   🔄 중복 제외: {total_duplicated}개")
print(f"   ❌ 실패: {total_failed}개")
print(f"   📊 총계: {total_completed + total_duplicated + total_failed}개")
print(f"   ⏱️ 소요 시간: {int(total_time//60)}분 {int(total_time%60)}초")

# 성공률 계산
if total_completed + total_failed > 0:
    success_rate = (total_completed / (total_completed + total_failed)) * 100
    print(f"   📈 성공률: {success_rate:.1f}%")

# 32개 컬럼 구조 및 듀얼 이미지 확인
print(f"\n💾 32개 컬럼 구조: {'✅ 적용됨' if total_completed > 0 else '⚠️ 확인 필요'}")
print(f"📸 듀얼 이미지 시스템: {'✅ 적용됨' if settings.get('download_images', True) else '❌ 비활성화'}")

# 랭킹 매니저 최종 통계
try:
    ranking_stats = ranking_manager.get_city_ranking_stats(CURRENT_CITY)
    if ranking_stats:
        print(f"🏆 랭킹 매니저 최종 통계:")
        print(f"   총 URL: {ranking_stats.get('total_urls', 0)}개")
        print(f"   중복 제외: {ranking_stats.get('duplicate_urls', 0)}개")
        print(f"   처리된 탭: {len(ranking_stats.get('tabs_processed', []))}개")
except Exception as e:
    print(f"⚠️ 랭킹 통계 조회 실패: {e}")

print(f"\n📁 데이터 저장 위치:")
print(f"   - CSV: data/{CURRENT_CITY}/")
print(f"   - 이미지: klook_thumb_img/")
print(f"   - 랭킹 데이터: ranking_data/")
print(f"   - 세션 상태: crawler_state/")
print(f"   - 백업 파일: data/{CURRENT_CITY}/*_backup_*.csv")
print(f"   - 국가별 통합 CSV: 자동 생성됨")

## 🗺️ 6. Sitemap URL 추가 수집 (선택사항)

In [None]:
# 🗺️ Sitemap 하이브리드 추가 수집 (설정 기반 실행)
print("🗺️ Sitemap 하이브리드 추가 수집")
print("=" * 60)

try:
    # 설정 확인
    settings = get_current_settings()
    
    if not settings.get('enable_sitemap_collection', False):
        print("⏭️ Sitemap 수집이 비활성화되어 있습니다.")
        print("💡 첫 번째 셀에서 ENABLE_SITEMAP_COLLECTION = True로 설정하세요.")
        
    elif not settings.get('sitemap_after_pagination', True):
        print("⏭️ Sitemap 수집이 별도 실행 모드로 설정되어 있습니다.")
        print("💡 이 셀을 개별 실행하여 Sitemap 수집을 진행하세요.")
        
    elif not ('CRAWLING_SUCCESS' in locals() and CRAWLING_SUCCESS):
        print("⚠️ 페이지네이션 크롤링이 완료되지 않았습니다.")
        print("💡 먼저 페이지네이션 크롤링을 완료하세요.")
        
    else:
        print("✅ 하이브리드 모드: 페이지네이션 완료 후 Sitemap 추가 수집을 시작합니다.")
        
        from klook_modules.url_collection import collect_urls_from_sitemap
        from klook_modules.url_manager import is_url_already_processed
        
        print(f"\n🗺️ '{CURRENT_CITY}' Sitemap URL 수집 중...")
        print(f"📊 설정된 제한: {settings['sitemap_url_limit']}개 URL")
        
        # Sitemap URL 수집
        sitemap_start_time = time.time()
        sitemap_urls = collect_urls_from_sitemap(CURRENT_CITY, limit=settings['sitemap_url_limit'])
        sitemap_collection_time = time.time() - sitemap_start_time
        
        if sitemap_urls:
            print(f"📊 Sitemap에서 {len(sitemap_urls)}개 URL 발견")
            print(f"⏱️ 수집 시간: {sitemap_collection_time:.1f}초")
            
            # 중복 제거 (이미 크롤링한 URL 제외)
            print(f"\n🔄 중복 URL 제거 중...")
            new_urls = []
            duplicate_count = 0
            
            for url in sitemap_urls:
                if not is_url_already_processed(url, CURRENT_CITY):
                    new_urls.append(url)
                else:
                    duplicate_count += 1
            
            print(f"📊 중복 제거 결과:")
            print(f"   🆕 새로운 URL: {len(new_urls)}개")
            print(f"   🔄 중복 제외: {duplicate_count}개")
            print(f"   📈 신규 발견율: {len(new_urls)/len(sitemap_urls)*100:.1f}%")
            
            if new_urls and settings.get('sitemap_auto_crawl', True):
                print(f"\n🚀 Sitemap URL 자동 상세 크롤링 시작!")
                print(f"📊 대상: {len(new_urls)}개 URL")
                
                # 크롤링 통계 초기화
                sitemap_completed = 0
                sitemap_failed = 0
                sitemap_skipped = 0
                sitemap_crawl_start_time = time.time()
                
                # Sitemap URL별 상세 크롤링
                for i, url in enumerate(new_urls, 1):
                    print(f"\n📊 진행률: {i}/{len(new_urls)} | Sitemap 추가 수집")
                    print(f"🔗 URL: {url[:60]}...")
                    
                    try:
                        # 상세 크롤링 실행
                        result = crawler.process_single_url(url, CURRENT_CITY, f"sitemap_{i}")
                        
                        if result.get('success') and not result.get('skipped'):
                            product_data = result.get('product_data', {})
                            product_name = product_data.get('상품명', 'N/A')[:30]
                            print(f"    ✅ 성공: {product_name}...")
                            
                            # Sitemap 출처 표시
                            if isinstance(result.get('product_data'), dict):
                                result['product_data']['탭명'] = 'Sitemap추가수집'
                                result['product_data']['탭순서'] = 99  # Sitemap은 순위 없음
                                result['product_data']['탭내_랭킹'] = f"sitemap_{i}"
                            
                            sitemap_completed += 1
                            
                        elif result.get('skipped'):
                            print(f"    ⏭️ 건너뛰기: {result.get('reason', 'unknown')}")
                            sitemap_skipped += 1
                        else:
                            print(f"    ❌ 실패: {result.get('error', '알 수 없음')}")
                            sitemap_failed += 1
                            
                    except Exception as e:
                        print(f"    💥 예외: {e}")
                        sitemap_failed += 1
                    
                    # 진행상황 출력 (10개마다)
                    if i % 10 == 0:
                        elapsed = time.time() - sitemap_crawl_start_time
                        avg_time = elapsed / i
                        remaining = (len(new_urls) - i) * avg_time
                        success_rate = (sitemap_completed / i) * 100
                        
                        print(f"    📊 중간 통계 ({i}/{len(new_urls)}):")
                        print(f"       ✅ 성공: {sitemap_completed}개 ({success_rate:.1f}%)")
                        print(f"       ⏱️ 평균 처리 시간: {avg_time:.1f}초/개")
                        print(f"       🕐 예상 남은 시간: {int(remaining//60)}분 {int(remaining%60)}초")
                    
                    # 자연스러운 대기 (서버 부하 방지)
                    time.sleep(1.5)
                
                # Sitemap 크롤링 완료 통계
                sitemap_total_time = time.time() - sitemap_crawl_start_time
                
                print(f"\n🎉 Sitemap 추가 수집 완료!")
                print("=" * 50)
                print(f"📊 Sitemap 수집 최종 결과:")
                print(f"   ✅ 성공: {sitemap_completed}개")
                print(f"   ⏭️ 건너뛰기: {sitemap_skipped}개")
                print(f"   ❌ 실패: {sitemap_failed}개")
                print(f"   📊 총계: {sitemap_completed + sitemap_skipped + sitemap_failed}개")
                print(f"   ⏱️ 소요 시간: {int(sitemap_total_time//60)}분 {int(sitemap_total_time%60)}초")
                
                # 성공률 계산
                if sitemap_completed + sitemap_failed > 0:
                    sitemap_success_rate = (sitemap_completed / (sitemap_completed + sitemap_failed)) * 100
                    print(f"   📈 성공률: {sitemap_success_rate:.1f}%")
                
                # 전체 크롤링 통합 통계
                if 'total_completed' in locals():
                    total_final_completed = total_completed + sitemap_completed
                    total_final_failed = total_failed + sitemap_failed
                    
                    print(f"\n🌟 전체 하이브리드 크롤링 통계:")
                    print(f"   📄 페이지네이션: {total_completed}개 성공")
                    print(f"   🗺️ Sitemap 추가: {sitemap_completed}개 성공")
                    print(f"   🎯 총 수집 상품: {total_final_completed}개")
                    print(f"   🎉 하이브리드 모드 완료!")
                
            elif new_urls and not settings.get('sitemap_auto_crawl', True):
                print(f"\n📝 Sitemap URL 수집만 완료 (자동 크롤링 비활성화)")
                print(f"📊 새로운 URL {len(new_urls)}개가 발견되었습니다.")
                print(f"💡 SITEMAP_AUTO_CRAWL = True로 설정하면 자동으로 상세 크롤링됩니다.")
                
                # URL 목록 저장 (추후 처리용)
                sitemap_urls_file = f"sitemap_urls_{CURRENT_CITY}_{datetime.now().strftime('%Y%m%d_%H%M%S')}.txt"
                with open(sitemap_urls_file, 'w', encoding='utf-8') as f:
                    for url in new_urls:
                        f.write(f"{url}\n")
                print(f"📁 URL 목록 저장: {sitemap_urls_file}")
                
            else:
                print("ℹ️ 새로운 URL이 없습니다.")
                print("💡 이미 수집된 모든 URL이 페이지네이션에서 처리되었습니다.")
        else:
            print("❌ Sitemap에서 URL을 찾을 수 없습니다.")
            print("💡 도시명이나 네트워크 상태를 확인해보세요.")

except NameError as e:
    print(f"❌ 변수 오류: {e}")
    print("💡 이전 셀들을 순서대로 실행해주세요.")
except Exception as e:
    print(f"❌ Sitemap 수집 중 오류: {e}")
    import traceback
    traceback.print_exc()

print("\n✅ Sitemap 하이브리드 수집 단계 완료!")
print("📄 다음 단계: 크롤링 결과 분석 및 보고서 생성")

## 📊 7. 크롤링 결과 분석 및 보고서

In [None]:
# 크롤링 결과 분석 및 보고서 생성
print("📊 크롤링 결과 분석 중...")
print("=" * 50)

try:
    from klook_modules.system_utils import get_hash_stats
    from klook_modules.url_manager import get_url_collection_stats
    import pandas as pd
    
    # 1. 해시 시스템 통계
    hash_stats = get_hash_stats(CURRENT_CITY)
    print(f"🔒 해시 시스템 통계:")
    print(f"   처리된 URL: {hash_stats.get('processed_count', 0)}개")
    
    # 2. URL 수집 통계
    url_stats = get_url_collection_stats(CURRENT_CITY)
    print(f"\n🔗 URL 수집 통계:")
    print(f"   수집 파일: {url_stats.get('total_files', 0)}개")
    print(f"   총 URL: {url_stats.get('total_urls', 0)}개")
    print(f"   최근 수집: {url_stats.get('latest_collection', 'N/A')}")
    
    # 3. CSV 데이터 분석 (새로운 32개 컬럼 구조)
    from klook_modules.config import get_city_info
    continent, country = get_city_info(CURRENT_CITY)
    
    # 새로운 파일명 형식 확인
    if CURRENT_CITY in ["마카오", "홍콩", "싱가포르"]:
        csv_path_new = f"data/{continent}/{CURRENT_CITY}_klook_products_all.csv"
        csv_path_old = f"data/{continent}/klook_{CURRENT_CITY}_products.csv"
    else:
        csv_path_new = f"data/{continent}/{country}/{CURRENT_CITY}/{CURRENT_CITY}_klook_products_all.csv"
        csv_path_old = f"data/{continent}/{country}/{CURRENT_CITY}/klook_{CURRENT_CITY}_products.csv"
    
    # 새 구조 CSV 확인
    csv_path = csv_path_new if os.path.exists(csv_path_new) else csv_path_old
    csv_structure = "32개 컬럼 (신규)" if os.path.exists(csv_path_new) else "13개 컬럼 (기존)"
    
    if os.path.exists(csv_path):
        df = pd.read_csv(csv_path, encoding='utf-8-sig')
        
        print(f"\n📋 CSV 데이터 분석:")
        print(f"   총 상품: {len(df)}개")
        print(f"   구조: {csv_structure}")
        print(f"   컬럼 수: {len(df.columns)}개")
        print(f"   파일 위치: {csv_path}")
        
        # 32개 컬럼 구조 상세 분석
        if len(df.columns) >= 30:  # 32개 컬럼 구조
            print(f"\n💾 32개 컬럼 구조 확인:")
            
            # 기본 정보 컬럼
            basic_cols = ['번호', '도시ID', '상품명', '가격_원본', '가격_정제']
            basic_present = [col for col in basic_cols if col in df.columns]
            print(f"   기본 정보: {len(basic_present)}/{len(basic_cols)}개")
            
            # 이미지 컬럼 (8개)
            image_cols = [col for col in df.columns if '이미지' in col]
            print(f"   이미지 정보: {len(image_cols)}개")
            
            # 랭킹 컬럼
            ranking_cols = ['탭명', '탭순서', '탭내_랭킹', 'URL_해시']
            ranking_present = [col for col in ranking_cols if col in df.columns]
            print(f"   랭킹 정보: {len(ranking_present)}/{len(ranking_cols)}개")
            
            # 듀얼 이미지 통계
            if '메인이미지_파일명' in df.columns and '썸네일이미지_파일명' in df.columns:
                main_images = df[df['메인이미지_파일명'] != '정보 없음']
                thumb_images = df[df['썸네일이미지_파일명'] != '정보 없음']
                dual_images = df[(df['메인이미지_파일명'] != '정보 없음') & 
                               (df['썸네일이미지_파일명'] != '정보 없음')]
                
                print(f"\n📸 듀얼 이미지 통계:")
                print(f"   메인 이미지: {len(main_images)}개")
                print(f"   썸네일 이미지: {len(thumb_images)}개")
                print(f"   듀얼 이미지: {len(dual_images)}개")
        
        # 탭별 분석
        tab_col = '탭명' if '탭명' in df.columns else None
        if tab_col:
            tab_counts = df[tab_col].value_counts()
            print(f"\n🎪 탭별 상품 수:")
            for tab, count in tab_counts.items():
                print(f"   {tab}: {count}개")
        
        # 가격 분석 (구 컬럼/신 컬럼 호환)
        price_col = '가격_정제' if '가격_정제' in df.columns else '가격'
        if price_col in df.columns:
            valid_prices = df[df[price_col] != '정보 없음'][price_col]
            print(f"\n💰 가격 정보:")
            print(f"   가격 있음: {len(valid_prices)}개")
            print(f"   가격 없음: {len(df) - len(valid_prices)}개")
        
        # 평점 분석 (구 컬럼/신 컬럼 호환)
        rating_col = '평점_정제' if '평점_정제' in df.columns else '평점'
        if rating_col in df.columns:
            valid_ratings = df[df[rating_col] != '정보 없음'][rating_col]
            print(f"\n⭐ 평점 정보:")
            print(f"   평점 있음: {len(valid_ratings)}개")
            print(f"   평점 없음: {len(df) - len(valid_ratings)}개")
        
        # 추가 정보 분석 (32개 컬럼 구조)
        if '하이라이트' in df.columns:
            highlights = df[df['하이라이트'] != '정보 없음']
            print(f"   하이라이트: {len(highlights)}개")
        
        if '언어' in df.columns:
            languages = df[df['언어'] != '정보 없음']
            print(f"   언어 정보: {len(languages)}개")
        
        # 최근 크롤링 시간
        time_col = '수집_시간' if '수집_시간' in df.columns else '수집일시'
        if time_col in df.columns:
            latest_crawl = df[time_col].max()
            print(f"\n⏰ 최근 크롤링: {latest_crawl}")
    
    else:
        print(f"\n⚠️ CSV 파일을 찾을 수 없습니다: {csv_path}")
    
    # 4. 랭킹 매니저 분석
    try:
        ranking_stats = ranking_manager.get_city_ranking_stats(CURRENT_CITY)
        if ranking_stats:
            print(f"\n🏆 랭킹 매니저 분석:")
            print(f"   총 관리 URL: {ranking_stats.get('total_urls', 0)}개")
            print(f"   중복 발견 URL: {ranking_stats.get('duplicate_urls', 0)}개")
            print(f"   처리된 탭: {ranking_stats.get('tabs_processed', [])}")
            print(f"   마지막 업데이트: {ranking_stats.get('last_updated', 'N/A')}")
    except Exception as e:
        print(f"⚠️ 랭킹 분석 실패: {e}")
    
    # 5. 이미지 폴더 분석
    try:
        img_base_folder = "klook_thumb_img"
        if os.path.exists(img_base_folder):
            if CURRENT_CITY in ["마카오", "홍콩", "싱가포르"]:
                img_folder = os.path.join(img_base_folder, continent)
            else:
                img_folder = os.path.join(img_base_folder, continent, country, CURRENT_CITY)
            
            if os.path.exists(img_folder):
                img_files = [f for f in os.listdir(img_folder) if f.endswith('.jpg')]
                main_imgs = [f for f in img_files if '_thumb' not in f and '_main' not in f]
                thumb_imgs = [f for f in img_files if '_thumb' in f]
                
                print(f"\n📸 이미지 폴더 분석:")
                print(f"   폴더 위치: {img_folder}")
                print(f"   총 이미지: {len(img_files)}개")
                print(f"   메인 이미지: {len(main_imgs)}개")
                print(f"   썸네일: {len(thumb_imgs)}개")
            else:
                print(f"\n📸 이미지 폴더 없음: {img_folder}")
    except Exception as e:
        print(f"⚠️ 이미지 분석 실패: {e}")

except Exception as e:
    print(f"❌ 분석 중 오류: {e}")

# 세션 보고서 생성 (업데이트된 정보 포함)
try:
    session_report = {
        "city": CURRENT_CITY,
        "mode": CRAWLING_MODE,
        "start_rank": START_RANK,
        "end_rank": END_RANK,
        "completed_at": datetime.now().isoformat(),
        "settings": settings,
        "total_time_minutes": int(total_time // 60),
        "results": {
            "completed": total_completed,
            "skipped": total_skipped,
            "failed": total_failed
        },
        "system_info": {
            "column_structure": "32개 컬럼",
            "dual_image_system": settings.get('download_images', True),
            "ranking_manager": True,
            "hashlib_system": CONFIG.get('USE_HASH_SYSTEM', True)
        }
    }
    
    # 보고서 저장
    os.makedirs("session_reports", exist_ok=True)
    report_filename = f"session_reports/klook_session_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json"
    
    import json
    with open(report_filename, 'w', encoding='utf-8') as f:
        json.dump(session_report, f, ensure_ascii=False, indent=2)
    
    print(f"\n📋 세션 보고서 저장: {report_filename}")

except Exception as e:
    print(f"⚠️ 보고서 저장 실패: {e}")

print("\n🎉 모든 작업이 완료되었습니다!")
print(f"💾 32개 컬럼 구조: {'✅ 적용됨' if csv_structure == '32개 컬럼 (신규)' else '⚠️ 기존 구조'}")
print(f"📸 듀얼 이미지: {'✅ 적용됨' if settings.get('download_images', True) else '❌ 비활성화'}")
print(f"🏆 랭킹 매니저: {'✅ 활성화' if 'ranking_manager' in locals() else '❌ 비활성화'}")

## 🧹 8. 시스템 정리 및 종료

In [None]:
# 시스템 정리 및 브라우저 종료
print("🧹 시스템 정리 중...")

try:
    # 크롤러 정리
    if 'crawler' in locals():
        crawler.cleanup()
        print("✅ 크롤러 정리 완료")
    
    # 드라이버 종료
    if 'driver' in locals():
        driver.quit()
        print("✅ 브라우저 종료 완료")
    
    # 마스터 컨트롤러 정리
    if 'controller' in locals():
        controller.cleanup_system()
        print("✅ 시스템 정리 완료")

except Exception as e:
    print(f"⚠️ 정리 중 오류: {e}")

print("\n👋 KLOOK 크롤러를 종료합니다.")
print("\n" + "="*70)
print("🎉 크롤링 세션이 성공적으로 완료되었습니다!")
print("📁 결과 파일들을 확인하세요:")
print(f"   - CSV 데이터: data/{CURRENT_CITY}/")
print(f"   - 세션 보고서: session_reports/")
print(f"   - URL 수집 로그: url_collected/")
print("="*70)

In [None]:
# 🔍 실제 URL 순서 확인 (수동 실행용)
print("🔍 실제 수집된 URL 순서 확인")
print("=" * 50)

# 동적으로 city_code 가져오기
try:
    from klook_modules.config import get_city_code
    city_code = get_city_code(CURRENT_CITY)
    
    # 동적으로 구성된 파일 경로로 URL 로그 확인
    url_log_file = f'url_collected/{city_code}_url_log.txt'
    
    with open(url_log_file, 'r', encoding='utf-8') as f:
        urls = f.readlines()
    
    print(f"📊 {CURRENT_CITY} 수집 결과: {len(urls)}개 URL")
    
    for i, line in enumerate(urls, 1):
        if '|' in line:
            timestamp, url = line.strip().split(' | ')
            # URL에서 상품명 추출
            product_name = url.split('/')[-1].replace('-', ' ')[:50]
            print(f"   {i}위: {product_name}")
    
    # 실제 KLOOK 페이지에서 1-3위와 비교 (동적 도시명 사용)
    print(f"\n💡 실제 KLOOK {CURRENT_CITY} 페이지와 비교해보세요:")
    if CURRENT_CITY == "로마":
        print(f"   1위: 바티칸 박물관 (Vatican Museums)")  
        print(f"   2위: 콜로세움 (Colosseum)")
        print(f"   3위: 바티칸 투어 또는 다른 인기 상품")
    elif CURRENT_CITY == "구마모토":
        print(f"   1위: 구마모토성 투어 (Kumamoto Castle Tour)")
        print(f"   2위: 아소산 투어 (Mount Aso Tour)")
        print(f"   3위: 구마모토 온천 체험")
    else:
        print(f"   해당 도시의 주요 관광 상품들과 비교해보세요")
    
    print(f"\n❓ 위 순서가 실제 KLOOK {CURRENT_CITY} 페이지 순서와 일치하나요?")
    
except FileNotFoundError:
    print(f"❌ {CURRENT_CITY} URL 로그 파일을 찾을 수 없습니다.")
    print(f"   파일 경로: {url_log_file}")
    print(f"   💡 먼저 URL 수집을 실행해주세요.")
except NameError:
    print("❌ CURRENT_CITY 변수가 정의되지 않았습니다.")
    print("💡 첫 번째 셀에서 설정을 먼저 실행해주세요.")
except Exception as e:
    print(f"❌ 오류: {e}")

print(f"\n🎯 다음 단계:")
print(f"   1. KLOOK {CURRENT_CITY} 페이지를 직접 확인")  
print(f"   2. 실제 1-3위 순서와 비교")
print(f"   3. 순서가 다르면 좌표 기반 정렬 구현")
print(f"   4. 순서가 맞다면 현재 방식 유지")

---

## 🔄 이어서 계속하기 (Resume 기능)

만약 크롤링이 중간에 중단되었다면, 다음 셀을 실행하여 이어서 계속할 수 있습니다:

In [None]:
# Resume 기능 - 중단된 지점부터 이어서 계속 (자동 건너뛰기)
print("🔄 이어서 계속하기 기능 (Run All 호환)")
print("=" * 40)

# Run All 호환을 위해 자동으로 건너뛰기
print("⏭️ Run All 모드: Resume 기능을 자동으로 건너뜁니다.")
print("💡 필요시 이 셀을 개별 실행하여 Resume 기능을 활성화할 수 있습니다.")

# 수동 실행 모드 (개별 셀 실행시에만 동작)
if False:  # 기본적으로 비활성화
    try:
        from klook_modules.system_utils import load_session_state
        
        # 사용자에게 도시명 입력 받기 (수동 모드에서만)
        resume_city = input("이어서 계속할 도시명을 입력하세요: ")
        
        # 이전 세션 상태 로드
        session_state = load_session_state(resume_city)
        
        if session_state:
            print(f"✅ '{resume_city}' 이전 세션 발견!")
            print(f"📊 이전 세션 정보: {session_state.get('timestamp', 'N/A')}")
            
            # 설정 복원 (수정된 변수명)
            CURRENT_CITY = resume_city
            START_RANK = session_state.get('start_rank', 1)
            END_RANK = session_state.get('end_rank', 50)
            CRAWLING_MODE = 'resume'
            
            # 설정 딕셔너리 복원
            settings = {
                'city': resume_city,
                'start_rank': START_RANK,
                'end_rank': END_RANK,
                'mode': 'resume',
                'skip_duplicates': True,
                'auto_save': session_state.get('auto_save', True),
                'download_images': session_state.get('download_images', True),
                'save_session': True
            }
            
            print(f"🔄 '{CURRENT_CITY}'에서 이어서 계속합니다...")
            print(f"📊 복원된 순위 범위: {START_RANK}위 ~ {END_RANK}위")
            print(f"💾 32개 컬럼 구조: ✅ 적용")
            print(f"🏆 랭킹 매니저: ✅ 활성화")
            print("위의 '3. 크롤링 실행' 셀부터 다시 실행하세요.")
        else:
            print(f"❌ '{resume_city}'의 이전 세션을 찾을 수 없습니다.")
            
    except Exception as e:
        print(f"❌ Resume 기능 오류: {e}")

print("✅ Resume 기능 셀 완료 - 다음 단계로 진행합니다.")