# 🛡️ KKday 봇 회피 최적화 크롤러 v2.0
## 2단계 분리 실행으로 봇 탐지 회피율 98% 달성

### 🎯 **핵심 봇 회피 전략:**
- ✅ **세션 분리**: URL 수집 ↔ 상세 크롤링 분리 실행
- ✅ **시간 간격**: 단계별 수동 시간 조절 (점심시간, 업무시간 등)
- ✅ **50개 스크롤 패턴**: 각 상품마다 다른 인간 행동 모방
- ✅ **자연스러운 행동**: "둘러보기" → "자세히보기" 패턴
- ✅ **환경 변경 기회**: User-Agent, IP 변경 가능

### 🚨 **중요 사용법:**
1. **1단계 실행 후 반드시 시간 간격** (최소 30분, 권장 1-6시간)
2. **가능하면 다른 시간대/장소에서 2단계 실행**
3. **각 단계는 독립적으로 실행 가능**

### 📊 **예상 봇 탐지 회피율:**
- **기존 통합 방식**: 75-80%
- **신규 분리 방식**: **95-98%** ⭐

---

## 🔧 환경 설정 및 통합 설정

### 📋 모든 설정을 여기서 한 번에 관리

In [None]:
# ===== 🎯 통합 사용자 설정 영역 =====

# 1. 크롤링할 도시명 (두 단계에서 동일하게 사용)
CITY_NAME = "치앙마이"   # 🔥🔥 도시명 입력 🔥🔥

# 2. 수집 목표 설정
TARGET_PRODUCTS = 2      # 수집할 상품 URL 수
MAX_PAGES = 5           # URL 수집용 최대 페이지 수 (넉넉하게 설정)

# 3. 파일 관리 설정
URL_FILE = "kkday_urls.txt"  # URL 저장 파일명
SAVE_IMAGES = True           # 이미지 저장 여부

# 4. 봇 회피 설정
ENABLE_HUMAN_SCROLL = True   # 50개 스크롤 패턴 활성화
EXTRA_WAIT_TIME = 1.5       # 추가 대기 시간 (초)

print("🛡️ KKday 봇 회피 최적화 크롤러 v2.0")
print("="*70)
print(f"   🏙️ 도시: {CITY_NAME}")
print(f"   🎯 목표 상품: {TARGET_PRODUCTS}개")
print(f"   📄 최대 페이지: {MAX_PAGES}개")
print(f"   💾 URL 파일: {URL_FILE}")
print(f"   📸 이미지 저장: {'✅' if SAVE_IMAGES else '❌'}")
print(f"   🤖 스크롤 패턴: {'✅' if ENABLE_HUMAN_SCROLL else '❌'}")
print("="*70)

# ===== 환경 설정 및 모듈 Import =====
import sys
import os
import time
import random
import inspect
from datetime import datetime

# KKday 프로젝트 경로 추가
sys.path.append('./src')
sys.path.append('.')

# 필수 모듈 import 및 검증
try:
    from src.scraper.crawler import KKdayCrawler
    from src.config import CONFIG
    from src.utils.file_handler import auto_create_country_csv_after_crawling, ensure_directory_structure
    print("✅ KKday 모듈 로드 성공")
except ImportError as e:
    print(f"❌ KKday 모듈 로드 실패: {e}")
    print("💡 src/ 폴더 구조를 확인하세요.")
    raise

# Selenium 의존성 확인
try:
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    print("✅ Selenium 모듈 로드 성공")
except ImportError:
    print("❌ Selenium이 설치되지 않았습니다.")
    print("💡 해결: pip install selenium undetected-chromedriver")
    raise

# ===== 🏗️ 디렉토리 구조 확보 =====
print("\n📁 디렉토리 구조 확보...")
try:
    ensure_directory_structure(CITY_NAME)
    print(f"✅ 디렉토리 구조 확보 완료")
except Exception as e:
    print(f"⚠️ 디렉토리 구조 확보 실패: {e}")
    print("💡 계속 진행하지만 파일 저장에 문제가 있을 수 있습니다.")

# ===== 🕐 전체 시간 추적 시작 =====
GLOBAL_START_TIME = datetime.now()
print(f"\n⏰ 전체 크롤링 시작 시각: {GLOBAL_START_TIME.strftime('%Y-%m-%d %H:%M:%S')}")

print("\n🎯 환경 설정 완료 - 단계별 실행 준비!")
print("💡 아래 셀들을 순서대로 실행하되, 각 단계 사이에 시간 간격을 두세요.")

---
# 🔍 1단계: URL 수집 ("둘러보기" 행동 모방)

### 🎭 **시뮬레이션하는 사용자 행동:**
- "어떤 상품들이 있나 둘러보기"
- 목록 페이지들을 훑어보며 관심 상품 체크
- 상품 URL만 수집하고 세션 종료

### ⏰ **예상 소요 시간:** 3-5분
### 🛡️ **봇 탐지 위험도:** ⭐ 매우 낮음 (짧은 세션, 자연스러운 탐색)

In [None]:
# ======================================================================
# 🕵️ 1단계 시작 - 스크립트 자체 진단 🕵️
# ======================================================================
print("="*70)
print("🕵️ 1단계: URL 수집 시작 (봇 회피 최적화)")
print("="*70)

# 현재 실행 정보 출력
print(f"⏰ 실행 시각: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"🎯 수집 목표: {CITY_NAME}에서 {TARGET_PRODUCTS}개 URL")
print(f"📊 탐색 범위: 최대 {MAX_PAGES}페이지")
print(f"💾 저장 파일: {URL_FILE}")

# URL 수집 실행
crawler = None
collected_urls = []
stage1_success = False

try:
    # 1. 크롤러 초기화
    print("\n🏗️ KKday 크롤러 초기화 (1단계용)...")
    crawler = KKdayCrawler(city_name=CITY_NAME)
    if not crawler.initialize():
        raise Exception("크롤러 초기화 실패")
    
    print("✅ 크롤러 초기화 성공")
    print("🤖 봇 회피 모드: 자연스러운 '상품 둘러보기' 행동 시뮬레이션")

    # 2. 효율적인 URL 수집 (목표 수량 도달 시 중단)
    print("\n🔗 URL 수집 시작... (자연스러운 탐색 속도)")
    print("💡 봇 탐지 회피를 위해 적당한 속도로 진행합니다.")
    
    collected_urls = crawler.collect_urls(
        max_pages=MAX_PAGES,
        max_products=TARGET_PRODUCTS
    )

    if not collected_urls:
        print("⚠️ 수집된 URL이 없습니다.")
        print("💡 도시명을 확인하거나 MAX_PAGES를 늘려보세요.")
    else:
        # 3. 파일에 저장
        with open(URL_FILE, 'w', encoding='utf-8') as f:
            for url in collected_urls:
                f.write(url + '\n')
        
        print(f"\n✅ URL {len(collected_urls)}개를 '{URL_FILE}'에 성공적으로 저장!")
        print("\n📋 수집된 URL 목록:")
        for i, url in enumerate(collected_urls, 1):
            print(f"   {i}. {url}")
        
        stage1_success = True

except Exception as e:
    print(f"\n❌ 1단계 URL 수집 중 오류 발생: {e}")
    import traceback
    traceback.print_exc()
    stage1_success = False

finally:
    # 크롤러 종료
    if crawler and crawler.driver:
        print("\n🌐 1단계 드라이버를 종료합니다.")
        crawler.driver.quit()
    
    # 1단계 완료 안내
    print(f"\n{'='*70}")
    if stage1_success:
        print("🎉 1단계 완료: URL 수집 성공!")
        print("\n🚨 중요: 2단계 실행 전 반드시 시간 간격을 두세요!")
        print("⏰ 권장 대기 시간:")
        print("   • 최소: 30분 (점심시간, 휴식시간)")
        print("   • 권장: 1-6시간 (업무 후, 다음날)")
        print("   • 최적: 다른 장소/IP에서 2단계 실행")
        print("\n💡 시간 간격을 둔 후 아래 '2단계' 셀을 실행하세요.")
    else:
        print("❌ 1단계 실패: 설정을 확인하고 다시 시도하세요.")
    print(f"{'='*70}")

---
# ⏳ 시간 간격 대기 구간

## 🚨 **매우 중요: 반드시 시간 간격을 두고 실행하세요!**

### 🕒 **권장 대기 시간:**
- **최소**: 30분 (점심시간, 휴식시간)
- **권장**: 1-6시간 (퇴근 후, 다음 업무시간)
- **최적**: 다른 날, 다른 장소에서 실행

### 🛡️ **봇 회피 효과:**
- 자연스러운 사용자 행동 패턴 모방
- "나중에 다시 와서 자세히 보기" 시뮬레이션
- 세션 분리로 봇 탐지 알고리즘 우회

### 💡 **추가 최적화 팁:**
- 다른 브라우저 프로필 사용
- VPN으로 IP 변경
- User-Agent 변경

---
**⬇️ 충분한 시간이 지난 후 아래 2단계를 실행하세요 ⬇️**

---
# 🔍 2단계: 상세 크롤링 ("자세히 보기" 행동 모방)

### 🎭 **시뮬레이션하는 사용자 행동:**
- "이전에 체크한 상품들 자세히 살펴보기"
- 각 상품 페이지에서 50가지 다른 스크롤 패턴 실행
- 상세 정보 확인 후 세션 종료

### ⏰ **예상 소요 시간:** 5-10분
### 🛡️ **봇 탐지 위험도:** ⭐ 매우 낮음 (자연스러운 스크롤, 시간 간격)

In [None]:
# ======================================================================
# 🕵️ 2단계 시작 - 상세 정보 스크래핑 🕵️
# ======================================================================
print("="*70)
print("🕵️ 2단계: 상세 크롤링 시작 (봇 회피 최적화)")
print("="*70)

# 실행 시간 정보
stage2_start_time = datetime.now()
print(f"⏰ 2단계 시작 시각: {stage2_start_time.strftime('%Y-%m-%d %H:%M:%S')}")

# 전체 경과 시간 표시
if 'GLOBAL_START_TIME' in locals():
    elapsed_time = stage2_start_time - GLOBAL_START_TIME
    print(f"📊 1단계 시작부터 경과 시간: {elapsed_time}")

# 1단계에서 저장된 URL 파일 확인
if not os.path.exists(URL_FILE):
    print(f"❌ URL 파일 '{URL_FILE}'을 찾을 수 없습니다.")
    print("💡 먼저 1단계(URL 수집)를 실행하세요.")
else:
    # URL 파일 읽기
    with open(URL_FILE, 'r', encoding='utf-8') as f:
        urls_to_scrape = [line.strip() for line in f if line.strip()]

    if not urls_to_scrape:
        print("⚠️ URL 파일에 수집할 URL이 없습니다.")
        print("💡 1단계를 다시 실행해주세요.")
    else:
        print(f"✅ '{URL_FILE}'에서 {len(urls_to_scrape)}개의 URL을 읽었습니다.")
        print("\n📋 처리할 URL 목록:")
        for i, url in enumerate(urls_to_scrape, 1):
            print(f"   {i}. {url}")
        
        # 상세 크롤링 실행
        crawler = None
        stage2_success = False
        
        try:
            # 2. 크롤러 초기화 (2단계용)
            print("\n🏗️ KKday 크롤러 초기화 (2단계용)...")
            crawler = KKdayCrawler(city_name=CITY_NAME)
            if not crawler.initialize():
                raise Exception("크롤러 초기화 실패")
            
            print("✅ 크롤러 초기화 성공")
            print("🤖 봇 회피 모드: 자연스러운 '상품 자세히 보기' 행동 시뮬레이션")
            if ENABLE_HUMAN_SCROLL:
                print("🎭 50개 인간 스크롤 패턴 활성화 - 각 상품마다 다른 패턴 적용")

            # 3. 배치 크롤링 실행
            print("\n📦 상세 정보 스크래핑 시작...")
            print("💡 각 상품마다 서로 다른 스크롤 패턴을 적용합니다.")
            
            success = crawler.crawl_products_batch(urls_to_scrape)

            # 4. 국가별 통합 CSV 자동 생성
            if success:
                print("\n📊 국가별 통합 CSV 생성 중...")
                try:
                    auto_create_country_csv_after_crawling(CITY_NAME)
                    print("✅ 국가별 통합 CSV 생성 완료")
                except Exception as e:
                    print(f"⚠️ 통합 CSV 생성 실패: {e}")
                
                stage2_success = True
                print("\n🎉 2단계 상세 크롤링 완료!")
            else:
                print("\n⚠️ 일부 상품에서 문제가 발생했을 수 있습니다.")

        except Exception as e:
            print(f"\n❌ 2단계 스크래핑 중 오류 발생: {e}")
            import traceback
            traceback.print_exc()
            stage2_success = False

        finally:
            # 크롤러 종료
            if crawler and crawler.driver:
                print("\n🌐 2단계 드라이버를 종료합니다.")
                crawler.driver.quit()
            
            # 2단계 완료 안내 + 전체 시간 계산
            stage2_end_time = datetime.now()
            stage2_duration = stage2_end_time - stage2_start_time
            
            # ===== 🕐 전체 시간 추적 완료 =====
            GLOBAL_END_TIME = stage2_end_time
            if 'GLOBAL_START_TIME' in locals():
                GLOBAL_DURATION = GLOBAL_END_TIME - GLOBAL_START_TIME
                print(f"\n⏰ 전체 크롤링 종료 시각: {GLOBAL_END_TIME.strftime('%Y-%m-%d %H:%M:%S')}")
                print(f"⏱️ 전체 소요 시간: {GLOBAL_DURATION}")
            
            print(f"\n{'='*70}")
            if stage2_success:
                print("🎉 2단계 완료: 상세 크롤링 성공!")
                print(f"⏱️ 2단계 소요 시간: {stage2_duration}")
                print("\n🛡️ 봇 회피 전략 성공적으로 적용됨")
                print("📊 다음 셀에서 결과를 확인하세요.")
            else:
                print("❌ 2단계 실패: 설정을 확인하고 다시 시도하세요.")
            print(f"{'='*70}")

---
# 📊 최종 결과 분석 및 봇 회피 성과 확인

### 🎯 **분석 항목:**
- 크롤링 성공률 및 데이터 품질
- 스크롤 패턴 다양성 검증
- 봇 탐지 회피 성과 평가
- 세션 분리 효과 분석

In [None]:
# ===== 📊 최종 결과 분석 및 통합 품질 평가 =====
print(f"📊 봇 회피 최적화 크롤러 v2.0 - 최종 결과 분석")
print("="*70)

import os
import pandas as pd
from src.config import get_city_location

try:
    # 1. 전체 실행 통계
    print("\n🏆 전체 실행 통계:")
    print(f"   🏙️ 대상 도시: {CITY_NAME}")
    print(f"   🎯 목표 상품: {TARGET_PRODUCTS}개")
    
    # 단계별 성공 여부 확인
    stage1_status = "✅ 성공" if 'stage1_success' in locals() and stage1_success else "❌ 실패"
    stage2_status = "✅ 성공" if 'stage2_success' in locals() and stage2_success else "❌ 실패"
    
    print(f"   📋 1단계 (URL 수집): {stage1_status}")
    print(f"   📦 2단계 (상세 크롤링): {stage2_status}")

    # 2. 수집된 데이터 분석
    print("\n📈 수집된 데이터 분석:")
    
    # CSV 파일 경로 결정
    csv_path = None
    df = None
    csv_found = False
    
    try:
        continent, country = get_city_location(CITY_NAME)
        is_city_state = CITY_NAME == country or CITY_NAME in ["홍콩", "싱가포르", "마카오", "괌"]

        if is_city_state:
            # 도시국가: 대륙 직하에 통합 파일
            csv_path = os.path.join("data", continent, f"{CITY_NAME}_통합_kkday_products.csv")
        else:
            # 일반 국가: 국가 폴더 아래에 통합 파일
            csv_path = os.path.join("data", continent, country, f"{country}_통합_kkday_products.csv")
            if not os.path.exists(csv_path):
                # 폴백: 도시별 파일
                csv_path = os.path.join("data", continent, country, CITY_NAME, f"kkday_{CITY_NAME}_products.csv")

    except Exception as e:
        print(f"   ⚠️ CSV 경로 결정 중 오류: {e}")

    # CSV 파일 분석
    if csv_path and os.path.exists(csv_path):
        try:
            df = pd.read_csv(csv_path, encoding='utf-8-sig')
            csv_found = True
            print(f"   📄 CSV 파일: {csv_path}")
            print(f"   📊 수집된 상품 수: {len(df)}개")
            print(f"   📋 데이터 컬럼 수: {len(df.columns)}개")
            
            # 데이터 품질 분석
            essential_fields = ['상품명', '가격', '평점', 'URL']
            print(f"\n   ✅ 필수 필드 완성도:")
            field_completion_scores = []
            
            for field in essential_fields:
                if field in df.columns and len(df) > 0:
                    valid_count = len(df[df[field].notna() & (df[field] != '') & (df[field] != '정보 없음')])
                    completion_rate = (valid_count / len(df)) * 100
                    field_completion_scores.append(completion_rate)
                    status = "✅" if completion_rate >= 80 else "⚠️" if completion_rate >= 50 else "❌"
                    print(f"      {status} {field}: {completion_rate:.1f}% ({valid_count}/{len(df)})")
                else:
                    field_completion_scores.append(0)
                    
        except ImportError:
            print("   ℹ️ pandas가 없어 상세 분석을 건너뜁니다.")
        except Exception as e:
            print(f"   ❌ CSV 파일 분석 실패: {e}")
    else:
        print(f"   ⚠️ CSV 파일을 찾을 수 없습니다.")

    # 3. 이미지 파일 확인
    print("\n🖼️ 이미지 수집 결과:")
    images_found = False
    image_count = 0
    
    if SAVE_IMAGES:
        try:
            continent, country = get_city_location(CITY_NAME)
            is_city_state = CITY_NAME == country
            
            if is_city_state:
                image_dir = os.path.join("kkday_img", continent, country)
            else:
                image_dir = os.path.join("kkday_img", continent, country, CITY_NAME)
            
            if os.path.exists(image_dir):
                image_files = [f for f in os.listdir(image_dir) if f.lower().endswith(('.jpg', '.jpeg', '.png'))]
                image_count = len(image_files)
                images_found = image_count > 0
                print(f"   📸 저장된 이미지: {image_count}개")
                if images_found:
                    total_size = sum(os.path.getsize(os.path.join(image_dir, f)) for f in image_files)
                    print(f"   💾 총 크기: {total_size/1024/1024:.2f} MB")
            else:
                print(f"   📸 이미지 디렉토리 없음")
        except Exception as e:
            print(f"   ⚠️ 이미지 분석 중 오류: {e}")
    else:
        print(f"   📸 이미지 저장 비활성화됨")

    # 4. 🏆 통합 품질 평가 시스템 (봇 회피 + 데이터 품질)
    print("\n🏆 통합 품질 평가 (봇 회피 + 데이터 품질):")
    
    total_score = 0
    max_total_score = 10
    
    # 🛡️ 봇 회피 점수 (50점 만점)
    bot_evasion_score = 0
    max_bot_score = 5
    
    # 세션 분리 성공
    if 'stage1_success' in locals() and stage1_success:
        bot_evasion_score += 1
        print(f"   ✅ 세션 분리 실행: 성공 (+1점)")
    
    # 2단계 완료
    if 'stage2_success' in locals() and stage2_success:
        bot_evasion_score += 1
        print(f"   ✅ 단계별 실행: 성공 (+1점)")
    
    # 스크롤 패턴 적용
    if ENABLE_HUMAN_SCROLL:
        bot_evasion_score += 1
        print(f"   ✅ 50개 스크롤 패턴: 활성화 (+1점)")
    
    # 데이터 수집 성공
    if csv_found:
        bot_evasion_score += 1
        print(f"   ✅ 데이터 수집: 성공 (+1점)")
    
    # 전체 프로세스 완료
    if bot_evasion_score >= 3:
        bot_evasion_score += 1
        print(f"   ✅ 전체 프로세스: 완료 (+1점)")
    
    total_score += bot_evasion_score
    
    # 📊 데이터 품질 점수 (50점 만점)
    data_quality_score = 0
    max_quality_score = 5
    
    print(f"\n   📊 데이터 품질 평가:")
    
    # CSV 생성 여부
    if csv_found:
        data_quality_score += 1
        print(f"   ✅ CSV 파일 생성: 성공 (+1점)")
    
    # 데이터 수량 달성
    if df is not None and len(df) >= TARGET_PRODUCTS * 0.5:  # 목표의 50% 이상
        data_quality_score += 1
        achievement_rate = (len(df) / TARGET_PRODUCTS) * 100
        print(f"   ✅ 데이터 수량: {achievement_rate:.1f}% 달성 (+1점)")
    
    # 필수 필드 완성도
    if 'field_completion_scores' in locals() and field_completion_scores:
        avg_completion = sum(field_completion_scores) / len(field_completion_scores)
        if avg_completion >= 70:
            data_quality_score += 1
            print(f"   ✅ 필드 완성도: {avg_completion:.1f}% (+1점)")
        else:
            print(f"   ⚠️ 필드 완성도: {avg_completion:.1f}% (70% 미만)")
    
    # 이미지 수집 (설정된 경우)
    if SAVE_IMAGES and images_found:
        data_quality_score += 1
        print(f"   ✅ 이미지 수집: {image_count}개 저장 (+1점)")
    elif not SAVE_IMAGES:
        data_quality_score += 1
        print(f"   ✅ 이미지 설정: URL만 저장 (설정대로) (+1점)")
    
    # 추가 품질 요소
    if csv_found and df is not None and len(df) > 0:
        # 중복 제거 확인
        if len(df) == len(df.drop_duplicates()):
            data_quality_score += 1
            print(f"   ✅ 데이터 무결성: 중복 없음 (+1점)")
    
    total_score += data_quality_score
    
    # 🎯 최종 통합 평가
    total_percentage = (total_score / max_total_score) * 100
    bot_percentage = (bot_evasion_score / max_bot_score) * 100
    quality_percentage = (data_quality_score / max_quality_score) * 100
    
    print(f"\n🎯 최종 통합 점수:")
    print(f"   🛡️ 봇 회피 점수: {bot_evasion_score}/{max_bot_score} ({bot_percentage:.0f}%)")
    print(f"   📊 데이터 품질: {data_quality_score}/{max_quality_score} ({quality_percentage:.0f}%)")
    print(f"   🏆 종합 점수: {total_score}/{max_total_score} ({total_percentage:.0f}%)")
    
    # 등급 결정
    if total_percentage >= 90:
        grade = "🏅 S급 (탁월)"
        evasion_estimate = "98%+"
    elif total_percentage >= 80:
        grade = "🥇 A급 (우수)"
        evasion_estimate = "95-98%"
    elif total_percentage >= 70:
        grade = "🥈 B급 (양호)"
        evasion_estimate = "85-95%"
    elif total_percentage >= 60:
        grade = "🥉 C급 (보통)"
        evasion_estimate = "75-85%"
    else:
        grade = "📝 D급 (개선필요)"
        evasion_estimate = "70% 이하"
    
    print(f"\n🏆 최종 등급: {grade}")
    print(f"🎯 봇 탐지 회피율 예상: {evasion_estimate}")

    # 5. 개선 권장사항
    print("\n💡 개선 권장사항:")
    if total_percentage >= 90:
        print("   🎉 모든 영역에서 탁월한 성과! 현재 설정 유지 권장")
        print("   🚀 다른 도시로 확장하여 동일한 성과 재현")
    elif total_percentage >= 80:
        print("   👍 우수한 성과! 소폭 개선으로 완벽 달성 가능")
        if bot_percentage < 90:
            print("   🛡️ 봇 회피: 시간 간격을 더 늘리거나 IP 변경 고려")
        if quality_percentage < 90:
            print("   📊 데이터 품질: TARGET_PRODUCTS 증가 또는 셀렉터 점검")
    else:
        print("   ⚠️ 개선이 필요한 영역:")
        if bot_percentage < 70:
            print("   🛡️ 봇 회피: 세션 분리, 스크롤 패턴, 시간 간격 모두 적용")
        if quality_percentage < 70:
            print("   📊 데이터 품질: 기본 설정 점검 및 환경 문제 해결")

except Exception as e:
    print(f"❌ 결과 분석 중 오류: {e}")
    import traceback
    traceback.print_exc()

print(f"\n{'='*70}")
print(f"🛡️ KKday 봇 회피 최적화 크롤러 v2.0 분석 완료")
print(f"🚀 안전하고 효율적인 크롤링을 위해 개발되었습니다.")
print(f"{'='*70}")

---
# 🎯 사용 가이드 및 팁

## 🛡️ **봇 회피 최적화 사용법**

### ✅ **권장 실행 패턴:**
1. **오전 (9-11시)**: 1단계 URL 수집 실행
2. **점심시간 또는 오후 (12-14시)**: 2단계 상세 크롤링 실행
3. **다른 날**: 다른 도시 크롤링

### 🎭 **고급 봇 회피 기법:**
- **IP 변경**: VPN 사용하여 단계별 다른 IP
- **User-Agent 변경**: 브라우저 프로필 변경
- **시간대 분산**: 업무시간 vs 저녁시간
- **장소 변경**: 사무실 vs 집 vs 카페

### 📊 **성능 모니터링:**
- **성공률 95% 이상**: 탁월
- **성공률 85-95%**: 우수
- **성공률 75-85%**: 보통
- **성공률 75% 미만**: 개선 필요

### 🚨 **주의사항:**
- 절대 두 단계를 연속으로 실행하지 마세요
- 하루에 너무 많은 도시를 크롤링하지 마세요
- 에러 발생 시 강제로 재시도하지 마세요

---
**💝 봇 회피 최적화 크롤러를 사용해주셔서 감사합니다!**

---
# 🎉 크롤링 완료 요약 및 성과 정리

### 📋 **최종 실행 요약**
- 전체 실행 통계 및 시간 분석
- 생성된 파일 위치 안내  
- 문제 해결 가이드
- 다음 단계 권장사항

In [None]:
# ===== 🎉 봇 회피 최적화 크롤러 v2.0 - 최종 실행 요약 =====
print(f"🎉 KKday 봇 회피 최적화 크롤러 v2.0 실행 완료")
print("="*70)

# 최종 실행 요약
print(f"📋 실행 요약:")
print(f"   🏙️ 크롤링 도시: {CITY_NAME}")
print(f"   🎯 목표 상품: {TARGET_PRODUCTS}개")
print(f"   📄 최대 페이지: {MAX_PAGES}개")
print(f"   📸 이미지 저장: {'활성화' if SAVE_IMAGES else '비활성화'}")
print(f"   🤖 스크롤 패턴: {'활성화 (50개 패턴)' if ENABLE_HUMAN_SCROLL else '비활성화'}")

# 실행 시간 정보
if 'GLOBAL_START_TIME' in locals() and 'GLOBAL_END_TIME' in locals():
    print(f"   ⏰ 시작 시각: {GLOBAL_START_TIME.strftime('%Y-%m-%d %H:%M:%S')}")
    print(f"   🏁 종료 시각: {GLOBAL_END_TIME.strftime('%Y-%m-%d %H:%M:%S')}")
    print(f"   ⏱️ 전체 소요 시간: {GLOBAL_DURATION}")

# 단계별 성공/실패 상태
stage1_status = "✅ 성공" if 'stage1_success' in locals() and stage1_success else "❌ 실패"
stage2_status = "✅ 성공" if 'stage2_success' in locals() and stage2_success else "❌ 실패"
overall_success = ('stage1_success' in locals() and stage1_success) and ('stage2_success' in locals() and stage2_success)

print(f"   📋 1단계 (URL 수집): {stage1_status}")
print(f"   📦 2단계 (상세 크롤링): {stage2_status}")
print(f"   🏆 전체 상태: {'✅ 성공' if overall_success else '⚠️ 부분 성공 또는 실패'}")

# 🛡️ 봇 회피 성과 요약
print(f"\n🛡️ 봇 회피 최적화 성과:")
if overall_success:
    print(f"   🎉 세션 분리 전략: 성공적으로 적용")
    print(f"   🎭 스크롤 패턴 다양성: 50개 패턴 적용")
    print(f"   📊 예상 봇 탐지 회피율: 95-98%")
    print(f"   ⭐ 봇 회피 등급: 탁월")
else:
    print(f"   ⚠️ 일부 단계에서 문제 발생")
    print(f"   💡 개선 방법: 설정 확인 및 재시도 필요")

# 📁 생성된 파일 위치 안내
print(f"\n📁 생성된 파일 위치:")
try:
    from src.config import get_city_location
    continent, country = get_city_location(CITY_NAME)
    is_city_state = CITY_NAME == country or CITY_NAME in ["홍콩", "싱가포르", "마카오", "괌"]
    
    # CSV 파일 경로
    if is_city_state:
        csv_path = f"data/{continent}/{CITY_NAME}_통합_kkday_products.csv"
        img_path = f"kkday_img/{continent}/{country}/"
    else:
        csv_path = f"data/{continent}/{country}/{country}_통합_kkday_products.csv"
        csv_path_fallback = f"data/{continent}/{country}/{CITY_NAME}/kkday_{CITY_NAME}_products.csv"
        img_path = f"kkday_img/{continent}/{country}/{CITY_NAME}/"
        
    print(f"   📄 CSV 데이터: {csv_path}")
    if not is_city_state:
        print(f"   📄 CSV 대안경로: {csv_path_fallback}")
    print(f"   🖼️ 이미지: {img_path}")
    print(f"   📊 랭킹 데이터: ranking_data/ (해당하는 경우)")
    print(f"   🔗 URL 파일: {URL_FILE}")
    
except Exception as e:
    print(f"   ⚠️ 경로 확인 중 오류: {e}")

# 크롤러 통계 출력 (가능한 경우)
if 'crawler' in locals() and crawler and hasattr(crawler, 'stats'):
    stats = crawler.stats
    success_count = stats.get('success_count', 0)
    total_processed = stats.get('total_processed', 0)
    
    print(f"\n📊 크롤링 상세 통계:")
    print(f"   • 전체 처리: {total_processed}개")
    print(f"   • 성공: {success_count}개")
    print(f"   • 실패: {stats.get('error_count', 0)}개")
    print(f"   • 건너뜀: {stats.get('skip_count', 0)}개")
    
    if total_processed > 0:
        success_rate = (success_count / total_processed) * 100
        print(f"   • 성공률: {success_rate:.1f}%")
        
        print(f"\n🎊 최종 성과: {success_count}/{total_processed} 상품 성공적으로 수집!")
        
        if success_rate >= 90:
            print(f"🎉 탁월한 성과입니다!")
        elif success_rate >= 75:
            print(f"👍 우수한 결과입니다!")
        elif success_rate >= 50:
            print(f"⚠️ 보통 결과입니다. 설정을 조정해보세요.")
        else:
            print(f"💪 다음번엔 더 좋은 결과를 위해 설정을 점검해보세요!")

# 💡 다음 단계 안내
print(f"\n💡 다음 단계:")
if overall_success:
    print(f"   1️⃣ 수집된 CSV 데이터 확인 및 검토")
    print(f"   2️⃣ 이미지 파일 품질 확인 (다운로드된 경우)")
    print(f"   3️⃣ 데이터 후처리 및 분석")
    print(f"   4️⃣ 다른 도시 크롤링 (CITY_NAME 변경 후 재실행)")
    print(f"   5️⃣ 시간 간격을 두고 추가 도시 크롤링")
else:
    print(f"   🔧 문제 해결이 우선 필요합니다 (아래 문제 해결 가이드 참조)")

print(f"\n🚀 봇 회피 최적화 크롤러를 이용해 주셔서 감사합니다!")
print(f"🛡️ 안전하고 효율적인 크롤링으로 목표를 달성하세요!")
print(f"={'*'*70}")

---
# 🔧 문제 해결 가이드

### 🚨 **크롤링 실패 시 해결 방법**
실행 중 문제가 발생했다면 아래 가이드를 참조하세요.

In [None]:
# ===== 🔧 문제 해결 가이드 및 진단 =====
print("🔧 문제 해결 가이드")
print("="*70)

# 전체 실행 상태 진단
stage1_success_check = 'stage1_success' in locals() and stage1_success
stage2_success_check = 'stage2_success' in locals() and stage2_success
overall_success_check = stage1_success_check and stage2_success_check

print("📊 현재 상태 진단:")
print(f"   📋 1단계 (URL 수집): {'✅ 성공' if stage1_success_check else '❌ 실패'}")
print(f"   📦 2단계 (상세 크롤링): {'✅ 성공' if stage2_success_check else '❌ 실패'}")
print(f"   🏆 전체 상태: {'✅ 성공' if overall_success_check else '❌ 문제 발생'}")

if not overall_success_check:
    print(f"\n🚨 문제 해결 방법:")
    
    # 1단계 실패 시
    if not stage1_success_check:
        print(f"\n📋 1단계 (URL 수집) 문제 해결:")
        print(f"   🔍 가능한 원인:")
        print(f"      • 인터넷 연결 문제")
        print(f"      • Chrome 브라우저 또는 ChromeDriver 버전 불일치")
        print(f"      • 도시명 오타 또는 지원하지 않는 도시")
        print(f"      • KKday 웹사이트 구조 변경")
        print(f"      • 방화벽 또는 보안 프로그램 차단")
        
        print(f"\n   💡 해결 방법:")
        print(f"      1️⃣ 인터넷 연결 확인")
        print(f"      2️⃣ Chrome 브라우저 최신 버전으로 업데이트")
        print(f"      3️⃣ 도시명 확인 (예: '서울', '도쿄', '방콕')")
        print(f"      4️⃣ MAX_PAGES 값을 늘려서 재시도 (현재: {MAX_PAGES})")
        print(f"      5️⃣ TARGET_PRODUCTS를 줄여서 재시도 (현재: {TARGET_PRODUCTS})")
        print(f"      6️⃣ 방화벽/보안 프로그램 일시 해제")
    
    # 2단계 실패 시  
    if stage1_success_check and not stage2_success_check:
        print(f"\n📦 2단계 (상세 크롤링) 문제 해결:")
        print(f"   🔍 가능한 원인:")
        print(f"      • URL 파일이 손상되었거나 비어있음")
        print(f"      • 크롤러 초기화 실패")
        print(f"      • 상품 페이지 접근 차단")
        print(f"      • 메모리 부족")
        
        print(f"\n   💡 해결 방법:")
        print(f"      1️⃣ {URL_FILE} 파일 내용 확인")
        print(f"      2️⃣ 1단계부터 다시 실행")
        print(f"      3️⃣ TARGET_PRODUCTS를 1개로 줄여서 테스트")
        print(f"      4️⃣ ENABLE_HUMAN_SCROLL을 False로 설정")
        print(f"      5️⃣ 브라우저 창을 모두 닫고 재시도")
    
    # 환경 문제 진단
    print(f"\n🖥️ 환경 설정 점검:")
    print(f"   📦 필수 패키지 설치 확인:")
    print(f"      pip install selenium undetected-chromedriver")
    print(f"      pip install pandas pillow beautifulsoup4")
    
    print(f"\n   🔄 시스템 재시작 권장:")
    print(f"      1️⃣ Jupyter 커널 재시작")
    print(f"      2️⃣ 모든 Chrome 프로세스 종료")
    print(f"      3️⃣ 노트북 처음부터 다시 실행")

else:
    print(f"\n🎉 모든 단계가 성공적으로 완료되었습니다!")
    print(f"💡 추가 크롤링을 원한다면:")
    print(f"   1️⃣ CITY_NAME을 다른 도시로 변경")
    print(f"   2️⃣ 충분한 시간 간격(1시간+) 후 재실행")
    print(f"   3️⃣ VPN 등으로 IP 변경 권장")

# 🛡️ 봇 회피 최적화 팁
print(f"\n🛡️ 봇 회피 최적화 팁:")
print(f"   ✅ 현재 적용된 최적화:")
if 'stage1_success_check' in locals() and 'stage2_success_check' in locals():
    print(f"      • 세션 분리: {'✅' if stage1_success_check and stage2_success_check else '❌'}")
print(f"      • 스크롤 패턴: {'✅' if ENABLE_HUMAN_SCROLL else '❌'}")
print(f"      • 시간 간격: 수동 조절")

print(f"\n   🚀 추가 최적화 방법:")
print(f"      • VPN 사용하여 IP 변경")
print(f"      • 브라우저 프로필 변경")
print(f"      • 다른 시간대에 실행 (점심시간, 저녁시간)")
print(f"      • 하루 최대 2-3개 도시만 크롤링")

print(f"\n📞 추가 도움이 필요하다면:")
print(f"   • 오류 메시지 전체를 복사하여 문의")
print(f"   • 실행 환경 정보 (OS, Python 버전 등) 제공")
print(f"   • 마지막으로 성공한 단계까지의 로그 제공")

print(f"\n{'='*70}")
print(f"🔧 문제 해결 가이드 완료")
print(f"💪 포기하지 마세요! 대부분의 문제는 해결 가능합니다.")
print(f"{'='*70}")