In [5]:
# -*- coding: utf-8 -*-

# #--- 초기 패키지 설치 ---#
# !python -m pip install --upgrade pip
# !pip install pandas selenium==4.18.1 webdriver-manager undetected-chromedriver user_agents pyperclip chromedriver_autoinstaller

#--- 라이브러리 import ---#
import pandas as pd
import warnings
import os
import time
import shutil
import urllib
import random

warnings.filterwarnings(action='ignore')

from PIL import Image
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException, WebDriverException

import chromedriver_autoinstaller
import undetected_chromedriver as uc
from user_agents import parse

# 🚀 개선사항 1: 설정값 분리 - 모든 설정을 한 곳에서 관리
CONFIG = {
    "WAIT_TIMEOUT": 10,
    "RETRY_COUNT": 3,
    "MIN_DELAY": 3,
    "MAX_DELAY": 8,
    "POPUP_WAIT": 5,
    "USER_AGENT": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36",
    "SAVE_IMAGES": True,
    "SAVE_INTERMEDIATE": True,
    "MAX_PRODUCT_NAME_LENGTH": 30
}

# 🎯 검색할 도시들 설정
CITIES_TO_SEARCH = ["방콕", "파리"]

# 🆕 도시별 수집할 상품 개수 설정
PRODUCTS_PER_CITY = 3

# 🌏 도시별 대륙 및 국가 정보 매핑
CITY_INFO = {
    # 🌏 도시별 대륙 및 국가 정보 매핑 (전체 버전)
CITY_INFO = {
    # 아시아
    "방콕": {"대륙": "아시아", "국가": "태국"},
    "도쿄": {"대륙": "아시아", "국가": "일본"},
    "오사카": {"대륙": "아시아", "국가": "일본"},
    "교토": {"대륙": "아시아", "국가": "일본"},
    "싱가포르": {"대륙": "아시아", "국가": "싱가포르"},
    "홍콩": {"대륙": "아시아", "국가": "홍콩"},
    "타이베이": {"대륙": "아시아", "국가": "대만"},
    "상하이": {"대륙": "아시아", "국가": "중국"},
    "베이징": {"대륙": "아시아", "국가": "중국"},
    "푸켓": {"대륙": "아시아", "국가": "태국"},
    "파타야": {"대륙": "아시아", "국가": "태국"},
    "치앙마이": {"대륙": "아시아", "국가": "태국"},
    "호치민": {"대륙": "아시아", "국가": "베트남"},
    "하노이": {"대륙": "아시아", "국가": "베트남"},
    "다낭": {"대륙": "아시아", "국가": "베트남"},
    "세부": {"대륙": "아시아", "국가": "필리핀"},
    "보라카이": {"대륙": "아시아", "국가": "필리핀"},
    "발리": {"대륙": "아시아", "국가": "인도네시아"},
    "자카르타": {"대륙": "아시아", "국가": "인도네시아"},
    "쿠알라룸푸르": {"대륙": "아시아", "국가": "말레이시아"},
    "코타키나발루": {"대륙": "아시아", "국가": "말레이시아"},
    "랑카위": {"대륙": "아시아", "국가": "말레이시아"},
    "페낭": {"대륙": "아시아", "국가": "말레이시아"},
    "아유타야": {"대륙": "아시아", "국가": "태국"},
    "수코타이": {"대륙": "아시아", "국가": "태국"},
    "카오야이": {"대륙": "아시아", "국가": "태국"},
    "후아힌": {"대륙": "아시아", "국가": "태국"},
    "코사무이": {"대륙": "아시아", "국가": "태국"},
    "크라비": {"대륙": "아시아", "국가": "태국"},
    "몰디브": {"대륙": "아시아", "국가": "몰디브"},
    "제주도": {"대륙": "아시아", "국가": "한국"},
    "부산": {"대륙": "아시아", "국가": "한국"},
    "강릉": {"대륙": "아시아", "국가": "한국"},
    
    # 유럽
    "파리": {"대륙": "유럽", "국가": "프랑스"},
    "런던": {"대륙": "유럽", "국가": "영국"},
    "로마": {"대륙": "유럽", "국가": "이탈리아"},
    "밀라노": {"대륙": "유럽", "국가": "이탈리아"},
    "베니스": {"대륙": "유럽", "국가": "이탈리아"},
    "바르셀로나": {"대륙": "유럽", "국가": "스페인"},
    "마드리드": {"대륙": "유럽", "국가": "스페인"},
    "암스테르담": {"대륙": "유럽", "국가": "네덜란드"},
    "베를린": {"대륙": "유럽", "국가": "독일"},
    "뮌헨": {"대륙": "유럽", "국가": "독일"},
    "프라하": {"대륙": "유럽", "국가": "체코"},
    "비엔나": {"대륙": "유럽", "국가": "오스트리아"},
    "취리히": {"대륙": "유럽", "국가": "스위스"},
    "제네바": {"대륙": "유럽", "국가": "스위스"},
    "스톡홀름": {"대륙": "유럽", "국가": "스웨덴"},
    "코펜하겐": {"대륙": "유럽", "국가": "덴마크"},
    "헬싱키": {"대륙": "유럽", "국가": "핀란드"},
    "모스크바": {"대륙": "유럽", "국가": "러시아"},
    "상트페테르부르크": {"대륙": "유럽", "국가": "러시아"},
    "아테네": {"대륙": "유럽", "국가": "그리스"},
    "리스본": {"대륙": "유럽", "국가": "포르투갈"},
    "부다페스트": {"대륙": "유럽", "국가": "헝가리"},
    "바르샤바": {"대륙": "유럽", "국가": "폴란드"},
    
    # 북미
    "뉴욕": {"대륙": "북미", "국가": "미국"},
    "로스앤젤레스": {"대륙": "북미", "국가": "미국"},
    "라스베이거스": {"대륙": "북미", "국가": "미국"},
    "샌프란시스코": {"대륙": "북미", "국가": "미국"},
    "시카고": {"대륙": "북미", "국가": "미국"},
    "보스턴": {"대륙": "북미", "국가": "미국"},
    "마이애미": {"대륙": "북미", "국가": "미국"},
    "시애틀": {"대륙": "북미", "국가": "미국"},
    "하와이": {"대륙": "북미", "국가": "미국"},
    "밴쿠버": {"대륙": "북미", "국가": "캐나다"},
    "토론토": {"대륙": "북미", "국가": "캐나다"},
    "몬트리올": {"대륙": "북미", "국가": "캐나다"},
    "멕시코시티": {"대륙": "북미", "국가": "멕시코"},
    "칸쿤": {"대륙": "북미", "국가": "멕시코"},
    
    # 남미
    "리우데자네이루": {"대륙": "남미", "국가": "브라질"},
    "상파울루": {"대륙": "남미", "국가": "브라질"},
    "부에노스아이레스": {"대륙": "남미", "국가": "아르헨티나"},
    "리마": {"대륙": "남미", "국가": "페루"},
    "산티아고": {"대륙": "남미", "국가": "칠레"},
    "보고타": {"대륙": "남미", "국가": "콜롬비아"},
    "키토": {"대륙": "남미", "국가": "에콰도르"},
    
    # 오세아니아
    "시드니": {"대륙": "오세아니아", "국가": "호주"},
    "멜버른": {"대륙": "오세아니아", "국가": "호주"},
    "골드코스트": {"대륙": "오세아니아", "국가": "호주"},
    "퍼스": {"대륙": "오세아니아", "국가": "호주"},
    "애들레이드": {"대륙": "오세아니아", "국가": "호주"},
    "케언즈": {"대륙": "오세아니아", "국가": "호주"},
    "오클랜드": {"대륙": "오세아니아", "국가": "뉴질랜드"},
    "크라이스트처치": {"대륙": "오세아니아", "국가": "뉴질랜드"},
    "웰링턴": {"대륙": "오세아니아", "국가": "뉴질랜드"},
    "괌": {"대륙": "오세아니아", "국가": "괌"},
    "사이판": {"대륙": "오세아니아", "국가": "사이판"},
    
    # 중동
    "두바이": {"대륙": "중동", "국가": "UAE"},
    "아부다비": {"대륙": "중동", "국가": "UAE"},
    "도하": {"대륙": "중동", "국가": "카타르"},
    "이스탄불": {"대륙": "중동", "국가": "터키"},
    "텔아비브": {"대륙": "중동", "국가": "이스라엘"},
    "예루살렘": {"대륙": "중동", "국가": "이스라엘"},
    
    # 아프리카
    "카이로": {"대륙": "아프리카", "국가": "이집트"},
    "케이프타운": {"대륙": "아프리카", "국가": "남아프리카공화국"},
    "요하네스버그": {"대륙": "아프리카", "국가": "남아프리카공화국"},
    "카사블랑카": {"대륙": "아프리카", "국가": "모로코"},
    "마라케시": {"대륙": "아프리카", "국가": "모로코"},
    "나이로비": {"대륙": "아프리카", "국가": "케냐"},
    "다르에스살람": {"대륙": "아프리카", "국가": "탄자니아"},
}

# --- 함수 정의 ---

def print_progress(current, total, city_name, status="진행중"):
    percentage = (current / total) * 100
    bar_length = 30
    filled_length = int(bar_length * current // total)
    bar = '█' * filled_length + '░' * (bar_length - filled_length)
    emoji = "🔍" if status == "진행중" else "✅" if status == "완료" else "❌"
    print(f"\n{emoji} 진행률: [{bar}] {percentage:.1f}% ({current}/{total})")
    print(f"📍 현재 작업: {city_name} - {status}")
    print("-" * 50)

def save_intermediate_results(results, city_name):
    if results and CONFIG["SAVE_INTERMEDIATE"]:
        try:
            timestamp = time.strftime('%Y%m%d_%H%M%S')
            temp_filename = f"temp_중간저장_{city_name}_{timestamp}.csv"
            pd.DataFrame(results).to_csv(temp_filename, index=False, encoding='utf-8-sig')
            print(f"  💾 중간 결과 저장: {temp_filename}")
        except Exception as e:
            print(f"  ⚠️ 중간 저장 실패: {e}")

def retry_operation(func, operation_name, max_retries=None):
    if max_retries is None:
        max_retries = CONFIG["RETRY_COUNT"]
    for attempt in range(max_retries):
        try:
            return func()
        except (TimeoutException, NoSuchElementException, WebDriverException) as e:
            if attempt == max_retries - 1:
                print(f"  ❌ {operation_name} 최종 실패: {type(e).__name__}")
                raise e
            print(f"  🔄 {operation_name} 재시도 {attempt + 1}/{max_retries} (오류: {type(e).__name__})")
            time.sleep(2)
        except Exception as e:
            print(f"  ❌ {operation_name} 예상치 못한 오류: {type(e).__name__}: {e}")
            raise e

def get_product_name(driver, config):
    title_selectors = [
        (By.CSS_SELECTOR, "h1"),
        (By.XPATH, "/html/body/div[1]/main/div[1]/section/div[1]/h1")
    ]
    for selector_type, selector_value in title_selectors:
        try:
            return WebDriverWait(driver, config["WAIT_TIMEOUT"]).until(EC.presence_of_element_located((selector_type, selector_value))).text
        except TimeoutException:
            continue
    raise NoSuchElementException("상품명을 찾을 수 없습니다")

def get_price_info(driver, config):
    price_selectors = [
        (By.CSS_SELECTOR, "span.price"),
        (By.XPATH, "//span[contains(text(), '원')]")
    ]
    for selector_type, selector_value in price_selectors:
        try:
            return WebDriverWait(driver, config["WAIT_TIMEOUT"]).until(EC.presence_of_element_located((selector_type, selector_value))).text
        except TimeoutException:
            continue
    return "정보 없음"

def get_rating_info(driver, config):
    rating_selectors = [
        (By.CSS_SELECTOR, "span.rating"),
        (By.XPATH, "//span[contains(@class, 'rating')]")
    ]
    for selector_type, selector_value in rating_selectors:
        try:
            return WebDriverWait(driver, config["WAIT_TIMEOUT"]).until(EC.presence_of_element_located((selector_type, selector_value))).text
        except TimeoutException:
            continue
    return "정보 없음"

def get_review_count_info(driver):
    review_count_selectors = [
        (By.XPATH, "//span[contains(text(), '(') and contains(text(), ')')]"),
        (By.CSS_SELECTOR, "span[class*='rating'] + span")
    ]
    for selector_type, selector_value in review_count_selectors:
        try:
            return WebDriverWait(driver, 3).until(EC.presence_of_element_located((selector_type, selector_value))).text
        except TimeoutException:
            continue
    return ""

def get_language_info(driver):
    language_keywords = ['한국어', '영어', 'Korean', 'English']
    for keyword in language_keywords:
        try:
            return WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.XPATH, f"//span[contains(text(), '{keyword}')]"))).text
        except TimeoutException:
            continue
    return ""

def download_product_image(driver, config, city_name, product_name):
    if not config["SAVE_IMAGES"]:
        return "이미지 저장 비활성화"
    try:
        img_element = WebDriverWait(driver, config["WAIT_TIMEOUT"]).until(EC.presence_of_element_located((By.CSS_SELECTOR, "div[class*='Gallery'] img")))
        img_url = img_element.get_attribute('src')
        if img_url:
            safe_product_name = make_safe_filename(f"{city_name}_{product_name[:config['MAX_PRODUCT_NAME_LENGTH']]}")
            img_download_path = os.path.join(os.getcwd(), "myrealtrip_images", f"{safe_product_name}.png")
            urllib.request.urlretrieve(img_url, img_download_path)
            return img_download_path
    except Exception as e:
        print(f"  ⚠️ 이미지 다운로드 실패: {e}")
    return "다운로드 실패"

def make_safe_filename(filename):
    return "".join([c for c in filename if c.isalnum() or c in (' ', '_')]).rstrip()

def get_city_info(city_name):
    return CITY_INFO.get(city_name, {"대륙": "기타", "국가": "기타"}).values()

def click_product_by_index(driver, config, product_index):
    print(f"  🎯 {product_index + 1}번째 상품 찾는 중...")
    # 더 안정적인 XPath로 상품 목록 전체를 먼저 찾고, 그 안에서 인덱스로 접근
    product_list_xpath = "//div[contains(@class, 'container-xxl')]//a[contains(@href, '/offers/')]"
    try:
        products = WebDriverWait(driver, config["WAIT_TIMEOUT"]).until(
            EC.presence_of_all_elements_located((By.XPATH, product_list_xpath))
        )
        if product_index < len(products):
            product_element = products[product_index]
            driver.execute_script("arguments[0].scrollIntoView(true);", product_element)
            time.sleep(1)
            product_element.click()
            print(f"  ✅ {product_index + 1}번째 상품 클릭 성공!")
            time.sleep(random.uniform(config["MIN_DELAY"], config["MAX_DELAY"]))
            return True
        else:
            raise NoSuchElementException(f"상품 목록에 {product_index + 1}번째 상품이 없습니다. (총 {len(products)}개)")
    except (TimeoutException, Exception) as e:
        print(f"  ❌ 상품 클릭 실패: {type(e).__name__}")
        raise e

def go_back_to_product_list(driver):
    print(f"  ↩️ 상품 목록으로 돌아가는 중...")
    try:
        driver.back()
        time.sleep(random.uniform(3, 5))
        # 페이지 로딩 확인
        WebDriverWait(driver, CONFIG["WAIT_TIMEOUT"]).until(EC.presence_of_element_located((By.CSS_SELECTOR, "input[placeholder*='어디로']")))
        print(f"  ✅ 상품 목록으로 돌아가기 성공!")
    except Exception as e:
        print(f"  ⚠️ 뒤로가기 실패, 검색 페이지로 강제 이동: {type(e).__name__}")
        driver.get("https://www.myrealtrip.com/experiences/")
        time.sleep(random.uniform(3, 5))

# --- 크롬 드라이버 설정 및 실행 ---
all_results = []
chromedriver_autoinstaller.install()
options = uc.ChromeOptions()
options.add_argument(f"--user-agent={CONFIG['USER_AGENT']}")
options.add_argument("--start-maximized")

# 이미지 폴더 생성
if CONFIG["SAVE_IMAGES"]:
    os.makedirs(os.path.join(os.getcwd(), "myrealtrip_images"), exist_ok=True)

try:
    driver = uc.Chrome(options=options)
    print("✅ 크롬 드라이버 실행 성공!")
except Exception as e:
    print(f"\n❌ 크롬 드라이버 실행 실패: {e}")
    print("블로그(https://appfollow.tistory.com/102)를 참고하거나, 크롬 브라우저를 최신 버전으로 업데이트 해보세요.")
    exit()

# --- 메인 크롤링 로직 ---
print(f"🌏 총 {len(CITIES_TO_SEARCH)}개 도시 검색 시작: {', '.join(CITIES_TO_SEARCH)}")

for city_index, city_name in enumerate(CITIES_TO_SEARCH):
    print_progress(city_index, len(CITIES_TO_SEARCH), city_name, "진행중")
    continent, country = get_city_info(city_name)
    
    try:
        # 1. 메인 검색 페이지 이동
        retry_operation(lambda: driver.get("https://www.myrealtrip.com/experiences/"), "메인 페이지 이동")
        
        # 2. 도시 검색
        def search_city():
            search_input = WebDriverWait(driver, CONFIG["WAIT_TIMEOUT"]).until(EC.presence_of_element_located((By.CSS_SELECTOR, "input[placeholder*='어디로']")))
            search_input.clear()
            search_input.send_keys(city_name)
            time.sleep(1)
            search_input.send_keys(Keys.ENTER)
            # 검색 결과 페이지 로딩 확인
            WebDriverWait(driver, CONFIG["WAIT_TIMEOUT"]).until(EC.presence_of_element_located((By.XPATH, f"//h1[contains(text(),'{city_name}')]")))
            return True
        retry_operation(search_city, f"'{city_name}' 검색")

        # 3. 여러 상품 수집
        print(f"  📋 {PRODUCTS_PER_CITY}개 상품 수집 시작...")
        for product_index in range(PRODUCTS_PER_CITY):
            try:
                print(f"\n  🔄 === {product_index + 1}번째 상품 처리 시작 ===")
                
                # 상품 클릭
                retry_operation(lambda: click_product_by_index(driver, CONFIG, product_index), f"{product_index + 1}번째 상품 클릭")

                product_name = get_product_name(driver, CONFIG)
                price = get_price_info(driver, CONFIG)
                grade_review = get_rating_info(driver, CONFIG)
                review_count = get_review_count_info(driver)
                language = get_language_info(driver)
                img_path = download_product_image(driver, CONFIG, city_name, product_name)
                current_url = driver.current_url

                result = {
                    '번호': len(all_results) + 1, '대륙': continent, '국가': country, '도시': city_name,
                    '상품순서': product_index + 1, '상품명': product_name, '가격': price, '평점': grade_review,
                    '리뷰수': review_count, '언어': language, '이미지_경로': img_path, 'URL': current_url,
                    '수집_시간': time.strftime('%Y-%m-%d %H:%M:%S'), '상태': '완전수집'
                }
                all_results.append(result)
                print(f"  ✅ '{product_name[:30]}...' 정보 수집 완료")

                # 목록으로 돌아가기 (마지막 상품이 아닐 경우)
                if product_index < PRODUCTS_PER_CITY - 1:
                    go_back_to_product_list(driver)

            except Exception as e:
                print(f"  ❌ {product_index + 1}번째 상품 처리 중 오류 발생: {e}")
                if product_index < PRODUCTS_PER_CITY - 1:
                    try:
                        go_back_to_product_list(driver)
                    except Exception as back_e:
                        print(f"  ⚠️ 목록으로 복귀 실패, 다음 도시로 넘어갑니다: {back_e}")
                        break # 현재 도시의 루프를 중단
                continue # 다음 상품으로 진행
        
        save_intermediate_results(all_results, f"{city_name}_완료")
        print_progress(city_index + 1, len(CITIES_TO_SEARCH), city_name, "완료")

    except Exception as e:
        print(f"❌ '{city_name}' 도시 전체 처리 실패: {e}")
        print_progress(city_index + 1, len(CITIES_TO_SEARCH), city_name, "실패")
        continue

# --- 최종 결과 저장 및 종료 ---
print("\n" + "="*60 + "\n🎉 모든 도시 검색 완료! 🎉\n" + "="*60)

if all_results:
    df = pd.DataFrame(all_results)
    timestamp = time.strftime('%Y%m%d_%H%M%S')
    filename = f"myrealtrip_최종결과_{timestamp}.csv"
    df.to_csv(filename, index=False, encoding='utf-8-sig')
    print(f"💾 최종 결과 {len(all_results)}개가 '{filename}' 파일로 저장되었습니다!")
    print(df.head().to_string())
else:
    print("❌ 수집된 결과가 없습니다.")

driver.quit()
print("\n🚪 웹드라이버를 종료했습니다. 모든 작업 완료!")

✅ 크롬 드라이버 실행 성공!
🌏 총 2개 도시, 도시별 최대 3개 상품 검색 시작!

🔍 진행률: [░░░░░░░░░░░░░░░░░░░░░░░░░] 0.0% (0/2)
📍 현재 작업: 방콕 - 진행중
--------------------------------------------------
❌ 방콕 도시 처리 중 심각한 오류 발생: TimeoutException

❌ 진행률: [████████████░░░░░░░░░░░░░] 50.0% (1/2)
📍 현재 작업: 방콕 - 실패
--------------------------------------------------

🔍 진행률: [████████████░░░░░░░░░░░░░] 50.0% (1/2)
📍 현재 작업: 파리 - 진행중
--------------------------------------------------
❌ 파리 도시 처리 중 심각한 오류 발생: TimeoutException

❌ 진행률: [█████████████████████████] 100.0% (2/2)
📍 현재 작업: 파리 - 실패
--------------------------------------------------

🚪 웹드라이버가 정상적으로 종료되었습니다.

🏁 크롤링 완료!
✅ 성공: 0개 도시
❌ 실패: 2개 도시
📊 성공률: 0.0%
🎯 모든 작업이 완료되었습니다!
