In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import requests, time, os, pandas as pd

def crawl_event_page(url, max_pages=10):
    save_dir = "."  # 이미지 저장 위치: 현재 노트북 폴더
    driver = webdriver.Chrome()
    driver.get(url)
    wait = WebDriverWait(driver, 5)

    data = []
    image_count = 1

    try:
        for page_num in range(1, max_pages + 1):
            print(f"📄 {page_num}페이지 크롤링 중... (현재 이미지 수: {image_count - 1})")
            time.sleep(2)

            soup = BeautifulSoup(driver.page_source, 'html.parser')
            event_blocks = soup.select('li.event_item')

            for block in event_blocks:
                name_tag = block.select_one('h1.book__title')
                period_tag = block.select_one('p.book__author.text_green')
                img_tag = block.select_one('img.event_list_img')

                if not (name_tag and period_tag and img_tag):
                    continue

                event_name = name_tag.get_text(strip=True)
                period = period_tag.get_text(strip=True)
                img_url = img_tag.get('src') or img_tag.get('data-src')

                if not img_url:
                    continue

                if img_url.startswith('//'):
                    img_url = 'https:' + img_url
                elif img_url.startswith('/'):
                    base_url = '/'.join(url.split('/')[:3])
                    img_url = base_url + img_url

                img_name = f"image_{image_count:03d}.jpg"
                try:
                    res = requests.get(img_url)
                    if res.status_code == 200:
                        with open(os.path.join(save_dir, img_name), 'wb') as f:
                            f.write(res.content)
                        print(f"📸 저장됨: {img_name}")
                    else:
                        print(f"⚠️ 다운로드 실패: {img_url}")
                except Exception as e:
                    print(f"❌ 이미지 저장 실패: {e}")

                data.append({
                    '이미지명': img_name,
                    '이벤트명': event_name,
                    '증정품': '',
                    '기간': period
                })
                image_count += 1

            # 다음 페이지 번호 클릭
            try:
                next_xpath = f'//*[@id="content"]/div[2]/div[2]/div/div[2]/div/div/div/div/ul/li[{page_num+1}]/a'
                next_btn = wait.until(EC.element_to_be_clickable((By.XPATH, next_xpath)))
                next_btn.click()
            except:
                print("📌 다음 페이지 없음 또는 클릭 실패. 종료합니다.")
                break

    finally:
        driver.quit()
        df = pd.DataFrame(data)
        df = df[['이미지명', '이벤트명', '증정품', '기간']]
        df.to_csv('이벤트정보.csv', index=False, encoding='utf-8-sig')
        print(f"\n✅ 크롤링 완료! 총 {len(df)}건 저장 → 이벤트정보.csv")

# 실행
crawl_event_page("https://www.ypbooks.co.kr/event/online/event-list?status=1", max_pages=10)


In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from bs4 import BeautifulSoup
import requests, time, os, pandas as pd

def crawl_event_page(url):
    save_dir = "."
    
    options = webdriver.ChromeOptions()
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    # options.add_argument('--headless')
    
    driver = webdriver.Chrome(options=options)
    wait = WebDriverWait(driver, 15)
    driver.get(url)
    time.sleep(5)

    data = []
    image_count = 24
    max_pages = 50
    processed_pages = set()
    consecutive_failures = 0  # 연속 실패 횟수 추적

    def get_current_page(driver):
        try:
            # HTML 구조에 맞는 정확한 선택자들
            selectors = [
                'a[aria-current="page"]',  # 가장 정확한 선택자 (HTML에서 확인됨)
                'a.pagination_page[aria-current="page"]',
                '.pagination .active',
                '.pagination .current',
                'strong.num'
            ]
            
            for selector in selectors:
                try:
                    el = driver.find_element(By.CSS_SELECTOR, selector)
                    page_text = el.text.strip()
                    print(f"🔍 페이지 텍스트 발견: '{page_text}' (선택자: {selector})")
                    if page_text.isdigit():
                        return int(page_text)
                except Exception as sel_e:
                    print(f"⚠️ 선택자 {selector} 실패: {sel_e}")
                    continue
            
            # XPath로도 시도
            xpath_selectors = [
                '//*[@aria-current="page"]',
                '//a[@aria-current="page"]',
                '//strong[contains(@class, "num")]'
            ]
            
            for xpath in xpath_selectors:
                try:
                    el = driver.find_element(By.XPATH, xpath)
                    page_text = el.text.strip()
                    print(f"🔍 XPath로 페이지 텍스트 발견: '{page_text}' (XPath: {xpath})")
                    if page_text.isdigit():
                        return int(page_text)
                except Exception as xpath_e:
                    print(f"⚠️ XPath {xpath} 실패: {xpath_e}")
                    continue
            
            # 모든 pagination_page 링크를 찾아서 aria-current가 있는 것 찾기
            try:
                all_page_links = driver.find_elements(By.CSS_SELECTOR, 'a.pagination_page, a[class*="pagination"]')
                print(f"🔍 찾은 페이지 링크 수: {len(all_page_links)}")
                for link in all_page_links:
                    aria_current = link.get_attribute('aria-current')
                    if aria_current == 'page':
                        page_text = link.text.strip()
                        print(f"🎯 aria-current='page' 링크 발견: '{page_text}'")
                        if page_text.isdigit():
                            return int(page_text)
            except Exception as all_e:
                print(f"⚠️ 모든 페이지 링크 검사 실패: {all_e}")
            
            print("⚠️ 현재 페이지 번호를 찾을 수 없습니다.")
            return 1  # 기본값을 1로 설정 (대신 -1)
            
        except Exception as e:
            print(f"❌ 페이지 번호 추출 중 오류: {e}")
            return 1

    def get_next_button(driver):
        """HTML 구조에 맞는 다음 버튼 찾기"""
        
        # 방법 1: pagination_btn--next 클래스로 다음 버튼 찾기 (가장 정확)
        try:
            next_btn = driver.find_element(By.CSS_SELECTOR, 'a.pagination_btn.pagination_btn--next')
            if next_btn.is_enabled() and next_btn.is_displayed():
                # href가 javascript:;가 아닌지 확인
                href = next_btn.get_attribute('href')
                if href and 'javascript:' not in href:
                    print("✅ pagination_btn--next 다음 버튼 발견")
                    return next_btn
        except:
            pass
        
        # 방법 2: aria-label="다음"으로 찾기
        try:
            next_btn = driver.find_element(By.XPATH, '//a[@aria-label="다음"]')
            if next_btn.is_enabled() and next_btn.is_displayed():
                print("✅ aria-label='다음' 버튼 발견")
                return next_btn
        except:
            pass
        
        # 방법 3: 현재 페이지 다음 번호 링크 직접 찾기
        current_page = get_current_page(driver)
        if current_page != -1:
            next_page = current_page + 1
            try:
                # 정확한 선택자로 다음 페이지 링크 찾기
                next_page_link = driver.find_element(
                    By.XPATH, f'//a[@class="pagination_page" and text()="{next_page}"]'
                )
                if next_page_link.is_enabled() and next_page_link.is_displayed():
                    print(f"✅ 페이지 {next_page} 링크 발견")
                    return next_page_link
            except:
                pass
        
        # 방법 4: 현재 활성 페이지 이후의 모든 숫자 링크 중 첫 번째
        try:
            current_page = get_current_page(driver)
            if current_page != -1:
                all_page_links = driver.find_elements(By.CSS_SELECTOR, 'a.pagination_page')
                for link in all_page_links:
                    try:
                        page_num = int(link.text.strip())
                        if page_num == current_page + 1:
                            if link.is_enabled() and link.is_displayed():
                                print(f"✅ 다음 페이지 ({page_num}) 링크 발견")
                                return link
                    except:
                        continue
        except:
            pass
        
        # 방법 5: 페이지네이션 영역에서 "다음" 텍스트 또는 > 기호 찾기
        next_patterns = [
            '//a[contains(@class, "pagination") and (contains(text(), "다음") or contains(text(), ">"))]',
            '//*[contains(@class, "pagination")]//a[contains(@aria-label, "다음")]',
            '//*[contains(@class, "pagination")]//a[contains(@title, "다음")]'
        ]
        
        for pattern in next_patterns:
            try:
                btn = driver.find_element(By.XPATH, pattern)
                if btn.is_enabled() and btn.is_displayed():
                    print("✅ 패턴 매칭으로 다음 버튼 발견")
                    return btn
            except:
                continue
        
        return None

    def click_next_safely(next_btn, driver):
        """JavaScript 기반 페이지네이션을 위한 특별한 클릭 처리"""
        try:
            current_page = get_current_page(driver)
            print(f"🔄 현재 페이지: {current_page}")
            
            # 버튼이 화면에 보이도록 스크롤
            driver.execute_script("arguments[0].scrollIntoView({block: 'center'});", next_btn)
            time.sleep(2)
            
            # href 속성 확인
            href = next_btn.get_attribute('href')
            print(f"🔗 버튼 href: {href}")
            
            # onclick 이벤트나 다른 속성들도 확인
            onclick = next_btn.get_attribute('onclick')
            data_attrs = {
                'data-page': next_btn.get_attribute('data-page'),
                'data-url': next_btn.get_attribute('data-url'),
                'data-href': next_btn.get_attribute('data-href')
            }
            print(f"🔗 onclick: {onclick}")
            print(f"🔗 data 속성들: {data_attrs}")
            
            # 여러 방법으로 클릭 시도
            success = False
            
            # 방법 1: 더 강력한 JavaScript 클릭
            try:
                print("👆 방법 1: 강력한 JavaScript 클릭")
                # 이벤트 강제 발생
                driver.execute_script("""
                    var element = arguments[0];
                    var event = new MouseEvent('click', {
                        view: window,
                        bubbles: true,
                        cancelable: true
                    });
                    element.dispatchEvent(event);
                """, next_btn)
                
                # 페이지 변경 대기
                for i in range(12):
                    time.sleep(1)
                    new_page = get_current_page(driver)
                    if new_page > current_page and new_page != current_page:
                        print(f"✅ 방법 1 성공: {current_page} → {new_page}")
                        return True
                    if i % 3 == 0:
                        print(f"⏳ 대기 중... ({i+1}/12초)")
                        
            except Exception as e1:
                print(f"❌ 방법 1 실패: {e1}")
            
            # 방법 2: 직접 클릭 + 페이지 새로고침 감지
            try:
                print("👆 방법 2: 직접 클릭")
                original_page_source_length = len(driver.page_source)
                
                next_btn.click()
                
                # 페이지 내용 변경 감지
                for i in range(10):
                    time.sleep(1)
                    new_page = get_current_page(driver)
                    new_page_source_length = len(driver.page_source)
                    
                    # 페이지 번호가 변경되었거나 페이지 내용이 크게 바뀌었다면
                    if (new_page > current_page) or (abs(new_page_source_length - original_page_source_length) > 1000):
                        print(f"✅ 방법 2 성공: {current_page} → {new_page}")
                        return True
                        
            except Exception as e2:
                print(f"❌ 방법 2 실패: {e2}")
            
            # 방법 3: 브라우저 기본 동작 시뮬레이션
            try:
                print("👆 방법 3: 브라우저 동작 시뮬레이션")
                from selenium.webdriver.common.action_chains import ActionChains
                
                actions = ActionChains(driver)
                actions.move_to_element(next_btn).click().perform()
                
                for i in range(8):
                    time.sleep(1)
                    new_page = get_current_page(driver)
                    if new_page > current_page:
                        print(f"✅ 방법 3 성공: {current_page} → {new_page}")
                        return True
                        
            except Exception as e3:
                print(f"❌ 방법 3 실패: {e3}")
            
            # 방법 4: 강제 페이지 새로고침 후 다음 페이지 번호로 이동 시도
            if current_page > 0:
                try:
                    print("👆 방법 4: URL 조작으로 다음 페이지 이동")
                    current_url = driver.current_url
                    
                    # URL에 페이지 파라미터가 있는지 확인
                    if 'page=' in current_url:
                        import re
                        new_url = re.sub(r'page=\d+', f'page={current_page + 1}', current_url)
                    else:
                        # 페이지 파라미터 추가
                        separator = '&' if '?' in current_url else '?'
                        new_url = f"{current_url}{separator}page={current_page + 1}"
                    
                    print(f"🚀 URL 이동: {new_url}")
                    driver.get(new_url)
                    time.sleep(5)
                    
                    final_page = get_current_page(driver)
                    if final_page == current_page + 1:
                        print(f"✅ 방법 4 성공: {current_page} → {final_page}")
                        return True
                        
                except Exception as e4:
                    print(f"❌ 방법 4 실패: {e4}")
            
            print("❌ 모든 클릭 방법 실패")
            return False
            
        except Exception as e:
            print(f"❌ 클릭 처리 중 전체 오류: {e}")
            return False

    try:
        page_count = 0
        while page_count < max_pages:
            cur_page = get_current_page(driver)
            print(f"\n📄 {cur_page}페이지 크롤링 중... (현재 이미지 수: {image_count - 1})")
            
            # 무한루프 방지: 이미 처리한 페이지 확인
            if cur_page != -1 and cur_page in processed_pages:
                print(f"⚠️ 이미 처리한 페이지({cur_page}) 감지. 종료합니다.")
                break
            
            if cur_page > 0:  # 유효한 페이지 번호만 추가
                processed_pages.add(cur_page)

            # 페이지 완전 로딩 대기
            wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "li.event_item")))
            time.sleep(2)
            
            soup = BeautifulSoup(driver.page_source, 'html.parser')
            event_blocks = soup.select('li.event_item')
            
            print(f"🔍 찾은 이벤트 블록 수: {len(event_blocks)}")
            
            if not event_blocks:
                consecutive_failures += 1
                if consecutive_failures >= 3:
                    print("⚠️ 연속으로 이벤트 블록을 찾을 수 없습니다. 종료합니다.")
                    break
                print("⚠️ 이벤트 블록 없음. 다음 페이지로...")
            else:
                consecutive_failures = 0  # 성공하면 실패 횟수 리셋

            # 데이터 수집
            for i, block in enumerate(event_blocks):
                name_tag = block.select_one('h1.book__title')
                period_tag = block.select_one('p.book__author.text_green')
                img_tag = block.select_one('img.event_list_img')

                if not (name_tag and period_tag and img_tag):
                    continue

                event_name = name_tag.get_text(strip=True)
                period = period_tag.get_text(strip=True)
                img_url = img_tag.get('src') or img_tag.get('data-src')

                if not img_url:
                    continue

                # URL 정규화
                if img_url.startswith('//'):
                    img_url = 'https:' + img_url
                elif img_url.startswith('/'):
                    base_url = '/'.join(url.split('/')[:3])
                    img_url = base_url + img_url

                # 이미지 다운로드
                img_name = f"image_{image_count:03d}.jpg"
                try:
                    res = requests.get(img_url, timeout=10)
                    if res.status_code == 200:
                        with open(os.path.join(save_dir, img_name), 'wb') as f:
                            f.write(res.content)
                        print(f"📸 저장됨: {img_name} - {event_name[:30]}")
                    else:
                        print(f"⚠️ 다운로드 실패 ({res.status_code}): {img_url}")
                except Exception as e:
                    print(f"❌ 이미지 저장 실패: {e}")

                data.append({
                    '이미지명': img_name,
                    '이벤트명': event_name,
                    '증정품': '',
                    '기간': period
                })
                image_count += 1

            # 다음 버튼 처리
            print("🔍 다음 버튼 찾는 중...")
            next_btn = get_next_button(driver)
            
            if next_btn:
                print("✅ 다음 버튼 발견")
                if click_next_safely(next_btn, driver):
                    # 페이지 변경 확인
                    time.sleep(3)
                    new_page = get_current_page(driver)
                    print(f"📄 페이지 변경: {cur_page} → {new_page}")
                    
                    # 페이지가 변경되지 않았거나 뒤로 갔다면 종료
                    if new_page <= cur_page and new_page != -1:
                        print("📌 페이지가 진행되지 않음. 종료합니다.")
                        break
                else:
                    print("❌ 다음 버튼 클릭 실패. 종료합니다.")
                    break
            else:
                print("📌 다음 버튼을 찾을 수 없습니다. 마지막 페이지로 판단하여 종료합니다.")
                
                # 디버깅: 페이지네이션 구조 출력
                try:
                    print("\n🔍 페이지네이션 디버깅 정보:")
                    # 현재 페이지 정보
                    current_page_elem = driver.find_element(By.CSS_SELECTOR, 'a[aria-current="page"]')
                    print(f"현재 페이지: {current_page_elem.text}")
                    
                    # 모든 페이지 링크 출력
                    page_links = driver.find_elements(By.CSS_SELECTOR, 'a.pagination_page')
                    page_numbers = [link.text for link in page_links if link.text.isdigit()]
                    print(f"사용 가능한 페이지: {', '.join(page_numbers)}")
                    
                    # 다음/마지막 버튼 상태 확인
                    try:
                        next_btn_elem = driver.find_element(By.CSS_SELECTOR, 'a.pagination_btn--next')
                        print(f"다음 버튼 존재: {next_btn_elem.is_displayed()}, 활성화: {next_btn_elem.is_enabled()}")
                        print(f"다음 버튼 href: {next_btn_elem.get_attribute('href')}")
                    except:
                        print("다음 버튼 없음")
                    
                    try:
                        last_btn_elem = driver.find_element(By.CSS_SELECTOR, 'a.pagination_btn--last')
                        print(f"마지막 버튼 존재: {last_btn_elem.is_displayed()}, 활성화: {last_btn_elem.is_enabled()}")
                    except:
                        print("마지막 버튼 없음")
                        
                except Exception as debug_e:
                    print(f"디버깅 중 오류: {debug_e}")
                    # 기본 페이지네이션 HTML 출력
                    try:
                        pagination_elements = driver.find_elements(
                            By.XPATH, 
                            '//*[contains(@class, "pagination")]'
                        )
                        for elem in pagination_elements:
                            print("페이지네이션 HTML:", elem.get_attribute('outerHTML')[:500])
                    except:
                        print("페이지네이션 요소를 찾을 수 없습니다.")
                
                break
            
            page_count += 1

    except Exception as e:
        print(f"❌ 크롤링 중 오류 발생: {e}")
        import traceback
        traceback.print_exc()
        
    finally:
        driver.quit()
        
        if data:
            df = pd.DataFrame(data)
            df = df[['이미지명', '이벤트명', '증정품', '기간']]
            df.to_csv('이벤트정보2.csv', index=False, encoding='utf-8-sig')
            print(f"\n✅ 크롤링 완료! 총 {len(df)}건 저장 → 이벤트정보2.csv")
            print(f"📊 처리된 페이지: {sorted(processed_pages)}")
        else:
            print("❌ 수집된 데이터가 없습니다.")

# 실행
if __name__ == "__main__":
    crawl_event_page("https://www.ypbooks.co.kr/event/online/event-list?status=2")

In [None]:
# 제미나이로 이미지 내 정보 추출

import google.generativeai as genai
from PIL import Image

# API 키 목록
API_KEYS = [
    "AIzaSyBcHB5SD3c5RyjVFKuuT0_Erwv6mCM3kjw",
    "AIzaSyB03zq8mm1KFOG46lbif0xEWGr81Ta0RDw",
    "AIzaSyDIS5FvvjR3E87SYW2KQJeNBAoNL9Eunuc"
]
key_index = 0  # 현재 키 인덱스

def init_gemini(api_key):
    genai.configure(api_key=api_key)
    return genai.GenerativeModel('gemini-2.0-flash-001')

model = init_gemini(API_KEYS[key_index])

def switch_key():
    global key_index, model
    key_index = (key_index + 1) % len(API_KEYS)
    print(f"⚠️ 키 교체됨 → {key_index+1}번째 API 키 사용")
    model = init_gemini(API_KEYS[key_index])

def chat_with_gemini(model, prompt, image_path=None, retry=3):
    for attempt in range(retry):
        try:
            if image_path:
                img = Image.open(image_path)
                response = model.generate_content([prompt, img])
            else:
                response = model.generate_content(prompt)
            return response.text
        except Exception as e:
            print(f"🔥 오류 발생: {str(e)[:50]}...")
            switch_key()
    return "[ERROR] 모든 API 키 실패"  # ✅ 여긴 그대로 OK


In [None]:
prompt = '''이미지에 적힌 내용을 기반으로 이벤트의 증정내용만 추출해줘.

다음과 같은 형식으로 결과를 정리해줘:
[{"증정내용": ""}]

주의: json이라는 단어를 출력하지 말고, 위와 같은 형식 그대로 반환해줘.'''

In [None]:
import os

# 이미지가 있는 폴더 경로 (노트북과 같은 폴더라면 '.')
folder = '.'

# 이미지 확장자 필터링해서 리스트 만들기
image_files = [f for f in os.listdir(folder) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]

# 반복해서 처리
for filename in image_files:
    print(f'🖼️ 처리 중: {filename}')
    reply = chat_with_gemini(model, prompt, filename)
    print(reply)
    print('-' * 50)

In [None]:
import re
import json

# 1. 텍스트 파일 읽기
with open("영풍이미지크롤링.txt", "r", encoding="utf-8-sig") as f:
    raw_text = f.read()

# 2. 결과 저장용
results = {}

# 3. 블록 기준으로 분할
blocks = raw_text.split("🖼️ 처리 중: ")
for block in blocks:
    if not block.strip():
        continue

    lines = block.strip().split('\n')
    image_line = lines[0].strip()
    image_name = image_line if image_line.endswith(".jpg") else None

    if not image_name:
        continue

    # JSON-like 블록 찾기
    json_match = re.search(r'\[.*?\]', block, re.DOTALL)
    if json_match:
        try:
            json_data = json.loads(json_match.group())
            if isinstance(json_data, list) and len(json_data) > 0:
                first_item = json_data[0]
                content = first_item.get("증정내용", "") or ""
                results[image_name] = content
            else:
                results[image_name] = ""
        except:
            results[image_name] = ""
    else:
        results[image_name] = ""

# 4. 결과 저장
with open("영풍이미지크롤링.json", "w", encoding="utf-8-sig") as f:
    json.dump(results, f, ensure_ascii=False, indent=2)

print(f"✅ 총 {len(results)}개 이미지 정제 완료 → 영풍이미지크롤링.json 저장됨")


In [None]:
# 맵핑준비

import json

with open('영풍이미지크롤링.json', 'r', encoding='utf-8-sig') as f:
	data = json.load(f)
data

In [None]:
cleaned_dict = {}

for key, value in data.items():
    # 이미지 파일명 추출
    match = re.search(r'image_\d+\.jpg', key)
    
    # 정상적인 이미지명이고, 값도 비정상 응답이 아닐 때만 추가
    if match and value and '오류 발생' not in value and '이미지에 증정 내용에 대한 정보가 없습니다' not in value:
        cleaned_key = match.group(0)
        cleaned_dict[cleaned_key] = value
        
cleaned_dict

In [None]:
import pandas as pd
yp_event = pd.read_csv('이벤트정보2.csv')

In [None]:
# map 적용
yp_event['증정내용'] = yp_event['이미지명'].map(cleaned_dict)
yp_event

In [None]:
yp_event.drop('증정품', axis=1, inplace=True)

In [None]:
yp_event.to_csv('영풍이벤트.csv', index=False)

In [None]:
import re

# 1. 텍스트 로드
with open('영풍이미지크롤링.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# 2. 블록 단위로 나누기
blocks = text.split('🖼️ 처리 중: ')[1:]  # 첫 블록은 비어 있으니 제외

# 3. 오류난 이미지만 추출
failed_images = []

for block in blocks:
    lines = block.strip().split('\n')
    image_line = lines[0].strip()
    image_name = image_line if image_line.endswith('.jpg') else None

    # 전체 키 실패 패턴 포함 여부 확인
    if '[ERROR] 모든 API 키 실패' in block:
        failed_images.append(image_name)

print(f"❌ 총 실패 이미지 수: {len(failed_images)}")
print(failed_images)

In [None]:
import google.generativeai as genai
from PIL import Image
import os
import json
import time

# -----------------------
# 1. 초기화
API_KEYS = [
    "AIzaSyBcHB5SD3c5RyjVFKuuT0_Erwv6mCM3kjw",
    "AIzaSyB03zq8mm1KFOG46lbif0xEWGr81Ta0RDw",
    "AIzaSyDIS5FvvjR3E87SYW2KQJeNBAoNL9Eunuc"
]

def init_gemini(api_key):
    genai.configure(api_key=api_key)
    return genai.GenerativeModel('gemini-2.0-flash-001')

# -----------------------
# 2. 응답 함수 (파일 존재 확인 추가)
def chat_with_gemini(model, prompt, image_path):
    try:
        # 파일 존재 확인
        if not os.path.exists(image_path):
            return f"[ERROR] 파일이 존재하지 않습니다: {image_path}"
        
        img = Image.open(image_path)
        response = model.generate_content([prompt, img])
        return response.text
    except Exception as e:
        return f"[ERROR] {e}"

# -----------------------
# 3. 프롬프트
def get_prompt(image_name):
    return f'''
이미지에서 증정 내용을 추출해줘.

다음 형식처럼 반환해줘:
{{
  "이미지명": "{image_name}",
  "증정내용": "..."
}}

정보가 없으면 증정내용은 빈 문자열("")로 표시해줘.
반드시 JSON 형식으로만 답변하고, 마크다운 코드블록 없이 반환해줘.
'''

# -----------------------
# 4. 실패 이미지 리스트 (예시)
failed_images

# -----------------------
# 5. 이미지 폴더 및 파일 확인
image_folder = "."  # 현재 디렉토리 (노트북과 같은 위치)

# 실제 존재하는 이미지 파일만 필터링
existing_images = []
missing_images = []

for image_name in failed_images:
    image_path = os.path.join(image_folder, image_name)
    if os.path.exists(image_path):
        existing_images.append(image_name)
    else:
        missing_images.append(image_name)

print(f"✅ 존재하는 이미지: {len(existing_images)}개")
print(f"❌ 없는 이미지: {len(missing_images)}개")

if missing_images:
    print("없는 이미지들:")
    for img in missing_images:
        print(f"  - {img}")

if not existing_images:
    print("처리할 수 있는 이미지가 없습니다.")
    exit()

# -----------------------
# 6. Gemini 순환 및 실행
result_dict = {}
api_index = 0
model = init_gemini(API_KEYS[api_index])

for i, image_name in enumerate(existing_images, 1):
    image_path = os.path.join(image_folder, image_name)
    print(f"🔄 [{i}/{len(existing_images)}] 재시도 중: {image_name}")

    success = False
    for attempt in range(len(API_KEYS)):
        reply = chat_with_gemini(model, get_prompt(image_name), image_path)

        if "[ERROR]" not in reply:
            success = True
            break
        else:
            print(f"⚠️ 오류 (시도 {attempt+1}): {reply[:60]}...")
            if attempt < len(API_KEYS) - 1:  # 마지막 시도가 아니라면
                print("→ 다음 키로 전환")
                api_index = (api_index + 1) % len(API_KEYS)
                model = init_gemini(API_KEYS[api_index])
                time.sleep(1)

    # 응답 처리
    if success:
        try:
            # 원본 응답 확인용 출력 (디버깅)
            print(f"📝 원본 응답 (처음 200자): {reply[:200]}")
            
            # JSON 파싱 개선
            clean = reply.strip().strip('` \n')
            if clean.startswith('```json'):
                clean = clean[7:]
            if clean.startswith('```'):
                clean = clean[3:]
            if clean.endswith('```'):
                clean = clean[:-3]
            clean = clean.strip()
            
            print(f"🔧 정제된 응답: {clean[:100]}")
            
            # 여러 방법으로 파싱 시도
            parsed_data = None
            
            # 방법 1: JSON 파싱
            try:
                parsed_data = json.loads(clean)
                print("✅ JSON 파싱 성공")
            except json.JSONDecodeError:
                print("❌ JSON 파싱 실패, 다른 방법 시도")
            
            # 방법 2: 중괄호 찾아서 추출
            if not parsed_data:
                try:
                    import re
                    # 중괄호로 둘러싸인 부분 찾기
                    match = re.search(r'\{[^}]*\}', clean, re.DOTALL)
                    if match:
                        json_str = match.group(0)
                        parsed_data = json.loads(json_str)
                        print("✅ 정규식 JSON 파싱 성공")
                except:
                    print("❌ 정규식 JSON 파싱 실패")
            
            # 방법 3: eval 시도 (마지막 수단)
            if not parsed_data:
                try:
                    parsed_data = eval(clean)
                    print("✅ eval 파싱 성공")
                except:
                    print("❌ eval 파싱 실패")
            
            # 방법 4: 단순 텍스트에서 증정내용 추출
            if not parsed_data:
                try:
                    # "증정내용"이라는 키워드 뒤의 내용 추출
                    if "증정내용" in reply:
                        lines = reply.split('\n')
                        for line in lines:
                            if "증정내용" in line and ":" in line:
                                content = line.split(":", 1)[1].strip().strip('"\'')
                                result_dict[image_name] = content
                                print(f"✅ 텍스트 추출 성공: {content[:50]}")
                                break
                        else:
                            result_dict[image_name] = reply.strip()  # 전체 응답 저장
                            print("⚠️ 키워드 찾기 실패, 전체 응답 저장")
                    else:
                        result_dict[image_name] = reply.strip()  # 전체 응답 저장
                        print("⚠️ '증정내용' 키워드 없음, 전체 응답 저장")
                except:
                    result_dict[image_name] = ""
                    print("❌ 텍스트 추출 실패")
            else:
                # 정상 파싱된 경우
                if isinstance(parsed_data, dict):
                    # 이미지명을 실제 파일명으로 강제 교체
                    parsed_data["이미지명"] = image_name
                    result_dict[image_name] = parsed_data.get("증정내용", "")
                else:
                    result_dict[image_name] = str(parsed_data)
                print(f"✅ 파싱 성공: {image_name}")
                
        except Exception as e:
            print(f"⚠️ 전체 파싱 과정 실패: {e}")
            # 원본 응답이라도 저장
            result_dict[image_name] = reply if reply else ""
    else:
        print(f"❌ 모든 시도 실패: {image_name}")
        result_dict[image_name] = ""

    time.sleep(4)

# -----------------------
# 7. 저장 및 통계
with open("재시도_결과.json", "w", encoding="utf-8-sig") as f:
    json.dump(result_dict, f, ensure_ascii=False, indent=2)

# 통계 출력
success_count = sum(1 for v in result_dict.values() if v)
print(f"\n📊 재시도 결과:")
print(f"  - 전체 처리: {len(result_dict)}개")
print(f"  - 성공: {success_count}개")
print(f"  - 실패: {len(result_dict) - success_count}개")
print(f"  - 없는 파일: {len(missing_images)}개")
print("✅ 재시도 완료 → 재시도_결과.json 저장됨")

# 실패한 이미지 목록도 저장
if missing_images:
    with open("없는_파일_목록.txt", "w", encoding="utf-8") as f:
        for img in missing_images:
            f.write(f"{img}\n")
    print("📝 없는 파일 목록 → 없는_파일_목록.txt 저장됨")

In [None]:
import json

with open('재시도_결과.json', 'r', encoding='utf-8-sig') as f:
	data2 = json.load(f)
data2

In [None]:
# 기존과 재시도 결과 합치기
full_dict = {**data, **data2}  # retry_dict 값이 우선 덮어짐
full_dict

In [None]:
cleaned_dict2 = {}

for key, value in full_dict.items():
    # 이미지 파일명 추출
    match = re.search(r'image_\d+\.jpg', key)
    
    # 정상적인 이미지명이고, 값도 비정상 응답이 아닐 때만 추가
    if match and value and '오류 발생' not in value and '이미지에 증정 내용에 대한 정보가 없습니다' not in value:
        cleaned_key = match.group(0)
        cleaned_dict2[cleaned_key] = value
        
cleaned_dict2

In [None]:
import pandas as pd

yp_event = pd.read_csv('영풍이벤트.csv')

In [None]:
# map 적용
yp_event['증정내용'] = yp_event['이미지명'].map(cleaned_dict2)
yp_event

In [None]:
yp_event.to_csv('영풍이벤트.csv', index=False)

In [None]:
import pandas as pd

yp_event = pd.read_csv('영풍이벤트.csv')

In [None]:
yp_event = yp_event[['이벤트명', '증정내용', '기간', '이미지명']]

In [None]:
yp_event

In [None]:
# 1. NaN인 행들의 인덱스를 추출
NaN_idx = yp_event[yp_event['증정내용'].isna()].index

# 2. 해당 인덱스를 drop
yp_event = yp_event.drop(index=NaN_idx)

yp_event.info()

In [None]:
yp_event[yp_event['증정내용'] == '출간기념']

In [None]:
yp_event = yp_event.drop([6, 48, 80, 141, 247])

In [None]:
yp_event.info()

In [None]:
yp_event.to_csv('영풍이벤트.csv', index=False)