In [None]:
# 이벤트명, 기간 크롤링

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import requests
import time
import os
import pandas as pd

def crawl_event_page(url):
    save_dir = "event_images"
    os.makedirs(save_dir, exist_ok=True)

    driver = webdriver.Chrome()
    driver.get(url)
    wait = WebDriverWait(driver, 5)

    data = []
    image_count = 1

    try:
        while True:
            print(f"📄 페이지 크롤링 중... (현재 이미지 수: {image_count - 1})")

            # 스크롤 유도
            driver.execute_script("window.scrollTo(0, 0);")
            time.sleep(1)
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(2)

            # 페이지 소스 파싱
            soup = BeautifulSoup(driver.page_source, 'html.parser')
            event_blocks = soup.select('div.event_area')  # 🔹 핵심: 한 블록 = 하나의 이벤트

            for block in event_blocks:
                # 이벤트명
                name_tag = block.select_one('div.event_name')
                period_tag = block.select_one('div.event_period')
                img_tag = block.find('img', attrs={'loading': 'lazy'})

                if not (name_tag and period_tag and img_tag):
                    continue

                event_name = name_tag.get_text(strip=True)
                period = period_tag.get_text(strip=True)
                img_url = img_tag.get('src') or img_tag.get('data-src')

                if not img_url:
                    continue

                # URL 정제
                if img_url.startswith('//'):
                    img_url = 'https:' + img_url
                elif img_url.startswith('/'):
                    base_url = '/'.join(url.split('/')[:3])
                    img_url = base_url + img_url

                # 이미지 저장
                img_name = f"image_{image_count:03d}.jpg"
                try:
                    res = requests.get(img_url)
                    if res.status_code == 200:
                        with open(os.path.join(save_dir, img_name), 'wb') as f:
                            f.write(res.content)
                        print(f"📸 저장됨: {img_name}")
                    else:
                        print(f"⚠️ 다운로드 실패: {img_url}")
                except Exception as e:
                    print(f"❌ 이미지 저장 실패: {e}")

                # 데이터 추가
                data.append({
                    '이미지명': img_name,
                    '이벤트명': event_name,
                    '증정품': '',
                    '기간': period
                })
                image_count += 1

            # 다음 페이지 이동
            try:
                next_btn = wait.until(
                    EC.element_to_be_clickable((By.CSS_SELECTOR, 'button.btn_page.next'))
                )
                next_btn.click()
                driver.execute_script("window.scrollTo(0, 0);")
                time.sleep(2)
                driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
                time.sleep(2)
            except:
                print("📌 다음 페이지 없음. 종료합니다.")
                break

    finally:
        driver.quit()

        # 결과 저장
        df = pd.DataFrame(data)
        df = df[['이미지명', '이벤트명', '증정품', '기간']]
        df.to_csv('이벤트정보.csv', index=False, encoding='utf-8-sig')
        print(f"\n✅ 크롤링 완료! 총 {len(df)}건 저장 → 이벤트정보.csv")

if __name__ == "__main__":
    crawl_event_page("https://event.kyobobook.co.kr/")


In [None]:
import pandas as pd
kb_event = pd.read_csv('이벤트정보.csv')

In [None]:
kb_event

In [None]:
# 제미나이로 이미지 내 정보 추출

import google.generativeai as genai
from PIL import Image

# API 키 목록
API_KEYS = [
    "AIzaSyBcHB5SD3c5RyjVFKuuT0_Erwv6mCM3kjw",
    "AIzaSyB03zq8mm1KFOG46lbif0xEWGr81Ta0RDw",
    "AIzaSyDIS5FvvjR3E87SYW2KQJeNBAoNL9Eunuc"
]
key_index = 0  # 현재 키 인덱스

def init_gemini(api_key):
    genai.configure(api_key=api_key)
    return genai.GenerativeModel('gemini-2.0-flash-001')

model = init_gemini(API_KEYS[key_index])

def switch_key():
    global key_index, model
    key_index = (key_index + 1) % len(API_KEYS)
    print(f"⚠️ 키 교체됨 → {key_index+1}번째 API 키 사용")
    model = init_gemini(API_KEYS[key_index])

def chat_with_gemini(model, prompt, image_path=None, retry=3):
    for attempt in range(retry):
        try:
            if image_path:
                img = Image.open(image_path)
                response = model.generate_content([prompt, img])
            else:
                response = model.generate_content(prompt)
            return response.text
        except Exception as e:
            print(f"🔥 오류 발생: {str(e)[:50]}...")
            switch_key()
    return "[ERROR] 모든 API 키 실패"  # ✅ 여긴 그대로 OK


In [None]:
prompt = '''이미지에 적힌 내용을 기반으로 이벤트의 증정내용만 추출해줘.

다음과 같은 형식으로 결과를 정리해줘:
[{"증정내용": ""}]

주의: json이라는 단어를 출력하지 말고, 위와 같은 형식 그대로 반환해줘.'''

In [None]:
import os

# 이미지가 있는 폴더 경로 (노트북과 같은 폴더라면 '.')
folder = '.'

# 이미지 확장자 필터링해서 리스트 만들기
image_files = [f for f in os.listdir(folder) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]

# 반복해서 처리
for filename in image_files:
    print(f'🖼️ 처리 중: {filename}')
    reply = chat_with_gemini(model, prompt, filename)
    print(reply)
    print('-' * 50)

In [None]:
# 맵핑준비

import json

with open('증정내용_딕셔너리.json', 'r', encoding='utf-8') as f:
	data = json.load(f)
data

In [None]:
cleaned_dict = {}

for key, value in data.items():
    # 이미지 파일명 추출
    match = re.search(r'image_\d+\.jpg', key)
    
    # 정상적인 이미지명이고, 값도 비정상 응답이 아닐 때만 추가
    if match and value and '오류 발생' not in value and '이미지에 증정 내용에 대한 정보가 없습니다' not in value:
        cleaned_key = match.group(0)
        cleaned_dict[cleaned_key] = value
        
cleaned_dict

In [None]:
# 오류난 이미지만 다시 추출하기

import re

with open('kbevent.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# 오류 발생 이후 이미지명 추출
pattern = r'🖼️ 처리 중: (image_\d+\.jpg)\n🔥 오류 발생'
failed_images = re.findall(pattern, text)

print(failed_images)

In [None]:
import re
import json

# 1. 실패한 이미지명 추출
with open('kbevent.txt', 'r', encoding='utf-8') as f:
    text = f.read()

pattern = r'🖼️ 처리 중: (image_\d+\.jpg)\n🔥 오류 발생'
failed_images = re.findall(pattern, text)

print(f"🔁 재시도할 이미지 수: {len(failed_images)}")

# 2. 재시도 결과 저장용 딕셔너리
retry_results = {}

# 3. 재실행 루프
for filename in failed_images:
    print(f'🔁 재처리 중: {filename}')
    try:
        reply = chat_with_gemini(model, prompt, filename)
        parsed = json.loads(reply)
        if parsed and isinstance(parsed, list) and '증정내용' in parsed[0]:
            retry_results[filename] = parsed[0]['증정내용']
        else:
            print(f'⚠️ {filename}: 파싱 실패 또는 빈값')
    except Exception as e:
        print(f'❌ {filename}: 에러 발생 - {e}')
    print('-' * 50)

# 4. 결과 저장
with open('재시도_성공결과.json', 'w', encoding='utf-8') as f:
    json.dump(retry_results, f, ensure_ascii=False, indent=2)

print("✅ 재실행 완료. 저장 파일: 재시도_성공결과.json")


In [None]:
import json

with open('재시도_성공결과.json', 'r', encoding='utf-8') as f:
	data2 = json.load(f)
data2

In [None]:
# 기존과 재시도 결과 합치기
full_dict = {**data2, **data}  # retry_dict 값이 우선 덮어짐
full_dict

In [None]:
cleaned_dict3 = {}

for key, value in full_dict.items():
    # 이미지 파일명 추출
    match = re.search(r'image_\d+\.jpg', key)
    
    # 정상적인 이미지명이고, 값도 비정상 응답이 아닐 때만 추가
    if match and value and '오류 발생' not in value and '이미지에 증정 내용에 대한 정보가 없습니다' not in value:
        cleaned_key = match.group(0)
        cleaned_dict3[cleaned_key] = value
        
cleaned_dict3

In [None]:
# map 적용
kb_event['증정내용'] = kb_event['이미지명'].map(cleaned_dict3)
kb_event

In [None]:
kb_event.drop('증정품', axis=1, inplace=True)

In [None]:
kb_event = kb_event[['이벤트명','증정내용','기간', '이미지명']]

In [None]:
kb_event.to_csv('교보이벤트.csv', index=False)

In [1]:
import pandas as pd
kb_event = pd.read_csv('교보이벤트.csv')
kb_event.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 786 entries, 0 to 785
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이벤트명    786 non-null    object
 1   증정내용    570 non-null    object
 2   기간      786 non-null    object
 3   이미지명    786 non-null    object
dtypes: object(4)
memory usage: 24.7+ KB


In [8]:
kb_event.head(20)

Unnamed: 0,이벤트명,증정내용,기간,이미지명
0,『동공이 약사의 알찬 약국』 출간 기념 이벤트,동공이 반창고,2025/05/20 ~ 2025/12/31,image_001.jpg
1,<고등 수학의 신> 구매 이벤트,수학 모눈 메모지 증정,2025/05/20 ~ 2025/08/31,image_002.jpg
2,『속마음을 말해 봐』 출간 기념 배경화면 다운로드 이벤트,배경화면 다운로드,2025/05/20 ~ 2025/06/30,image_003.jpg
3,『판다 요정과 프라이팬 판다』 출간 기념 이벤트,판다츄와 곰곰씨 L자 파일 증정,2025/05/20 ~ 2025/07/31,image_004.jpg
4,《저어새 케이를 찾아서》 출간 기념 이벤트,저어새 그림엽서 2종,2025/05/20 ~ 2025/07/31,image_005.jpg
5,《천재 의사 시건방 3권》 출간 기념 이벤트,시건방 지비츠,2025/05/20 ~ 2025/07/31,image_006.jpg
6,"천계영 작가 데뷔작 <언플러그드 보이 1, 2권 시리즈> 개정판 출간 기념 이벤트",초판 한정 이벤트,2025/05/20 ~ 2025/06/20,image_007.jpg
7,『사랑의 말』 출간 기념 이벤트,미니 필사북,2025/05/20 ~ 2025/06/30,image_008.jpg
8,『예수의 인성』 출간 기념 이벤트,사은품,2025/05/20 ~ 2025/07/31,image_009.jpg
9,"[교보문고 프리미어 셀러] 가치 있는 책, 같이 읽는 책 (2)",,2025/05/20 ~ 2025/07/31,image_010.jpg


In [10]:
kb_event['증정내용'].isna()

0      False
1      False
2      False
3      False
4      False
       ...  
781    False
782    False
783     True
784     True
785     True
Name: 증정내용, Length: 786, dtype: bool

In [13]:
# 1. NaN인 행들의 인덱스를 추출
NaN_idx = kb_event[kb_event['증정내용'].isna()].index

# 2. 해당 인덱스를 drop
kb_event = kb_event.drop(index=NaN_idx)

kb_event

Unnamed: 0,이벤트명,증정내용,기간,이미지명
0,『동공이 약사의 알찬 약국』 출간 기념 이벤트,동공이 반창고,2025/05/20 ~ 2025/12/31,image_001.jpg
1,<고등 수학의 신> 구매 이벤트,수학 모눈 메모지 증정,2025/05/20 ~ 2025/08/31,image_002.jpg
2,『속마음을 말해 봐』 출간 기념 배경화면 다운로드 이벤트,배경화면 다운로드,2025/05/20 ~ 2025/06/30,image_003.jpg
3,『판다 요정과 프라이팬 판다』 출간 기념 이벤트,판다츄와 곰곰씨 L자 파일 증정,2025/05/20 ~ 2025/07/31,image_004.jpg
4,《저어새 케이를 찾아서》 출간 기념 이벤트,저어새 그림엽서 2종,2025/05/20 ~ 2025/07/31,image_005.jpg
...,...,...,...,...
773,서울대학교 한국어 교재,정보 없음,2022/10/25 ~ 2099/10/25,image_774.jpg
775,일본도서로 만나는 최애,정보 없음,2022.05.18 ~ 2022.06.17,image_776.jpg
778,훌륭한 UX에 대한 생각들,개발자 추천도서,2022.02.24 ~ 2022.12.31,image_779.jpg
781,교보문고 시그니처 독서등,시그니처 독서등,2022/12/05 ~ 2023/06/30,image_782.jpg


In [14]:
kb_event.info()

<class 'pandas.core.frame.DataFrame'>
Index: 570 entries, 0 to 782
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이벤트명    570 non-null    object
 1   증정내용    570 non-null    object
 2   기간      570 non-null    object
 3   이미지명    570 non-null    object
dtypes: object(4)
memory usage: 22.3+ KB


In [18]:
Noinfo_idx = kb_event[kb_event['증정내용'] == '정보 없음'].index

kb_event = kb_event.drop(index=Noinfo_idx)

kb_event

Unnamed: 0,이벤트명,증정내용,기간,이미지명
0,『동공이 약사의 알찬 약국』 출간 기념 이벤트,동공이 반창고,2025/05/20 ~ 2025/12/31,image_001.jpg
1,<고등 수학의 신> 구매 이벤트,수학 모눈 메모지 증정,2025/05/20 ~ 2025/08/31,image_002.jpg
2,『속마음을 말해 봐』 출간 기념 배경화면 다운로드 이벤트,배경화면 다운로드,2025/05/20 ~ 2025/06/30,image_003.jpg
3,『판다 요정과 프라이팬 판다』 출간 기념 이벤트,판다츄와 곰곰씨 L자 파일 증정,2025/05/20 ~ 2025/07/31,image_004.jpg
4,《저어새 케이를 찾아서》 출간 기념 이벤트,저어새 그림엽서 2종,2025/05/20 ~ 2025/07/31,image_005.jpg
...,...,...,...,...
767,지적인 셀렉터의 방 - 오롤리데이 롤리 대표,콜라보 박스 50% 할인,2022/11/17~ 2022/12/31,image_768.jpg
768,지적인 셀렉터의 방 - 문명특급 홍민지PD,콜라보 박스 60% 할인,2022/11/17 ~ 2022/12/31,image_769.jpg
770,<중등수학 일차함수 개념이 먼저다> 함수 그래프 노트 증정 이벤트,함수 그래프 노트,2022/11/03 ~ 2024/12/31,image_771.jpg
778,훌륭한 UX에 대한 생각들,개발자 추천도서,2022.02.24 ~ 2022.12.31,image_779.jpg


In [19]:
kb_event.info()

<class 'pandas.core.frame.DataFrame'>
Index: 555 entries, 0 to 781
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이벤트명    555 non-null    object
 1   증정내용    555 non-null    object
 2   기간      555 non-null    object
 3   이미지명    555 non-null    object
dtypes: object(4)
memory usage: 21.7+ KB


In [20]:
kb_event.to_csv('교보이벤트.csv', index=False)