## 제미나이로 분석하기

In [1]:
import google.generativeai as genai
from PIL import Image

def init_gemini(api_key):
    genai.configure(api_key=api_key)
    model = genai.GenerativeModel('gemini-2.0-flash-001')  # 이미지 입력 지원 모델
    return model

def chat_with_gemini(model, prompt, image_path=None):
    if image_path:
        # 이미지 파일 열기
        img = Image.open(image_path)
        response = model.generate_content([prompt, img])
    else:
        response = model.generate_content(prompt)
    return response.text

API_KEY = "AIzaSyBcHB5SD3c5RyjVFKuuT0_Erwv6mCM3kjw"  # 발급받은 API 키 입력
model = init_gemini(API_KEY)

In [1]:
prompt_a =  ''' 
이미지들 내의 글자를 인식

# 키
- 이벤트명
- 증정내용
- 기간

형식의 데이터프레임으로 진행.

# '기간' 열은 비워두기

# jason 파일로 반환
**important** jason이라는 것을 명시하지 말 것'''


다른 api

"AIzaSyB03zq8mm1KFOG46lbif0xEWGr81Ta0RDw",
"AIzaSyDIS5FvvjR3E87SYW2KQJeNBAoNL9Eunuc"

# 예사

In [2]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import requests
import time
import os
import pandas as pd

def crawl_event_page(url):
    # 현재 폴더에 이미지 저장
    save_dir = "."
    driver = webdriver.Chrome()
    driver.get(url)
    wait = WebDriverWait(driver, 5)

    data = []
    image_count = 1
    page_count = 1  # 현재 페이지 블록 카운트

    try:
        while True:
            print(f"📄 페이지 크롤링 중... (현재 이미지 수: {image_count - 1})")

            # 스크롤 유도
            driver.execute_script("window.scrollTo(0, 0);")
            time.sleep(1)
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(2)

            # 페이지 소스 파싱
            soup = BeautifulSoup(driver.page_source, 'html.parser')
            event_blocks = soup.select('div.bnSet')

            for block in event_blocks:
                name_tag = block.select_one('span.txt_tit')
                period_tag = block.select_one('span.txt_etc')
                img_tag = block.select_one('img.lazy')

                if not (name_tag and period_tag and img_tag):
                    continue

                event_name = name_tag.get_text(strip=True)
                period = period_tag.get_text(strip=True)
                img_url = img_tag.get('data-original') or img_tag.get('src') or img_tag.get('data-src')

                if not img_url:
                    continue

                if img_url.startswith('//'):
                    img_url = 'https:' + img_url
                elif img_url.startswith('/'):
                    base_url = '/'.join(url.split('/')[:3])
                    img_url = base_url + img_url

                img_name = f"image_{image_count:03d}.jpg"
                try:
                    res = requests.get(img_url)
                    if res.status_code == 200:
                        with open(os.path.join(save_dir, img_name), 'wb') as f:
                            f.write(res.content)
                        print(f"📸 저장됨: {img_name}")
                    else:
                        print(f"⚠️ 다운로드 실패: {img_url}")
                except Exception as e:
                    print(f"❌ 이미지 저장 실패: {e}")

                data.append({
                    '이미지명': img_name,
                    '이벤트명': event_name,
                    '증정내용': '',
                    '기간': period
                })
                image_count += 1

            # 다음 페이지로 넘어가기 위한 XPath (페이지 인덱스에 따라 바뀜)
            try:
                # XPath에서 페이지 넘기는 버튼은 위치가 고정되어 있음
                # 첫 번째 블록: a[10], 이후: a[12]
                xpath_idx = 12 if page_count > 1 else 10
                next_xpath = f'//*[@id="eventBannerList"]/div[2]/a[{xpath_idx}]'

                next_btn = wait.until(
                    EC.element_to_be_clickable((By.XPATH, next_xpath))
                )
                next_btn.click()
                time.sleep(2)
                page_count += 1

            except Exception as e:
                print(f"📌 다음 페이지 없음 또는 오류 발생: {e}")
                break

    finally:
        driver.quit()
        df = pd.DataFrame(data)
        df = df[['이미지명', '이벤트명', '증정내용', '기간']]
        df.to_csv('이벤트정보.csv', index=False, encoding='utf-8-sig')
        print(f"\n✅ 크롤링 완료! 총 {len(df)}건 저장 → 이벤트정보.csv")

if __name__ == "__main__":
    crawl_event_page("https://event.yes24.com/")


📄 페이지 크롤링 중... (현재 이미지 수: 0)
📸 저장됨: image_001.jpg
📸 저장됨: image_002.jpg
📸 저장됨: image_003.jpg
📸 저장됨: image_004.jpg
📸 저장됨: image_005.jpg
📸 저장됨: image_006.jpg
📸 저장됨: image_007.jpg
📸 저장됨: image_008.jpg
📸 저장됨: image_009.jpg
📸 저장됨: image_010.jpg
📸 저장됨: image_011.jpg
📸 저장됨: image_012.jpg
📸 저장됨: image_013.jpg
📸 저장됨: image_014.jpg
📸 저장됨: image_015.jpg
📸 저장됨: image_016.jpg
📸 저장됨: image_017.jpg
📸 저장됨: image_018.jpg
📸 저장됨: image_019.jpg
📸 저장됨: image_020.jpg
📸 저장됨: image_021.jpg
📸 저장됨: image_022.jpg
📸 저장됨: image_023.jpg
📸 저장됨: image_024.jpg
📸 저장됨: image_025.jpg
📸 저장됨: image_026.jpg
📸 저장됨: image_027.jpg
📸 저장됨: image_028.jpg
📸 저장됨: image_029.jpg
📸 저장됨: image_030.jpg
📄 페이지 크롤링 중... (현재 이미지 수: 30)
📸 저장됨: image_031.jpg
📸 저장됨: image_032.jpg
📸 저장됨: image_033.jpg
📸 저장됨: image_034.jpg
📸 저장됨: image_035.jpg
📸 저장됨: image_036.jpg
📸 저장됨: image_037.jpg
📸 저장됨: image_038.jpg
📸 저장됨: image_039.jpg
📸 저장됨: image_040.jpg
📸 저장됨: image_041.jpg
📸 저장됨: image_042.jpg
📸 저장됨: image_043.jpg
📸 저장됨: image_044.jpg
📸 저장됨: image_045.

In [2]:
import pandas as pd
y4_event = pd.read_csv('예사이벤트정보.csv')

In [4]:
# 제미나이로 이미지 내 정보 추출

import google.generativeai as genai
from PIL import Image

# API 키 목록
API_KEYS = [
    "AIzaSyBcHB5SD3c5RyjVFKuuT0_Erwv6mCM3kjw",
    "AIzaSyB03zq8mm1KFOG46lbif0xEWGr81Ta0RDw",
    "AIzaSyDIS5FvvjR3E87SYW2KQJeNBAoNL9Eunuc"
]
key_index = 0  # 현재 키 인덱스

def init_gemini(api_key):
    genai.configure(api_key=api_key)
    return genai.GenerativeModel('gemini-2.0-flash-001')

model = init_gemini(API_KEYS[key_index])

def switch_key():
    global key_index, model
    key_index = (key_index + 1) % len(API_KEYS)
    print(f"⚠️ 키 교체됨 → {key_index+1}번째 API 키 사용")
    model = init_gemini(API_KEYS[key_index])

def chat_with_gemini(model, prompt, image_path=None, retry=3):
    for attempt in range(retry):
        try:
            if image_path:
                img = Image.open(image_path)
                response = model.generate_content([prompt, img])
            else:
                response = model.generate_content(prompt)
            return response.text
        except Exception as e:
            print(f"🔥 오류 발생: {str(e)[:50]}...")
            switch_key()
    return "[ERROR] 모든 API 키 실패"  # ✅ 여긴 그대로 OK


In [5]:
prompt = '''이미지에 적힌 내용을 기반으로 이벤트의 증정내용만 추출해줘.

다음과 같은 형식으로 결과를 정리해줘:
[{"증정내용": ""}]

주의: json이라는 단어를 출력하지 말고, 위와 같은 형식 그대로 반환해줘.'''

In [6]:
import os

# 이미지가 있는 폴더 경로 (노트북과 같은 폴더라면 '.')
folder = '.'

# 이미지 확장자 필터링해서 리스트 만들기
image_files = [f for f in os.listdir(folder) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]

# 반복해서 처리
for filename in image_files:
    print(f'🖼️ 처리 중: {filename}')
    reply = chat_with_gemini(model, prompt, filename)
    print(reply)
    print('-' * 50)

🖼️ 처리 중: image_001.jpg
이미지에 이벤트 정보가 없습니다.
[]
--------------------------------------------------
🖼️ 처리 중: image_002.jpg
```json
[{"증정내용": "수정 테이프/수능 샤프"}, {"증정내용": "키링/우산"}]
```
--------------------------------------------------
🖼️ 처리 중: image_003.jpg
이미지에 증정내용에 대한 정보가 없습니다.
[{"증정내용": ""}]
--------------------------------------------------
🖼️ 처리 중: image_004.jpg
```json
[{"증정내용": "페이백 상품권 & 체중계 증정"}]
```
--------------------------------------------------
🖼️ 처리 중: image_005.jpg
```json
[{"증정내용": "선착순 구매 한정 혜택"}]
```
--------------------------------------------------
🖼️ 처리 중: image_006.jpg
[{"증정내용": "단독 사은품 문진"}]
--------------------------------------------------
🖼️ 처리 중: image_007.jpg
[{"증정내용": "스티키 폴딩북/젤펜/노트북 파우치"}]
--------------------------------------------------
🖼️ 처리 중: image_008.jpg
[{"증정내용": "YES포인트 증정!"}]
--------------------------------------------------
🖼️ 처리 중: image_009.jpg
[{"증정내용": "eBook 15일 무료 대여"}]
--------------------------------------------------
🖼️ 처리 중: image_010.jp

In [None]:
import re
import json
import pandas as pd

# 🔹 1. 복붙한 텍스트 읽기
with open('예사이미지크롤링.txt', 'r', encoding='utf-8') as f:
    raw_text = f.read()

# 🔹 2. 텍스트 블록 나누기
rows = []
blocks = raw_text.strip().split('📂 ')
for block in blocks:
    if not block.strip():
        continue

    # 파일명 추출
    filename_match = re.search(r'\[(.*?)\]', block)
    filename = filename_match.group(1).strip() if filename_match else 'unknown.jpg'

    # JSON 블록 추출 (백틱 유무 상관없이)
    json_match = re.search(r'```json(.*?)```', block, re.DOTALL)
    if not json_match:
        json_match = re.search(r'(\[\s*{.*?}\s*\])', block, re.DOTALL)

    if json_match:
        try:
            json_text = json_match.group(1).strip('`\n ')
            parsed = json.loads(json_text)
            for item in parsed:
                item['파일명'] = filename
                rows.append(item)
        except Exception as e:
            print(f"❌ JSON 파싱 오류: {filename} → {e}")
            continue


In [13]:

import re
import json

# 1. 텍스트 파일 읽기
with open("예사이미지크롤링.txt", "r", encoding="utf-8-sig") as f:
    raw_text = f.read()

# 2. 결과 저장용
results = {}

# 3. 블록 기준으로 분할
blocks = raw_text.split("🖼️ 처리 중: ")
for block in blocks:
    if not block.strip():
        continue

    lines = block.strip().split('\n')
    image_line = lines[0].strip()
    image_name = image_line if image_line.endswith(".jpg") else None

    if not image_name:
        continue

    # JSON-like 블록 찾기
    json_match = re.search(r'\[.*?\]', block, re.DOTALL)
    if json_match:
        try:
            json_data = json.loads(json_match.group())
            if isinstance(json_data, list) and len(json_data) > 0:
                first_item = json_data[0]
                content = first_item.get("증정내용", "") or ""
                results[image_name] = content
            else:
                results[image_name] = ""
        except:
            results[image_name] = ""
    else:
        results[image_name] = ""

# 4. 결과 저장
with open("예사이미지크롤링.json", "w", encoding="utf-8-sig") as f:
    json.dump(results, f, ensure_ascii=False, indent=2)

print(f"✅ 총 {len(results)}개 이미지 정제 완료 → 예사이미지크롤링.json 저장됨")


✅ 총 390개 이미지 정제 완료 → 예사이미지크롤링.json 저장됨


In [14]:
y4_event

NameError: name 'y4_event' is not defined

In [9]:
# 맵핑준비

import json

with open('예사이미지크롤링.json', 'r', encoding='utf-8-sig') as f:
	data = json.load(f)
data

{'image_001.jpg': '',
 'image_002.jpg': '수정 테이프/수능 샤프',
 'image_003.jpg': '',
 'image_004.jpg': '페이백 상품권 & 체중계 증정',
 'image_005.jpg': '선착순 구매 한정 혜택',
 'image_006.jpg': '단독 사은품 문진',
 'image_007.jpg': '스티키 폴딩북/젤펜/노트북 파우치',
 'image_008.jpg': 'YES포인트 증정!',
 'image_009.jpg': 'eBook 15일 무료 대여',
 'image_010.jpg': '다운로드후 90일 전자책 할인 (30~90%)',
 'image_011.jpg': '퇴마록 소장판 전권 세트',
 'image_012.jpg': '홀로그램 스탠딩 카드',
 'image_013.jpg': '예스24 디퓨저 향기 북마크',
 'image_014.jpg': '한정판 케이스',
 'image_015.jpg': '',
 'image_016.jpg': '한정수량 사은품',
 'image_017.jpg': '',
 'image_018.jpg': '',
 'image_019.jpg': '',
 'image_020.jpg': '',
 'image_021.jpg': '',
 'image_022.jpg': '',
 'image_023.jpg': '금박 양장 노트',
 'image_024.jpg': '',
 'image_025.jpg': '',
 'image_026.jpg': '자세요정 일러스트 필라테스 타월',
 'image_027.jpg': '무료배송',
 'image_028.jpg': '도서 무료 증정',
 'image_029.jpg': '',
 'image_030.jpg': '최대 120일! eBook 무제한 이용권',
 'image_031.jpg': '단독 포토카드 틴케이스 세트',
 'image_032.jpg': '단독 사계절 탁상 달력',
 'image_033.jpg': '단독 일러스트 피크닉 매트',
 'i

In [16]:
cleaned_dict = {}

for key, value in data.items():
    # 이미지 파일명 추출
    match = re.search(r'image_\d+\.jpg', key)
    
    # 정상적인 이미지명이고, 값도 비정상 응답이 아닐 때만 추가
    if match and value and '오류 발생' not in value and '이미지에 증정 내용에 대한 정보가 없습니다' not in value:
        cleaned_key = match.group(0)
        cleaned_dict[cleaned_key] = value
        
cleaned_dict

{'image_002.jpg': '수정 테이프/수능 샤프',
 'image_004.jpg': '페이백 상품권 & 체중계 증정',
 'image_005.jpg': '선착순 구매 한정 혜택',
 'image_006.jpg': '단독 사은품 문진',
 'image_007.jpg': '스티키 폴딩북/젤펜/노트북 파우치',
 'image_008.jpg': 'YES포인트 증정!',
 'image_009.jpg': 'eBook 15일 무료 대여',
 'image_010.jpg': '다운로드후 90일 전자책 할인 (30~90%)',
 'image_011.jpg': '퇴마록 소장판 전권 세트',
 'image_012.jpg': '홀로그램 스탠딩 카드',
 'image_013.jpg': '예스24 디퓨저 향기 북마크',
 'image_014.jpg': '한정판 케이스',
 'image_016.jpg': '한정수량 사은품',
 'image_023.jpg': '금박 양장 노트',
 'image_026.jpg': '자세요정 일러스트 필라테스 타월',
 'image_027.jpg': '무료배송',
 'image_028.jpg': '도서 무료 증정',
 'image_030.jpg': '최대 120일! eBook 무제한 이용권',
 'image_031.jpg': '단독 포토카드 틴케이스 세트',
 'image_032.jpg': '단독 사계절 탁상 달력',
 'image_033.jpg': '단독 일러스트 피크닉 매트',
 'image_034.jpg': '손수건 굿즈',
 'image_035.jpg': '리유저블 텀블러 증정',
 'image_036.jpg': '탐정 유리컵 증정',
 'image_037.jpg': '볼펜 증정',
 'image_038.jpg': '북엔드',
 'image_039.jpg': '단독 타올 증정',
 'image_060.jpg': "'빅 사이클 서머리'",
 'image_063.jpg': '신상 2종 할인 오픈!',
 'image_065.jpg': '무료 나눔',

In [22]:
# map 적용
y4_event['증정내용'] = y4_event['이미지명'].map(cleaned_dict)
y4_event

Unnamed: 0,이미지명,이벤트명,증정내용,기간
0,image_001.jpg,21대 대통령에게 추천하는 책,,2025.05.16. ~ 2025.06.15.
1,image_002.jpg,"2026학년도 수능 최종대비, EBS 수능완성 출간!",수정 테이프/수능 샤프,2025.05.15. ~ 2025.11.06.
2,image_003.jpg,한국학교사서협회와 함께하는 2025 전국 어린이 독후감 대회,,2025.04.30. ~ 2025.08.31.
3,image_004.jpg,[특가] 마인드빌딩 주요 자기계발서 균일가 + 페이백,페이백 상품권 & 체중계 증정,2025.04.29. ~ 2025.05.31.
4,image_005.jpg,NEW 크레마 팔레트 출시,선착순 구매 한정 혜택,상시
...,...,...,...,...
385,image_386.jpg,[만화] 학산문화사 『손끝과 연연』 재정가!,30%할인,2025.05.02. ~ 2025.06.04.
386,image_387.jpg,[만화] 서울미디어코믹스 『가극 소녀!!』 12~15권 UP!,12~15권 UP!,2025.04.30. ~ 2025.06.02.
387,image_388.jpg,"[만화] 루나코믹스 『전생해서, 지금은 시녀입니다』 4권 UP!",30% 세트 할인,2025.04.25. ~ 2025.05.23.
388,image_389.jpg,[만화] S코믹스 『보스의 두 얼굴』 99권 UP!,30% 세트 할인,2025.04.25. ~ 2025.05.23.


In [23]:
y4_event.to_csv('예사이벤트.csv', index=False)

In [1]:
import re

# 1. 텍스트 로드
with open('예사이미지크롤링.txt', 'r', encoding='utf-8') as f:
    text = f.read()

# 2. 블록 단위로 나누기
blocks = text.split('🖼️ 처리 중: ')[1:]  # 첫 블록은 비어 있으니 제외

# 3. 오류난 이미지만 추출
failed_images = []

for block in blocks:
    lines = block.strip().split('\n')
    image_line = lines[0].strip()
    image_name = image_line if image_line.endswith('.jpg') else None

    # 전체 키 실패 패턴 포함 여부 확인
    if '[ERROR] 모든 API 키 실패' in block:
        failed_images.append(image_name)

print(f"❌ 총 실패 이미지 수: {len(failed_images)}")
print(failed_images)

❌ 총 실패 이미지 수: 114
['image_017.jpg', 'image_018.jpg', 'image_019.jpg', 'image_020.jpg', 'image_021.jpg', 'image_022.jpg', 'image_040.jpg', 'image_041.jpg', 'image_042.jpg', 'image_043.jpg', 'image_044.jpg', 'image_045.jpg', 'image_046.jpg', 'image_047.jpg', 'image_048.jpg', 'image_049.jpg', 'image_050.jpg', 'image_051.jpg', 'image_052.jpg', 'image_053.jpg', 'image_054.jpg', 'image_055.jpg', 'image_056.jpg', 'image_057.jpg', 'image_058.jpg', 'image_059.jpg', 'image_078.jpg', 'image_079.jpg', 'image_080.jpg', 'image_081.jpg', 'image_082.jpg', 'image_083.jpg', 'image_084.jpg', 'image_085.jpg', 'image_086.jpg', 'image_087.jpg', 'image_088.jpg', 'image_089.jpg', 'image_090.jpg', 'image_091.jpg', 'image_092.jpg', 'image_093.jpg', 'image_094.jpg', 'image_095.jpg', 'image_113.jpg', 'image_115.jpg', 'image_145.jpg', 'image_146.jpg', 'image_147.jpg', 'image_148.jpg', 'image_149.jpg', 'image_150.jpg', 'image_151.jpg', 'image_152.jpg', 'image_153.jpg', 'image_154.jpg', 'image_155.jpg', 'image_156.j

In [6]:
import google.generativeai as genai
from PIL import Image
import os
import json
import time

# -----------------------
# 1. 초기화
API_KEYS = [
    "AIzaSyBcHB5SD3c5RyjVFKuuT0_Erwv6mCM3kjw",
    "AIzaSyB03zq8mm1KFOG46lbif0xEWGr81Ta0RDw",
    "AIzaSyDIS5FvvjR3E87SYW2KQJeNBAoNL9Eunuc"
]

def init_gemini(api_key):
    genai.configure(api_key=api_key)
    return genai.GenerativeModel('gemini-2.0-flash-001')

# -----------------------
# 2. 응답 함수 (파일 존재 확인 추가)
def chat_with_gemini(model, prompt, image_path):
    try:
        # 파일 존재 확인
        if not os.path.exists(image_path):
            return f"[ERROR] 파일이 존재하지 않습니다: {image_path}"
        
        img = Image.open(image_path)
        response = model.generate_content([prompt, img])
        return response.text
    except Exception as e:
        return f"[ERROR] {e}"

# -----------------------
# 3. 프롬프트
def get_prompt(image_name):
    return f'''
이미지에서 증정 내용을 추출해줘.

다음 형식처럼 반환해줘:
{{
  "이미지명": "{image_name}",
  "증정내용": "..."
}}

정보가 없으면 증정내용은 빈 문자열("")로 표시해줘.
반드시 JSON 형식으로만 답변하고, 마크다운 코드블록 없이 반환해줘.
'''

# -----------------------
# 4. 실패 이미지 리스트 (예시)
failed_images

# -----------------------
# 5. 이미지 폴더 및 파일 확인
image_folder = "."  # 현재 디렉토리 (노트북과 같은 위치)

# 실제 존재하는 이미지 파일만 필터링
existing_images = []
missing_images = []

for image_name in failed_images:
    image_path = os.path.join(image_folder, image_name)
    if os.path.exists(image_path):
        existing_images.append(image_name)
    else:
        missing_images.append(image_name)

print(f"✅ 존재하는 이미지: {len(existing_images)}개")
print(f"❌ 없는 이미지: {len(missing_images)}개")

if missing_images:
    print("없는 이미지들:")
    for img in missing_images:
        print(f"  - {img}")

if not existing_images:
    print("처리할 수 있는 이미지가 없습니다.")
    exit()

# -----------------------
# 6. Gemini 순환 및 실행
result_dict = {}
api_index = 0
model = init_gemini(API_KEYS[api_index])

for i, image_name in enumerate(existing_images, 1):
    image_path = os.path.join(image_folder, image_name)
    print(f"🔄 [{i}/{len(existing_images)}] 재시도 중: {image_name}")

    success = False
    for attempt in range(len(API_KEYS)):
        reply = chat_with_gemini(model, get_prompt(image_name), image_path)

        if "[ERROR]" not in reply:
            success = True
            break
        else:
            print(f"⚠️ 오류 (시도 {attempt+1}): {reply[:60]}...")
            if attempt < len(API_KEYS) - 1:  # 마지막 시도가 아니라면
                print("→ 다음 키로 전환")
                api_index = (api_index + 1) % len(API_KEYS)
                model = init_gemini(API_KEYS[api_index])
                time.sleep(1)

    # 응답 처리
    if success:
        try:
            # 원본 응답 확인용 출력 (디버깅)
            print(f"📝 원본 응답 (처음 200자): {reply[:200]}")
            
            # JSON 파싱 개선
            clean = reply.strip().strip('` \n')
            if clean.startswith('```json'):
                clean = clean[7:]
            if clean.startswith('```'):
                clean = clean[3:]
            if clean.endswith('```'):
                clean = clean[:-3]
            clean = clean.strip()
            
            print(f"🔧 정제된 응답: {clean[:100]}")
            
            # 여러 방법으로 파싱 시도
            parsed_data = None
            
            # 방법 1: JSON 파싱
            try:
                parsed_data = json.loads(clean)
                print("✅ JSON 파싱 성공")
            except json.JSONDecodeError:
                print("❌ JSON 파싱 실패, 다른 방법 시도")
            
            # 방법 2: 중괄호 찾아서 추출
            if not parsed_data:
                try:
                    import re
                    # 중괄호로 둘러싸인 부분 찾기
                    match = re.search(r'\{[^}]*\}', clean, re.DOTALL)
                    if match:
                        json_str = match.group(0)
                        parsed_data = json.loads(json_str)
                        print("✅ 정규식 JSON 파싱 성공")
                except:
                    print("❌ 정규식 JSON 파싱 실패")
            
            # 방법 3: eval 시도 (마지막 수단)
            if not parsed_data:
                try:
                    parsed_data = eval(clean)
                    print("✅ eval 파싱 성공")
                except:
                    print("❌ eval 파싱 실패")
            
            # 방법 4: 단순 텍스트에서 증정내용 추출
            if not parsed_data:
                try:
                    # "증정내용"이라는 키워드 뒤의 내용 추출
                    if "증정내용" in reply:
                        lines = reply.split('\n')
                        for line in lines:
                            if "증정내용" in line and ":" in line:
                                content = line.split(":", 1)[1].strip().strip('"\'')
                                result_dict[image_name] = content
                                print(f"✅ 텍스트 추출 성공: {content[:50]}")
                                break
                        else:
                            result_dict[image_name] = reply.strip()  # 전체 응답 저장
                            print("⚠️ 키워드 찾기 실패, 전체 응답 저장")
                    else:
                        result_dict[image_name] = reply.strip()  # 전체 응답 저장
                        print("⚠️ '증정내용' 키워드 없음, 전체 응답 저장")
                except:
                    result_dict[image_name] = ""
                    print("❌ 텍스트 추출 실패")
            else:
                # 정상 파싱된 경우
                if isinstance(parsed_data, dict):
                    # 이미지명을 실제 파일명으로 강제 교체
                    parsed_data["이미지명"] = image_name
                    result_dict[image_name] = parsed_data.get("증정내용", "")
                else:
                    result_dict[image_name] = str(parsed_data)
                print(f"✅ 파싱 성공: {image_name}")
                
        except Exception as e:
            print(f"⚠️ 전체 파싱 과정 실패: {e}")
            # 원본 응답이라도 저장
            result_dict[image_name] = reply if reply else ""
    else:
        print(f"❌ 모든 시도 실패: {image_name}")
        result_dict[image_name] = ""

    time.sleep(4)

# -----------------------
# 7. 저장 및 통계
with open("재시도_결과.json", "w", encoding="utf-8-sig") as f:
    json.dump(result_dict, f, ensure_ascii=False, indent=2)

# 통계 출력
success_count = sum(1 for v in result_dict.values() if v)
print(f"\n📊 재시도 결과:")
print(f"  - 전체 처리: {len(result_dict)}개")
print(f"  - 성공: {success_count}개")
print(f"  - 실패: {len(result_dict) - success_count}개")
print(f"  - 없는 파일: {len(missing_images)}개")
print("✅ 재시도 완료 → 재시도_결과.json 저장됨")

# 실패한 이미지 목록도 저장
if missing_images:
    with open("없는_파일_목록.txt", "w", encoding="utf-8") as f:
        for img in missing_images:
            f.write(f"{img}\n")
    print("📝 없는 파일 목록 → 없는_파일_목록.txt 저장됨")

✅ 존재하는 이미지: 114개
❌ 없는 이미지: 0개
🔄 [1/114] 재시도 중: image_017.jpg
📝 원본 응답 (처음 200자): ```json
{
  "이미지명": "image_017.jpg",
  "증정내용": ""
}
```
🔧 정제된 응답: json
{
  "이미지명": "image_017.jpg",
  "증정내용": ""
}
❌ JSON 파싱 실패, 다른 방법 시도
✅ 정규식 JSON 파싱 성공
✅ 파싱 성공: image_017.jpg
🔄 [2/114] 재시도 중: image_018.jpg
📝 원본 응답 (처음 200자): ```json
{
  "이미지명": "image_018.jpg",
  "증정내용": "크레마클럽 60일 이용권 전원 증정"
}
```
🔧 정제된 응답: json
{
  "이미지명": "image_018.jpg",
  "증정내용": "크레마클럽 60일 이용권 전원 증정"
}
❌ JSON 파싱 실패, 다른 방법 시도
✅ 정규식 JSON 파싱 성공
✅ 파싱 성공: image_018.jpg
🔄 [3/114] 재시도 중: image_019.jpg
📝 원본 응답 (처음 200자): ```json
{
  "이미지명": "image_019.jpg",
  "증정내용": "한정판 & 양장 노트 증정"
}
```
🔧 정제된 응답: json
{
  "이미지명": "image_019.jpg",
  "증정내용": "한정판 & 양장 노트 증정"
}
❌ JSON 파싱 실패, 다른 방법 시도
✅ 정규식 JSON 파싱 성공
✅ 파싱 성공: image_019.jpg
🔄 [4/114] 재시도 중: image_020.jpg
📝 원본 응답 (처음 200자): ```json
{
  "이미지명": "image_020.jpg",
  "증정내용": "YES상품권 증정"
}
```
🔧 정제된 응답: json
{
  "이미지명": "image_020.jpg",
  "증정내용": "YES상품권 증정"
}
❌ JSON 파싱 실패, 다른 방법 시도
✅ 정규식 JSON 파싱 

In [7]:
import json

with open('재시도_결과.json', 'r', encoding='utf-8-sig') as f:
	data2 = json.load(f)
data2

{'image_017.jpg': '',
 'image_018.jpg': '크레마클럽 60일 이용권 전원 증정',
 'image_019.jpg': '한정판 & 양장 노트 증정',
 'image_020.jpg': 'YES상품권 증정',
 'image_021.jpg': '산복빨래방 미니 책가방 증정',
 'image_022.jpg': '사락 앱 설치 선착순 YES상품권',
 'image_040.jpg': '전용 북커버 증정',
 'image_041.jpg': '친필 사인본 / 친환경 물컵',
 'image_042.jpg': '코마 점보 교정연필',
 'image_043.jpg': '단독 굿즈 키친 클로스',
 'image_044.jpg': '패턴 영어 미니 포스터 3종 세트',
 'image_045.jpg': '식단 & 헬스 다이어리',
 'image_046.jpg': '핫팩',
 'image_047.jpg': '매월 1천원 받기',
 'image_048.jpg': '예스 단독 미니 접시',
 'image_049.jpg': '스탠딩 클립보드 증정',
 'image_050.jpg': '',
 'image_051.jpg': '',
 'image_052.jpg': '',
 'image_053.jpg': '50년 대여',
 'image_054.jpg': '',
 'image_055.jpg': '단어장 메모카드',
 'image_056.jpg': '원터치 컴퓨터 사인펜',
 'image_057.jpg': '아코디언 파일백/스티키/미니 커터칼',
 'image_058.jpg': '',
 'image_059.jpg': '',
 'image_078.jpg': '',
 'image_079.jpg': '카드 커버 스티커',
 'image_080.jpg': 'OMY 컬러링 포스터-서울',
 'image_081.jpg': '태도 리셋 노트',
 'image_082.jpg': '스냅샷 북마크',
 'image_083.jpg': '4단접이 메모지',
 'image_084.jpg': '똥꼬발

In [11]:
# 기존과 재시도 결과 합치기
full_dict = {**data, **data2}  # retry_dict 값이 우선 덮어짐
full_dict

{'image_001.jpg': '',
 'image_002.jpg': '수정 테이프/수능 샤프',
 'image_003.jpg': '',
 'image_004.jpg': '페이백 상품권 & 체중계 증정',
 'image_005.jpg': '선착순 구매 한정 혜택',
 'image_006.jpg': '단독 사은품 문진',
 'image_007.jpg': '스티키 폴딩북/젤펜/노트북 파우치',
 'image_008.jpg': 'YES포인트 증정!',
 'image_009.jpg': 'eBook 15일 무료 대여',
 'image_010.jpg': '다운로드후 90일 전자책 할인 (30~90%)',
 'image_011.jpg': '퇴마록 소장판 전권 세트',
 'image_012.jpg': '홀로그램 스탠딩 카드',
 'image_013.jpg': '예스24 디퓨저 향기 북마크',
 'image_014.jpg': '한정판 케이스',
 'image_015.jpg': '',
 'image_016.jpg': '한정수량 사은품',
 'image_017.jpg': '',
 'image_018.jpg': '크레마클럽 60일 이용권 전원 증정',
 'image_019.jpg': '한정판 & 양장 노트 증정',
 'image_020.jpg': 'YES상품권 증정',
 'image_021.jpg': '산복빨래방 미니 책가방 증정',
 'image_022.jpg': '사락 앱 설치 선착순 YES상품권',
 'image_023.jpg': '금박 양장 노트',
 'image_024.jpg': '',
 'image_025.jpg': '',
 'image_026.jpg': '자세요정 일러스트 필라테스 타월',
 'image_027.jpg': '무료배송',
 'image_028.jpg': '도서 무료 증정',
 'image_029.jpg': '',
 'image_030.jpg': '최대 120일! eBook 무제한 이용권',
 'image_031.jpg': '단독 포토카드 틴케이스 세트'

In [12]:
cleaned_dict2 = {}

for key, value in full_dict.items():
    # 이미지 파일명 추출
    match = re.search(r'image_\d+\.jpg', key)
    
    # 정상적인 이미지명이고, 값도 비정상 응답이 아닐 때만 추가
    if match and value and '오류 발생' not in value and '이미지에 증정 내용에 대한 정보가 없습니다' not in value:
        cleaned_key = match.group(0)
        cleaned_dict2[cleaned_key] = value
        
cleaned_dict2

{'image_002.jpg': '수정 테이프/수능 샤프',
 'image_004.jpg': '페이백 상품권 & 체중계 증정',
 'image_005.jpg': '선착순 구매 한정 혜택',
 'image_006.jpg': '단독 사은품 문진',
 'image_007.jpg': '스티키 폴딩북/젤펜/노트북 파우치',
 'image_008.jpg': 'YES포인트 증정!',
 'image_009.jpg': 'eBook 15일 무료 대여',
 'image_010.jpg': '다운로드후 90일 전자책 할인 (30~90%)',
 'image_011.jpg': '퇴마록 소장판 전권 세트',
 'image_012.jpg': '홀로그램 스탠딩 카드',
 'image_013.jpg': '예스24 디퓨저 향기 북마크',
 'image_014.jpg': '한정판 케이스',
 'image_016.jpg': '한정수량 사은품',
 'image_018.jpg': '크레마클럽 60일 이용권 전원 증정',
 'image_019.jpg': '한정판 & 양장 노트 증정',
 'image_020.jpg': 'YES상품권 증정',
 'image_021.jpg': '산복빨래방 미니 책가방 증정',
 'image_022.jpg': '사락 앱 설치 선착순 YES상품권',
 'image_023.jpg': '금박 양장 노트',
 'image_026.jpg': '자세요정 일러스트 필라테스 타월',
 'image_027.jpg': '무료배송',
 'image_028.jpg': '도서 무료 증정',
 'image_030.jpg': '최대 120일! eBook 무제한 이용권',
 'image_031.jpg': '단독 포토카드 틴케이스 세트',
 'image_032.jpg': '단독 사계절 탁상 달력',
 'image_033.jpg': '단독 일러스트 피크닉 매트',
 'image_034.jpg': '손수건 굿즈',
 'image_035.jpg': '리유저블 텀블러 증정',
 'image_036.jpg': '탐정

In [15]:
import pandas as pd

y4_event = pd.read_csv('예사이벤트.csv')

In [16]:
# map 적용
y4_event['증정내용'] = y4_event['이미지명'].map(cleaned_dict2)
y4_event

Unnamed: 0,이미지명,이벤트명,증정내용,기간
0,image_001.jpg,21대 대통령에게 추천하는 책,,2025.05.16. ~ 2025.06.15.
1,image_002.jpg,"2026학년도 수능 최종대비, EBS 수능완성 출간!",수정 테이프/수능 샤프,2025.05.15. ~ 2025.11.06.
2,image_003.jpg,한국학교사서협회와 함께하는 2025 전국 어린이 독후감 대회,,2025.04.30. ~ 2025.08.31.
3,image_004.jpg,[특가] 마인드빌딩 주요 자기계발서 균일가 + 페이백,페이백 상품권 & 체중계 증정,2025.04.29. ~ 2025.05.31.
4,image_005.jpg,NEW 크레마 팔레트 출시,선착순 구매 한정 혜택,상시
...,...,...,...,...
385,image_386.jpg,[만화] 학산문화사 『손끝과 연연』 재정가!,30%할인,2025.05.02. ~ 2025.06.04.
386,image_387.jpg,[만화] 서울미디어코믹스 『가극 소녀!!』 12~15권 UP!,12~15권 UP!,2025.04.30. ~ 2025.06.02.
387,image_388.jpg,"[만화] 루나코믹스 『전생해서, 지금은 시녀입니다』 4권 UP!",30% 세트 할인,2025.04.25. ~ 2025.05.23.
388,image_389.jpg,[만화] S코믹스 『보스의 두 얼굴』 99권 UP!,30% 세트 할인,2025.04.25. ~ 2025.05.23.


In [18]:
y4_event.to_csv('예사이벤트.csv', index=False)

In [169]:
import pandas as pd
y4_event = pd.read_csv('예사이벤트.csv')
y4_event.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 390 entries, 0 to 389
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이미지명    390 non-null    object
 1   이벤트명    390 non-null    object
 2   증정내용    316 non-null    object
 3   기간      390 non-null    object
dtypes: object(4)
memory usage: 12.3+ KB


In [170]:
# '증정내용' 열에서 누락값이나, NaN이나, None 등 이상한 값들 들어있는 행 추출
gift = y4_event[y4_event['증정내용'].isna() | (y4_event['증정내용'].astype(str).str.strip() == '') | (y4_event['증정내용'].astype(str).str.strip() == 'None') | (y4_event['증정내용'] == '확인불가') | (y4_event['증정내용'] == '정보 없음')]

In [171]:
# '이벤트명' 열에서 증정 이 들어간 행만 추출
gift_2 = gift[gift['이벤트명'].str.contains('증정', na=False)]

In [172]:
import numpy as np

# 1. 이벤트명 공백 제거 (문자열 전체 strip)
gift_2['이벤트명'] = gift_2['이벤트명'].astype(str).str.strip()

# 2. 증정내용이 NaN인 행만 선택
mask = (gift_2['증정내용'].isna()) | (gift_2['증정내용'] == '확인불가')

# 3. 이벤트명에서 `-` 또는 `:` 뒤 내용만 추출하는 함수
def extract_after_symbol(text):
    for sep in [' - ', ': ']:
        if sep in text:
            return text.split(sep, 1)[-1].strip()
    return np.nan  # 해당 구분자 없으면 그대로 NaN

# 4. NaN인 곳에만 추출된 값 채우기
gift_2.loc[mask, '증정내용'] = gift_2.loc[mask, '이벤트명'].apply(extract_after_symbol)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  gift_2['이벤트명'] = gift_2['이벤트명'].astype(str).str.strip()


In [173]:
gift_2 = gift_2.drop(49)

In [174]:
gift_2.loc[130, '증정내용'] = '특대형 독후활동지 증정'
gift_2.loc[159, '증정내용'] = '채점 색연필 증정'

In [175]:
gift_2


Unnamed: 0,이미지명,이벤트명,증정내용,기간
130,image_131.jpg,『도둑을 잡아라』- 특대형 독후활동지 증정,특대형 독후활동지 증정,소진시
150,image_151.jpg,Full 수록 수능 기출문제집 - 모나미 트윈 형광펜 증정,모나미 트윈 형광펜 증정,소진시
159,image_160.jpg,[단독] 예스24 올해의 책 선정 기념『나는 다정한 관찰자가 되기로 했다』- 채점 ...,채점 색연필 증정,소진시
163,image_164.jpg,『극락왕생 10』 - 지장보살 홀로그램 책갈피 증정,지장보살 홀로그램 책갈피 증정,소진시
178,image_179.jpg,『언제내 내 이름』 출간 이벤트 - 내 이름 스티커 증정,내 이름 스티커 증정,소진시
211,image_212.jpg,『두 발로 걷는 고양이 브루노』 - 브루노 핀버튼 증정,브루노 핀버튼 증정,소진시
225,image_226.jpg,『오늘은 회색빛』 - 감정기록달력 증정,감정기록달력 증정,소진시
254,image_255.jpg,『공부는 멘탈 게임이다』 출간 기념 : 동기 부여 스티커 증정,동기 부여 스티커 증정,소진시
272,image_273.jpg,말랑말랑 두뇌발달 그림책 - 산리오 색종이 증정,산리오 색종이 증정,소진시
316,image_317.jpg,『Why? 와이 스포츠 야구』 출간 : 야구 노트 증정,야구 노트 증정,소진시


In [176]:
gift_2.set_index('이미지명', inplace=True)
y4_event.set_index('이미지명', inplace=True)

In [179]:
y4_event.update(gift_2)

In [180]:
y4_event

Unnamed: 0_level_0,이벤트명,증정내용,기간
이미지명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
image_001.jpg,21대 대통령에게 추천하는 책,,2025.05.16. ~ 2025.06.15.
image_002.jpg,"2026학년도 수능 최종대비, EBS 수능완성 출간!",수정 테이프/수능 샤프,2025.05.15. ~ 2025.11.06.
image_003.jpg,한국학교사서협회와 함께하는 2025 전국 어린이 독후감 대회,,2025.04.30. ~ 2025.08.31.
image_004.jpg,[특가] 마인드빌딩 주요 자기계발서 균일가 + 페이백,페이백 상품권 & 체중계 증정,2025.04.29. ~ 2025.05.31.
image_005.jpg,NEW 크레마 팔레트 출시,선착순 구매 한정 혜택,상시
...,...,...,...
image_386.jpg,[만화] 학산문화사 『손끝과 연연』 재정가!,30%할인,2025.05.02. ~ 2025.06.04.
image_387.jpg,[만화] 서울미디어코믹스 『가극 소녀!!』 12~15권 UP!,12~15권 UP!,2025.04.30. ~ 2025.06.02.
image_388.jpg,"[만화] 루나코믹스 『전생해서, 지금은 시녀입니다』 4권 UP!",30% 세트 할인,2025.04.25. ~ 2025.05.23.
image_389.jpg,[만화] S코믹스 『보스의 두 얼굴』 99권 UP!,30% 세트 할인,2025.04.25. ~ 2025.05.23.


In [182]:
y4_event.reset_index(inplace=True)

In [183]:
y4_event[y4_event['증정내용'].isna() | (y4_event['증정내용'].astype(str).str.strip() == '') | (y4_event['증정내용'].astype(str).str.strip() == 'None') | (y4_event['증정내용'] == '확인불가') | (y4_event['증정내용'] == '정보 없음')]

Unnamed: 0,이미지명,이벤트명,증정내용,기간
0,image_001.jpg,21대 대통령에게 추천하는 책,,2025.05.16. ~ 2025.06.15.
2,image_003.jpg,한국학교사서협회와 함께하는 2025 전국 어린이 독후감 대회,,2025.04.30. ~ 2025.08.31.
14,image_015.jpg,2026학년도 수능 대비 EBS 수능특강&연계교재,,2025.01.09. ~ 2025.08.31.
16,image_017.jpg,예스리커버 : 오십 나는 재미있게 살기로 했다,,상시
23,image_024.jpg,쇼펜하우어 & 세네카 필로소피 컬렉션 세트,,상시
...,...,...,...,...
372,image_373.jpg,[만화] 학산문화사 『로열 테일러 - 왕국의 재봉사-』 4권 UP!,,2025.05.20. ~ 2025.06.09.
374,image_375.jpg,"[만화] 노엔코믹스 『슬라임을 잡으면서 300년, 모르는 사이에~』 13권 UP!",,2025.05.16. ~ 2025.06.12.
379,image_380.jpg,[BL만화] 미스터블루 『오메가의 연애 사정』 단행본&웹툰 동시 론칭!,,2025.05.09. ~ 2025.05.22.
381,image_382.jpg,[만화] 학산문화사 『결혼반지 이야기』 15권 완결!,,2025.05.08. ~ 2025.06.11.


In [184]:
# 1. NaN인 행들의 인덱스를 추출
NaN_idx = y4_event[y4_event['증정내용'].isna() | (y4_event['증정내용'].astype(str).str.strip() == '') | (y4_event['증정내용'].astype(str).str.strip() == 'None') | (y4_event['증정내용'] == '확인불가') | (y4_event['증정내용'] == '정보 없음')].index

# 2. 해당 인덱스를 drop
y4_event = y4_event.drop(index=NaN_idx)

y4_event

Unnamed: 0,이미지명,이벤트명,증정내용,기간
1,image_002.jpg,"2026학년도 수능 최종대비, EBS 수능완성 출간!",수정 테이프/수능 샤프,2025.05.15. ~ 2025.11.06.
3,image_004.jpg,[특가] 마인드빌딩 주요 자기계발서 균일가 + 페이백,페이백 상품권 & 체중계 증정,2025.04.29. ~ 2025.05.31.
4,image_005.jpg,NEW 크레마 팔레트 출시,선착순 구매 한정 혜택,상시
5,image_006.jpg,문지 에크리 브랜드전 : 한강 신작 『빛과 실』,단독 사은품 문진,소진시
6,image_007.jpg,[대학생X취준생] 오늘부터 진짜 달라집니다! - 스티키 폴딩북/젤펜/파우치,스티키 폴딩북/젤펜/노트북 파우치,2025.04.01. ~ 2025.06.30.
...,...,...,...,...
385,image_386.jpg,[만화] 학산문화사 『손끝과 연연』 재정가!,30%할인,2025.05.02. ~ 2025.06.04.
386,image_387.jpg,[만화] 서울미디어코믹스 『가극 소녀!!』 12~15권 UP!,12~15권 UP!,2025.04.30. ~ 2025.06.02.
387,image_388.jpg,"[만화] 루나코믹스 『전생해서, 지금은 시녀입니다』 4권 UP!",30% 세트 할인,2025.04.25. ~ 2025.05.23.
388,image_389.jpg,[만화] S코믹스 『보스의 두 얼굴』 99권 UP!,30% 세트 할인,2025.04.25. ~ 2025.05.23.


In [185]:
y4_event.to_csv('예사이벤트.csv', index=False)