# 다음 카페 크롤링 단계별 테스트
야용사 카페에서 글러브 게시글 수집

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
import time
import json
import os

In [None]:
# 1. Chrome 드라이버 설정
options = webdriver.ChromeOptions()
options.add_argument('--disable-blink-features=AutomationControlled')
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('useAutomationExtension', False)
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
options.add_experimental_option("detach", True)

driver = webdriver.Chrome(options=options)
print("✅ Chrome 드라이버 생성 완료")

In [None]:
# 2. 야용사 카페로 이동
driver.get("https://cafe.daum.net/baseballsale")
time.sleep(3)
print("✅ 야용사 카페 접속 완료")
print(f"현재 URL: {driver.current_url}")

In [None]:
# 3. 수동 로그인 대기
print("\n🔑 다음 카카오 계정으로 로그인해주세요...")
print("   로그인 완료 후 엔터를 누르세요")
input("로그인 완료 후 엔터: ")
print("✅ 로그인 확인")

In [None]:
# 4. 중고글러브벼룩시장 게시판으로 이동
board_url = "https://cafe.daum.net/baseballsale/79XF"
driver.get(board_url)
time.sleep(3)
print(f"✅ 중고글러브벼룩시장 게시판 접속")
print(f"현재 URL: {driver.current_url}")

In [None]:
# 5. iframe 찾기
iframe_found = False
iframe_ids = ["cafe_main", "down", "cafe_content"]

for iframe_id in iframe_ids:
    try:
        iframe = driver.find_element(By.ID, iframe_id)
        driver.switch_to.frame(iframe)
        print(f"✅ iframe 전환 성공: {iframe_id}")
        iframe_found = True
        break
    except:
        print(f"❌ iframe 찾기 실패: {iframe_id}")
        continue

if not iframe_found:
    print("⚠️ iframe을 찾지 못했지만 계속 진행합니다...")

In [None]:
# 6. 게시글 목록 찾기 - 다양한 셀렉터 시도
articles = []

# 시도 1: table.bbsList
articles = driver.find_elements(By.CSS_SELECTOR, "table.bbsList tbody tr")
print(f"셀렉터 1 (table.bbsList tbody tr): {len(articles)}개")

if not articles:
    # 시도 2: 일반 table
    articles = driver.find_elements(By.CSS_SELECTOR, "table tbody tr")
    print(f"셀렉터 2 (table tbody tr): {len(articles)}개")

if not articles:
    # 시도 3: 모든 tr
    articles = driver.find_elements(By.TAG_NAME, "tr")
    print(f"셀렉터 3 (모든 tr): {len(articles)}개")
    # 필터링
    articles = [a for a in articles if a.text and '공지' not in a.text and '번호' not in a.text]
    print(f"필터링 후: {len(articles)}개")

In [None]:
# 7. HTML 구조 디버깅
print("\n=== HTML 구조 분석 ===")

# 페이지 소스 확인
page_source = driver.page_source[:2000]
if 'bbsList' in page_source:
    print("✅ bbsList 클래스 발견")
if 'listBody' in page_source:
    print("✅ listBody ID 발견")

# 테이블 확인
tables = driver.find_elements(By.TAG_NAME, "table")
print(f"\n전체 table 수: {len(tables)}")
for i, table in enumerate(tables[:3]):
    class_name = table.get_attribute("class")
    print(f"  Table {i+1}: class='{class_name}'")

# 링크 확인
links = driver.find_elements(By.CSS_SELECTOR, "a[href*='/baseballsale/']")
print(f"\n게시글 링크 수: {len(links)}")
for i, link in enumerate(links[:5]):
    text = link.text.strip()
    if text:
        print(f"  링크 {i+1}: {text[:50]}")

In [None]:
# 8. 첫 번째 게시글 상세 분석
if articles and len(articles) > 0:
    print("\n=== 첫 번째 게시글 분석 ===")
    article = articles[0]
    print(f"전체 텍스트: {article.text[:200]}")
    
    # TD 요소들 확인
    tds = article.find_elements(By.TAG_NAME, "td")
    print(f"\nTD 개수: {len(tds)}")
    for i, td in enumerate(tds):
        print(f"  TD {i+1}: {td.text.strip()[:30]}")
    
    # 링크 확인
    try:
        link = article.find_element(By.CSS_SELECTOR, "a")
        print(f"\n링크 텍스트: {link.text}")
        print(f"링크 URL: {link.get_attribute('href')}")
    except:
        print("\n링크를 찾을 수 없음")
else:
    print("게시글을 찾을 수 없습니다!")

In [None]:
# 9. 실제 게시글 수집
products = []

for idx, article in enumerate(articles[:10], 1):
    try:
        product_data = {}
        
        # 제목과 링크 찾기
        try:
            # 가장 일반적인 다음 카페 구조
            link = article.find_element(By.CSS_SELECTOR, "td.title a")
            product_data['title'] = link.text.strip()
            product_data['url'] = link.get_attribute('href')
        except:
            try:
                # 대체 방법
                link = article.find_element(By.CSS_SELECTOR, "a[href*='/baseballsale/']")
                product_data['title'] = link.text.strip()
                product_data['url'] = link.get_attribute('href')
            except:
                continue
        
        # 제목이 없으면 스킵
        if not product_data['title']:
            continue
        
        # 공지 제외
        if '공지' in product_data['title']:
            continue
        
        # TD 순서로 데이터 추출
        tds = article.find_elements(By.TAG_NAME, "td")
        if len(tds) >= 5:
            product_data['author'] = tds[2].text.strip() if len(tds) > 2 else ''
            product_data['date'] = tds[3].text.strip() if len(tds) > 3 else ''
            product_data['views'] = tds[4].text.strip() if len(tds) > 4 else '0'
        else:
            product_data['author'] = ''
            product_data['date'] = ''
            product_data['views'] = '0'
        
        products.append(product_data)
        print(f"✅ [{idx}] {product_data['title'][:50]}")
        
    except Exception as e:
        print(f"❌ [{idx}] 오류: {e}")
        continue

print(f"\n총 {len(products)}개 게시글 수집 완료")

In [None]:
# 10. 수집된 데이터 확인
if products:
    print("\n=== 수집된 데이터 ===")
    for i, product in enumerate(products[:5], 1):
        print(f"\n[{i}] {product['title']}")
        print(f"  작성자: {product.get('author', '미상')}")
        print(f"  날짜: {product.get('date', '미상')}")
        print(f"  조회수: {product.get('views', '0')}")
        print(f"  URL: {product.get('url', '')}")
else:
    print("수집된 데이터가 없습니다!")

In [None]:
# 브라우저 종료 (필요시)
# driver.quit()