In [3]:
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd

In [4]:
# WebDriver 설정
driver = webdriver.Chrome()  # ChromeDriver 경로 지정 필요
url = "https://www.baduk.or.kr/record/diary.asp"

# 연도 범위 설정
years = range(2013, 2025)

try:
    for year in years:
        print(f"{year}년 데이터 크롤링 시작...")
        driver.get(url)
        time.sleep(2)  # 페이지 로드 대기

        # 연도 선택
        wait = WebDriverWait(driver, 10)
        year_dropdown = wait.until(EC.presence_of_element_located((By.NAME, "game_date")))
        select = Select(year_dropdown)
        select.select_by_value(str(year))  # 연도 선택

        # 검색 버튼 클릭
        search_button = wait.until(EC.element_to_be_clickable((By.CLASS_NAME, "search")))
        search_button.click()
        time.sleep(2)  # 페이지 로드 대기

        # 크롤링 데이터 저장용 리스트
        year_data = []
        while True:
            # 테이블 로딩 대기
            wait.until(EC.presence_of_element_located((By.CLASS_NAME, "tbstyle01")))
            table = driver.find_element(By.CLASS_NAME, "tbstyle01")  # 테이블 새로 찾기

            # 테이블 데이터 추출
            rows = table.find_elements(By.TAG_NAME, "tr")
            for row in rows:
                columns = row.find_elements(By.TAG_NAME, "td")
                if columns:
                    year_data.append([col.text.strip() for col in columns])

            print(f"{year}년 현재 데이터 수: {len(year_data)}")

            # NEXT 버튼 상태 확인 및 클릭
            try:
                next_button = driver.find_element(By.XPATH, "//a[contains(text(), 'NEXT')]")
                if "disabled" in next_button.get_attribute("class"):
                    print(f"{year}년 마지막 페이지 도달.")
                    break
                next_button.click()
                time.sleep(2)  # 페이지 로드 대기
            except Exception:
                print(f"{year}년 마지막 페이지에 도달했거나 NEXT 버튼을 찾을 수 없습니다.")
                break

        # 데이터프레임 생성 및 저장
        df = pd.DataFrame(year_data, columns=["날짜", "라운드", "승자", "패자", "결과"])
        df.to_csv(f"../data/baduk_{year}.csv", index=False, encoding="utf-8-sig")
        print(f"{year}년 데이터 저장 완료.")

except Exception as e:
    print(f"오류 발생: {e}")

finally:
    driver.quit()

print("모든 연도 데이터 다운로드 완료.")

2013년 데이터 크롤링 시작...
2013년 현재 데이터 수: 10
2013년 현재 데이터 수: 20
2013년 현재 데이터 수: 30
2013년 현재 데이터 수: 40
2013년 현재 데이터 수: 50
2013년 현재 데이터 수: 60
2013년 현재 데이터 수: 70
2013년 현재 데이터 수: 80
2013년 현재 데이터 수: 90
2013년 현재 데이터 수: 100
2013년 현재 데이터 수: 110
2013년 현재 데이터 수: 120
2013년 현재 데이터 수: 130
2013년 현재 데이터 수: 140
2013년 현재 데이터 수: 150
2013년 현재 데이터 수: 160
2013년 현재 데이터 수: 170
2013년 현재 데이터 수: 180
2013년 현재 데이터 수: 190
2013년 현재 데이터 수: 200
2013년 현재 데이터 수: 210
2013년 현재 데이터 수: 220
2013년 현재 데이터 수: 230
2013년 현재 데이터 수: 240
2013년 현재 데이터 수: 250
2013년 현재 데이터 수: 260
2013년 현재 데이터 수: 270
2013년 현재 데이터 수: 280
2013년 현재 데이터 수: 290
2013년 현재 데이터 수: 300
2013년 현재 데이터 수: 310
2013년 현재 데이터 수: 320
2013년 현재 데이터 수: 330
2013년 현재 데이터 수: 340
2013년 현재 데이터 수: 350
2013년 현재 데이터 수: 360
2013년 현재 데이터 수: 370
2013년 현재 데이터 수: 380
2013년 현재 데이터 수: 390
2013년 현재 데이터 수: 400
2013년 현재 데이터 수: 410
2013년 현재 데이터 수: 420
2013년 현재 데이터 수: 430
2013년 현재 데이터 수: 440
2013년 현재 데이터 수: 450
2013년 현재 데이터 수: 460
2013년 현재 데이터 수: 470
2013년 현재 데이터 수: 480
2013년 현재 데이터 수: 490
2013년 현재 