In [105]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import json
import time

# 브라우저 드라이버 설정
driver = webdriver.Chrome()

# 특정 URL에 연결하는 부분 (첫 페이지 열기)
driver.get("https://accident.knia.or.kr/example1")

# 데이터를 저장할 리스트
data = []

# 반복 횟수 설정
max_pages = 209  # 최대 페이지 수
current_page = 1  # 현재 페이지 번호

# 페이지 크롤링
while current_page <= max_pages:
    print(f"현재 {current_page}페이지 크롤링 중...")
    # 페이지가 로드될 때까지 기다리기
    WebDriverWait(driver, 10).until(EC.presence_of_element_located(
        (By.XPATH, '//*[@class="bbs_table_body"]')))

    # style 속성이 "display: table-row;"인 tr 태그만 찾기
    tb_rows = driver.find_elements(
        By.XPATH, '//*[@class="bbs_table_body"]/tr[@style="display: table-row;"]')  # style 속성 조건 추가

    # 각 페이지에서 데이터를 가져옴
    for row in tb_rows:
        # tb_title: td 안의 a 태그 텍스트
        tb_title = row.find_element(
            By.XPATH, './/td[@class="tb_title"]/a').text if row.find_elements(By.XPATH, './/td/a') else ""

        # tb_imp: td 태그 안의 텍스트 (class="tb_imp")
        tb_imp_elements = row.find_elements(
            By.XPATH, './/td[@class="tb_imp"]')  # 여러 개의 tb_imp 찾기

        # 두 개의 tb_imp가 있을 경우 첫 번째는 청구인 과실, 두 번째는 피청구인 과실
        if len(tb_imp_elements) >= 2:
            claimant_fault = tb_imp_elements[0].text  # 첫 번째 tb_imp는 청구인 과실 비율
            # 두 번째 tb_imp는 피청구인 과실 비율
            defendant_fault = tb_imp_elements[1].text
        else:
            claimant_fault = ""
            defendant_fault = ""

        # 상황, 청구인 과실 비율, 피청구인 과실 비율 순으로 추출하여 dict로 저장
        entry = {
            "상황": tb_title,
            "청구인 과실 비율": claimant_fault,
            "피청구인 과실 비율": defendant_fault
        }

        # 리스트에 추가
        data.append(entry)

    # '다음 페이지' 버튼 클릭 (id가 "remo"인 td 안에 button이 있음)
    try:
        # 'remo' 안의 모든 버튼 찾기
        buttons = driver.find_elements(
            By.XPATH, '//*[@id="remo"]/button[@class="tb_paging"]')

        # 텍스트가 '>'인 버튼 찾기
        next_button = None
        for button in buttons:
            if button.text.strip() == ">":  # 텍스트가 '>'인 버튼 찾기
                next_button = button
                break

        # 버튼 클릭
        if next_button:
            next_button.click()
            time.sleep(2)  # 페이지 로딩 시간을 기다림
        else:
            print("다음 페이지 버튼을 찾을 수 없습니다.")
            break

    except Exception as e:
        # 더 이상 '다음 페이지' 버튼이 없거나 오류 발생 시 종료
        print(f"오류 발생 또는 모든 페이지를 크롤링했습니다: {e}")
        break

    # 현재 페이지 번호 증가
    current_page += 1

# JSON 파일로 저장
with open("accident_data_all_pages.json", "w", encoding="utf-8") as json_file:
    json.dump(data, json_file, ensure_ascii=False, indent=4)

# 브라우저 종료
driver.quit()

print("모든 페이지에서 크롤링한 데이터가 accident_data_all_pages.json 파일로 저장되었습니다.")

현재 1페이지 크롤링 중...
현재 2페이지 크롤링 중...
현재 3페이지 크롤링 중...
현재 4페이지 크롤링 중...
현재 5페이지 크롤링 중...
현재 6페이지 크롤링 중...
현재 7페이지 크롤링 중...
현재 8페이지 크롤링 중...
현재 9페이지 크롤링 중...
현재 10페이지 크롤링 중...
현재 11페이지 크롤링 중...
현재 12페이지 크롤링 중...
현재 13페이지 크롤링 중...
현재 14페이지 크롤링 중...
현재 15페이지 크롤링 중...
현재 16페이지 크롤링 중...
현재 17페이지 크롤링 중...
현재 18페이지 크롤링 중...
현재 19페이지 크롤링 중...
현재 20페이지 크롤링 중...
현재 21페이지 크롤링 중...
현재 22페이지 크롤링 중...
현재 23페이지 크롤링 중...
현재 24페이지 크롤링 중...
현재 25페이지 크롤링 중...
현재 26페이지 크롤링 중...
현재 27페이지 크롤링 중...
현재 28페이지 크롤링 중...
현재 29페이지 크롤링 중...
현재 30페이지 크롤링 중...
현재 31페이지 크롤링 중...
현재 32페이지 크롤링 중...
현재 33페이지 크롤링 중...
현재 34페이지 크롤링 중...
현재 35페이지 크롤링 중...
현재 36페이지 크롤링 중...
현재 37페이지 크롤링 중...
현재 38페이지 크롤링 중...
현재 39페이지 크롤링 중...
현재 40페이지 크롤링 중...
현재 41페이지 크롤링 중...
현재 42페이지 크롤링 중...
현재 43페이지 크롤링 중...
현재 44페이지 크롤링 중...
현재 45페이지 크롤링 중...
현재 46페이지 크롤링 중...
현재 47페이지 크롤링 중...
현재 48페이지 크롤링 중...
현재 49페이지 크롤링 중...
현재 50페이지 크롤링 중...
현재 51페이지 크롤링 중...
현재 52페이지 크롤링 중...
현재 53페이지 크롤링 중...
현재 54페이지 크롤링 중...
현재 55페이지 크롤링 중...
현재 56페이지 크롤링 중...
현