In [None]:
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import Select         # 드롭다운 메뉴 선택

import pandas as pd
import time
import re
import os
from tqdm import tqdm

from datetime import datetime as dt
from datetime import timedelta

# 팝업창 에러 제어
from selenium.common.exceptions import NoAlertPresentException
import warnings
warnings.filterwarnings('ignore')

import matplotlib.pyplot as plt

## 창 닫힘 방지 옵션
options = Options()
options.add_experimental_option("detach", True)

url = "https://taas.koroad.or.kr/gis/mcm/mcl/initMap.do?menuId=GIS_GMP_STS_RSN"   # 교통사고분석시스템 GIS url

driver = webdriver.Chrome(options=options)
driver.get(url)

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

### 융합 분석으로 이동 ###
driver.find_element(By.CSS_SELECTOR, "#menuRoadNoSearch > a").click()
time.sleep(0.3)


def get_data():
    numbers = []
    regions = []
    seen_ids = set()

    driver.switch_to.window(driver.window_handles[-1])
    viewport = driver.find_element(By.CLASS_NAME, "slick-viewport")

    previous_count = 0
    max_tries = 500  # 무한 루프 방지

    for _ in range(max_tries):
        # 현재 페이지 소스에서 목록 추출
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        items = soup.select("#accidentInfoListView > div.slick-viewport > div > div")

        for item in items:
            try:
                number = item.select_one(".slick-cell.l0.r0").text.strip()
                region = item.select_one(".slick-cell.l3.r3").text.strip()

                if number not in seen_ids:
                    seen_ids.add(number)
                    numbers.append(number)
                    regions.append(region)
            except:
                continue

        # 스크롤 내려서 다음 항목 렌더링
        driver.execute_script("arguments[0].scrollTop += 200", viewport)
        time.sleep(0.3)

        # 더 이상 늘지 않으면 종료
        if len(seen_ids) == previous_count:
            break
        previous_count = len(seen_ids)

    print(f"총 {len(numbers)}")

    driver.close()
    driver.switch_to.window(driver.window_handles[0])
    return numbers, regions

In [51]:
region_df = pd.DataFrame(columns=['구분번호', '시군구', '도로종류', '도로명'])
region_df.head()

Unnamed: 0,구분번호,시군구,도로종류,도로명


In [None]:
### 중간에 결과 없음 뜨면 다음으로.
"""
2014년 ~ 2024년 사고 데이터 수집

사고년도 : #ptsNafYearStart ~ #ptsNafYearEnd
도로종류 : #ptsNafRoadRank
도로명 : #ptsNafCh1RoadName
시도 : #ptsNafSido
시군구 : #ptsNafSigungu

전체 사고 유형 선택
사고유형 : #ptsNafCh1AccidentContent > li:nth-child(1~4) > input[type=checkbox]

* 검색 버튼 클릭 다음 time.sleep() *
   : 검색 결과 빨리 뜨면 시간 조정 가능.
"""
soup = BeautifulSoup(driver.page_source, 'html.parser')
years = soup.select("#ptsNafYearStart > option")

type_accident = "#ptsNafCh1AccidentContent > li > input[type=checkbox]"
checkboxs = driver.find_elements(By.CSS_SELECTOR, type_accident)

# 체크박스 선택 초기화
for checkbox in checkboxs:
    if checkbox.is_selected():
        checkbox.click()

# 사고 전체 선택
for i in range(4):
    driver.find_elements(By.CSS_SELECTOR, type_accident)[i].click()


time.sleep(0.1)

for idx in range(len(years[7:])-1, -1, -3):  # 2014 ~ 2024
  # 시작년도 선택
  driver.find_element('id', 'ptsNafYearStart').click()
  start_ = Select(driver.find_element('id', 'ptsNafYearStart'))
  start_.select_by_index(idx)

  # 종료년도 선택 
  driver.find_element('id', 'ptsNafYearEnd').click()
  end_ = Select(driver.find_element('id', 'ptsNafYearEnd'))
  end_.select_by_index(0)   # 첫번째 요소 선택 -> 3년 치 자료 조회.


  ### 도로 종류 ###
  soup = BeautifulSoup(driver.page_source, 'html.parser')
  rranks = soup.select('#ptsNafRoadRank > option')
  rranks = [x.text for x in rranks]


  for rank in tqdm(rranks):
    Select(driver.find_element('id', 'ptsNafRoadRank')).select_by_visible_text(rank)
    time.sleep(0.1)

    ### 도로명 ###
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    rnames = soup.select('#ptsNafCh1RoadName > option')
    rnames= [x.text for x in rnames]

    for name in tqdm(rnames):

      # 검색결과 flag
      if_result = 1

      Select(driver.find_element('id', 'ptsNafCh1RoadName')).select_by_visible_text(name)
      time.sleep(1)


      ### 전체 지역으로 검색 -> 시도, 시군구 선택 x. 전체가 default ###

      ## 검색 버튼 클릭
      search_button = "#roadNumberAccidentFind > div:nth-child(4) > p > a"
      driver.find_elements(By.CSS_SELECTOR, search_button)[0].click()

      time.sleep(3.5)

      ### 에러 팝업 창 처리 ###
      try:
        alert = driver.switch_to.alert
        alert.accept()
        if_result = 0
      except NoAlertPresentException:
        pass

      if if_result:
        
        ## 목록보기
        show_list = "#roadNumberAccidentFind > div.searc-total > div.btn > p > a"
        driver.find_elements(By.CSS_SELECTOR, show_list)[0].click()

        numbers, regions = get_data()
        for number, region in zip(numbers, regions):
           region_df.loc[len(region_df)] = [number, region, rank, name]

  0%|          | 0/2 [00:00<?, ?it/s]

총 1




총 36




총 2




총 1




총 1




총 19
총 1624


 17%|█▋        | 21/126 [03:26<17:12,  9.83s/it]
  0%|          | 0/2 [03:31<?, ?it/s]


KeyboardInterrupt: 

In [48]:
region_df.shape
# region_df.head()

(2286, 4)

In [42]:
print(len(numbers))

2


In [49]:
region_df['도로명'].value_counts()


도로명
경부고속도로    2015
경인고속도로     229
영동선         19
고창담양선       18
중부선          2
매원교          1
석적육교         1
증약터널         1
Name: count, dtype: int64